Saltar al contenido principal
InicioBlogInteligencia Artificial (IA)

¿Qué es la tokenización?

La tokenización divide el texto en partes más pequeñas para facilitar el análisis mecánico y ayudar a las máquinas a comprender el lenguaje humano.
3 may 2024  · 9 min leer

La tokenización, en el ámbito del Procesamiento del Lenguaje Natural (PLN) y el aprendizaje automático, se refiere al proceso de convertir una secuencia de texto en partes más pequeñas, conocidas como tokens. Estas fichas pueden ser tan pequeñas como caracteres o tan largas como palabras. La razón principal de la importancia de este proceso es que ayuda a las máquinas a entender el lenguaje humano al descomponerlo en trozos del tamaño de un bocado, que son más fáciles de analizar.

Explicación de la tokenización

Imagina que intentas enseñar a leer a un niño. En lugar de introducirles directamente en párrafos complejos, empezaría introduciéndoles letras sueltas, luego sílabas y, por último, palabras enteras. De forma similar, la tokenización descompone grandes extensiones de texto en unidades más digeribles y comprensibles para las máquinas.

El objetivo principal de la tokenización es representar el texto de forma que tenga sentido para las máquinas sin perder su contexto. Al convertir el texto en tokens, los algoritmos pueden identificar patrones más fácilmente. Este reconocimiento de patrones es crucial porque hace posible que las máquinas entiendan y respondan a la información humana. Por ejemplo, cuando una máquina encuentra la palabra "correr", no la ve como una entidad singular, sino como una combinación de tokens que puede analizar y de la que puede extraer un significado.

Para profundizar en la mecánica, considere la frase: "Los chatbots son útiles". Cuando tokenizamos esta frase por palabras, se transforma en una matriz de palabras individuales:

["Chatbots", "are", "helpful"].

Se trata de un enfoque sencillo en el que los espacios suelen dictar los límites de las fichas. Sin embargo, si tuviéramos que tokenizar por caracteres, la frase se fragmentaría en:

["C", "h", "a", "t", "b", "o", "t", "s", " ", "a", "r", "e", " ", "h", "e", "l", "p", "f", "u", "l"].

Este desglose a nivel de caracteres es más granular y puede ser especialmente útil para determinadas lenguas o tareas específicas de PNL.

En esencia, la tokenización es como diseccionar una frase para comprender su anatomía. Al igual que los médicos estudian las células individuales para comprender un órgano, los profesionales de la PNL utilizan la tokenización para diseccionar y comprender la estructura y el significado del texto.

Cabe señalar que, aunque nuestro debate se centra en la tokenización en el contexto del procesamiento del lenguaje, el término "tokenización" también se utiliza en los ámbitos de la seguridad y la privacidad, especialmente en prácticas de protección de datos como la tokenización de tarjetas de crédito. En estos casos, los elementos de datos sensibles se sustituyen por equivalentes no sensibles, denominados tokens. Esta distinción es crucial para evitar cualquier confusión entre ambos contextos.

Tipos de tokenización

Los métodos de tokenización varían en función de la granularidad del desglose del texto y de los requisitos específicos de la tarea en cuestión. Estos métodos pueden ir desde diseccionar el texto en palabras sueltas hasta descomponerlo en caracteres o unidades aún más pequeñas. A continuación se describen los distintos tipos:

  • Tokenización de palabras. Este método descompone el texto en palabras individuales. Es el método más habitual y resulta especialmente eficaz en lenguas con límites claros entre palabras, como el inglés.
  • Tokenización de caracteres. Aquí, el texto se segmenta en caracteres individuales. Este método es beneficioso para lenguas que carecen de límites claros entre palabras o para tareas que requieren un análisis granular, como la corrección ortográfica.
  • Tokenización de subpalabras. Este método, que establece un equilibrio entre la tokenización de palabras y la de caracteres, divide el texto en unidades que pueden ser mayores que un solo carácter pero menores que una palabra completa. Por ejemplo, "Chatbots" podría tokenizarse en "Chat" y "bots". Este enfoque es especialmente útil para las lenguas que forman significado combinando unidades más pequeñas o cuando se trata de palabras fuera de vocabulario en tareas de PNL.

Casos prácticos de tokenización

La tokenización es la columna vertebral de un sinfín de aplicaciones en el ámbito digital, ya que permite a las máquinas procesar y comprender grandes cantidades de datos de texto. Al dividir el texto en fragmentos manejables, la tokenización facilita un análisis de datos más eficaz y preciso. He aquí algunos casos de uso destacados en los que la tokenización desempeña un papel fundamental:

  • Motores de búsqueda. Cuando escribes una consulta en un motor de búsqueda como Google, éste emplea la tokenización para diseccionar tu entrada. Este desglose ayuda al motor a cribar miles de millones de documentos para presentarle los resultados más relevantes.
  • Traducción automática. Herramientas como Google Translate utilizan la tokenización para segmentar frases en el idioma de origen. Una vez tokenizados, estos segmentos pueden traducirse y luego reconstruirse en la lengua de destino, garantizando que la traducción conserva el contexto original.
  • Reconocimiento de voz. Los asistentes activados por voz como Siri o Alexa dependen en gran medida de la tokenización. Cuando planteas una pregunta o una orden, tus palabras habladas se convierten primero en texto. A continuación, este texto se tokeniza, lo que permite al sistema procesar su solicitud y actuar en consecuencia.

Retos de la tokenización

Navegar por las complejidades del lenguaje humano, con sus matices y ambigüedades, presenta una serie de retos únicos para la tokenización. A continuación profundizamos en algunos de estos obstáculos:

  • Ambigüedad. El lenguaje es intrínsecamente ambiguo. Considere la frase "Volar en avión puede ser peligroso". Dependiendo de cómo se interprete, podría significar que el acto de pilotar aviones es arriesgado o que los aviones en vuelo suponen un peligro. Estas ambigüedades pueden dar lugar a interpretaciones muy diferentes.
  • Lenguas sin fronteras claras. Algunas lenguas, como el chino o el japonés, no tienen espacios claros entre las palabras, lo que hace que la tokenización sea una tarea más compleja. Determinar dónde acaba una palabra y empieza otra puede ser un reto importante en este tipo de lenguas.
  • Tratamiento de caracteres especiales. Los textos suelen contener algo más que palabras. Las direcciones de correo electrónico, las URL o los símbolos especiales pueden ser difíciles de tokenizar. Por ejemplo, ¿"john.doe@email.com" debe tratarse como un único token o dividirse en el punto o el símbolo "@"?

Se han desarrollado métodos avanzados de tokenización, como los tokenizadores que tienen en cuenta el contexto, como el tokenizador BERT, para tratar estas ambigüedades. En el caso de las lenguas sin límites claros entre palabras, la tokenización de caracteres o subpalabras puede ofrecer un enfoque más eficaz. Además, las reglas predefinidas y las expresiones regulares pueden ayudar a manejar caracteres especiales y cadenas complejas.

Implementación de la tokenización

El panorama del procesamiento del lenguaje natural ofrece una plétora de herramientas, cada una adaptada a necesidades y complejidades específicas. He aquí una guía de algunas de las herramientas y metodologías más destacadas disponibles para la tokenización:

  • NLTK (kit de herramientas de lenguaje natural). NLTK es una biblioteca de Python muy completa que satisface una amplia gama de necesidades lingüísticas. Ofrece funciones de tokenización de palabras y frases, lo que lo convierte en una opción versátil tanto para principiantes como para profesionales experimentados.
  • Spacy. Spacy, una alternativa moderna y eficaz a NLTK, es otra biblioteca de PNL basada en Python. Presume de velocidad y admite varios idiomas, lo que la convierte en una de las favoritas para aplicaciones a gran escala.
  • Tokenizador BERT. Este tokenizador, que surge del modelo preentrenado BERT, destaca en la tokenización sensible al contexto. Es experto en el tratamiento de los matices y ambigüedades del lenguaje, lo que lo convierte en la mejor opción para proyectos avanzados de PNL (véase este tutorial sobre PNL con BERT).
  • Técnicas avanzadas.
    • Codificación Byte-Pair (BPE). BPE es un método de tokenización adaptable que se basa en los pares de bytes más frecuentes de un texto. Es especialmente eficaz en las lenguas que forman el significado combinando unidades más pequeñas.
    • SentencePiece. Un tokenizador y detokenizador de texto no supervisado principalmente para tareas de generación de texto basadas en redes neuronales. Maneja varios idiomas con un único modelo y puede tokenizar el texto en subpalabras, lo que lo hace versátil para diversas tareas de PNL.

La elección de la herramienta debe ajustarse a los requisitos específicos del proyecto. Para los que se inician en la PNL, NLTK o Spacy pueden ofrecer una curva de aprendizaje más accesible. Sin embargo, para proyectos que exigen una comprensión más profunda del contexto y los matices, el tokenizador BERT destaca como una opción sólida.

Cómo utilicé la tokenización en un proyecto de clasificador de valoraciones

Adquirí mi experiencia inicial con la tokenización de texto mientras trabajaba en un proyecto de cartera hace tres años. El proyecto consistió en un conjunto de datos con reseñas y valoraciones de usuarios, que utilicé para desarrollar un modelo de clasificación de texto de aprendizaje profundo. Utilicé `word_tokenize` de NLTK para limpiar el texto y `Tokenizer` de Keras para preprocesarlo.

Exploremos cómo utilicé los tokenizadores en el proyecto:

  1. Cuando se trabaja con datos de PNL, se suelen utilizar tokenizadores para procesar y limpiar el conjunto de datos de texto. El objetivo es eliminar del texto las palabras vacías, los signos de puntuación y cualquier otra información irrelevante. Los tokenizadores transforman el texto en una lista de palabras, que pueden limpiarse mediante una función de limpieza de texto.
  2. Después, utilicé el método Tokenizer de Keras para transformar el texto en una matriz para su análisis y preparar los tokens para el modelo de aprendizaje profundo. En este caso, utilicé el modelo LSTM bidireccional, que produjo los resultados más favorables.
  3. A continuación, he convertido los tokens en una secuencia utilizando la función `texts_to_sequences`.
  4. Antes de introducir la secuencia en el modelo, tuve que añadir relleno para que la secuencia de números tuviera la misma longitud.
  5. Por último, dividí el conjunto de datos en conjuntos de entrenamiento y de pruebas, entrené el modelo en el conjunto de entrenamiento y lo evalué en el conjunto de pruebas.

Tokenizer tiene muchas ventajas en el campo del procesamiento del lenguaje natural, donde se utiliza para limpiar, procesar y analizar datos de texto. Centrarse en el tratamiento de textos puede mejorar el rendimiento del modelo.

Recomiendo tomar el curso Introducción al Procesamiento del Lenguaje Natural en Python para aprender más sobre las técnicas de preprocesamiento y profundizar en el mundo de los tokenizadores.

¿Quiere saber más sobre IA y aprendizaje automático? Consulte estos recursos:

Preguntas frecuentes

¿Qué diferencia hay entre la tokenización de palabras y la de caracteres?

La tokenización de palabras divide el texto en palabras, mientras que la tokenización de caracteres lo divide en caracteres.

¿Por qué es importante la tokenización en PNL?

Ayuda a las máquinas a comprender y procesar el lenguaje humano descomponiéndolo en fragmentos manejables.

¿Puedo utilizar varios métodos de tokenización en el mismo texto?

Sí, dependiendo de la tarea a realizar, la combinación de métodos puede dar mejores resultados.

¿Cuáles son las herramientas de tokenización más utilizadas en PNL?

Algunas de las herramientas de tokenización más utilizadas en PNL son NLTK, Spacy, Stanford CoreNLP, GENSIM y TensorFlow Tokenizer. Cada uno tiene sus puntos fuertes y es adecuado para tareas diferentes.

¿Cómo funciona la tokenización en lenguas como el chino o el japonés, que no tienen espacios?

La tokenización utiliza técnicas como la segmentación a nivel de caracteres o la búsqueda de los límites más probables de las palabras a partir de modelos estadísticos para lenguas sin separadores explícitos de palabras.

¿Cómo ayuda la tokenización a los motores de búsqueda a devolver resultados relevantes?

Descompone las consultas y los documentos en unidades indexables, lo que permite realizar búsquedas y comparaciones eficaces. Esto potencia la velocidad y la precisión.

Temas
Relacionado

blog

¿Qué es vector embedding? Una explicación intuitiva

Vector embedding refiere a representaciones numéricas de palabras o frases que captan sus significados y relaciones, ayudando a los modelos de aprendizaje automático a comprender el texto con mayor eficacia.
Tom Farnschläder's photo

Tom Farnschläder

9 min

blog

¿Qué son los datos etiquetados?

Los datos etiquetados son datos brutos a los que se les han asignado etiquetas para añadir contexto o significado, que se utilizan para entrenar modelos de machine learning en el aprendizaje supervisado.
Abid Ali Awan's photo

Abid Ali Awan

6 min

tutorial

Tutorial de Tiktoken: Biblioteca Python de OpenAI para tokenizar texto

Tiktoken es un rápido tokenizador BPE desarrollado por OpenAI, utilizado principalmente para contar tokens para sus grandes modelos lingüísticos y garantizar un procesamiento eficaz del texto dentro de unos límites especificados.
Dimitri Didmanidze's photo

Dimitri Didmanidze

5 min

tutorial

Stemming y lematización en Python

En este tutorial se abordan de forma práctica las funciones de stemming y lematización mediante el paquete Python Natural Language ToolKit (NLTK).
Kurtis Pykes 's photo

Kurtis Pykes

12 min

tutorial

Clasificación de textos en Python

Descubra qué es la clasificación de textos, cómo funciona y casos de uso con éxito. Explore ejemplos de principio a fin sobre cómo crear un canal de preprocesamiento de texto seguido de un modelo de clasificación de texto en Python.
Moez Ali's photo

Moez Ali

12 min

tutorial

Guía introductoria para el ajuste preciso de los LLM

El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.
Josep Ferrer's photo

Josep Ferrer

12 min

See MoreSee More