¿Qué es la tokenización?
La tokenización divide el texto en partes más pequeñas para facilitar el análisis mecánico y ayudar a las máquinas a comprender el lenguaje humano.
3 may 2024 · 9 min leer
¿Qué diferencia hay entre la tokenización de palabras y la de caracteres?
¿Por qué es importante la tokenización en PNL?
¿Puedo utilizar varios métodos de tokenización en el mismo texto?
¿Cuáles son las herramientas de tokenización más utilizadas en PNL?
¿Cómo funciona la tokenización en lenguas como el chino o el japonés, que no tienen espacios?
¿Cómo ayuda la tokenización a los motores de búsqueda a devolver resultados relevantes?
RelacionadoSee MoreSee More
blog
¿Qué es vector embedding? Una explicación intuitiva
Vector embedding refiere a representaciones numéricas de palabras o frases que captan sus significados y relaciones, ayudando a los modelos de aprendizaje automático a comprender el texto con mayor eficacia.
Tom Farnschläder
9 min
blog
¿Qué son los datos etiquetados?
Los datos etiquetados son datos brutos a los que se les han asignado etiquetas para añadir contexto o significado, que se utilizan para entrenar modelos de machine learning en el aprendizaje supervisado.
Abid Ali Awan
6 min
tutorial
Tutorial de Tiktoken: Biblioteca Python de OpenAI para tokenizar texto
Tiktoken es un rápido tokenizador BPE desarrollado por OpenAI, utilizado principalmente para contar tokens para sus grandes modelos lingüísticos y garantizar un procesamiento eficaz del texto dentro de unos límites especificados.
Dimitri Didmanidze
5 min
tutorial
Stemming y lematización en Python
En este tutorial se abordan de forma práctica las funciones de stemming y lematización mediante el paquete Python Natural Language ToolKit (NLTK).
Kurtis Pykes
12 min
tutorial
Clasificación de textos en Python
Descubra qué es la clasificación de textos, cómo funciona y casos de uso con éxito. Explore ejemplos de principio a fin sobre cómo crear un canal de preprocesamiento de texto seguido de un modelo de clasificación de texto en Python.
Moez Ali
12 min
tutorial
Guía introductoria para el ajuste preciso de los LLM
El ajuste preciso de los grandes modelos lingüísticos (LLM) ha revolucionado el procesamiento del lenguaje natural (PLN) y ofrece capacidades sin precedentes en tareas como la traducción lingüística, el análisis del sentimiento y la generación de textos. Este enfoque transformador aprovecha modelos preentrenados como el GPT-2 y mejora su rendimiento en dominios específicos mediante el proceso de ajuste preciso.
Josep Ferrer
12 min