¿Qué son los datos etiquetados?

Los datos etiquetados son datos brutos a los que se les han asignado etiquetas para añadir contexto o significado, que se utilizan para entrenar modelos de machine learning en el aprendizaje supervisado.

18 abr 2024 · 6 min leer

Los datos etiquetados son datos brutos a los que se les ha asignado una o más etiquetas para añadirles contexto o significado. En machine learning e inteligencia artificial, estas etiquetas suelen servir de objetivo para que el modelo haga previsiones. Los datos etiquetados son fundamentales porque constituyen la base del aprendizaje supervisado, un enfoque popular para entrenar modelos de machine learning más exactos y eficaces.

Explicación de los datos etiquetados

Los datos sin etiquetar son entradas brutas sin un resultado designado, y los datos etiquetados son precisamente lo contrario. Los datos etiquetados se anotan cuidadosamente con etiquetas significativas que clasifican los elementos o resultados de los datos. Por ejemplo, en un conjunto de datos de correos electrónicos, cada correo podría etiquetarse como "spam" o "no spam". Estas etiquetas proporcionan una guía clara para que un algoritmo de machine learning aprenda de ellas.

Supongamos que tenemos una tarea de reconocimiento facial. Los datos sin etiquetar serían un conjunto de imágenes faciales sin ninguna información de identificación. Por el contrario, los datos etiquetados en este caso incluirían las mismas imágenes faciales con las correspondientes etiquetas de identificación, es decir, el nombre de la persona de cada imagen. Así, un modelo de machine learning puede aprender a asociar determinadas características faciales con personas concretas.

¿Cuáles son las ventajas de utilizar datos etiquetados?

Vías de aprendizaje claras. Con datos etiquetados, un modelo de machine learning puede encontrar fácilmente patrones entre las entradas y sus correspondientes salidas. Este reconocimiento de patrones es crucial en tareas como los sistemas de reconocimiento de voz, en los que las formas de onda de audio (entrada) se asocian a transcripciones textuales (etiqueta).
Mayor exactitud. Los datos etiquetados suelen dar lugar a modelos más exactos, ya que el algoritmo de aprendizaje tiene una salida objetivo clara para cada entrada. Por ejemplo, en imagen médica, si las imágenes se etiquetan con el diagnóstico correcto, el modelo puede aprender a prever los diagnósticos correctos con gran exactitud.
Evaluación eficiente. Los datos etiquetados permiten evaluar directamente el rendimiento del modelo. Comparando las previsiones del modelo con las etiquetas de verdadero, podemos cuantificar lo bien que aprende el modelo.

¿Cuáles son las limitaciones del uso de datos etiquetados?

Tiempo y esfuerzo. Etiquetar datos puede ser un proceso largo, costoso y que consume muchos recursos, sobre todo en el caso de datos complejos como las imágenes. Por ejemplo, la anotación manual de una sola imagen radiológica puede llevar mucho tiempo, sobre todo si requiere los conocimientos de un especialista.
Falta de imparcialidad o inexactitud en las etiquetas. Si las personas que etiquetan los datos son parciales, esa parcialidad puede reflejarse en las etiquetas y, por tanto, influir en las decisiones del modelo de machine learning. También pueden producirse errores de etiquetado debido a errores humanos o a incoherencias en los criterios de etiquetado, lo que puede afectar a la exactitud de los modelos de machine learning.
Disponibilidad limitada. Puede que no siempre se disponga de datos etiquetados para determinadas tareas o dominios, lo que puede limitar el desarrollo de modelos de machine learning. Esto es especialmente cierto en áreas especializadas donde puede haber escasez de datos etiquetados.

Enfoques para el etiquetado de datos

Etiquetado manual de datos. Como su nombre indica, este enfoque implica que los humanos etiqueten manualmente los datos. Aunque puede ser muy exacto, también lleva mucho tiempo y es caro, sobre todo para grandes conjuntos de datos.
Etiquetado semiautomatizado de datos. Este método combina la inteligencia humana y el machine learning. Un algoritmo etiqueta primero los datos, tras lo cual los humanos corrigen los errores. Es más rápido que el etiquetado manual, pero puede incluir errores si el etiquetado inicial del algoritmo era incorrecto.
Crowdsourcing. Este enfoque utiliza el poder de la multitud para etiquetar datos, a menudo en plataformas como Amazon Mechanical Turk. Es un método rentable, pero la calidad puede variar, ya que las personas que etiquetan los datos pueden no ser expertos en el dominio.

Ejemplos de casos de uso de datos etiquetados en el mundo real

Sistemas de reconocimiento de imágenes. Las imágenes etiquetadas se utilizan para entrenar modelos que identifiquen objetos, personas y actividades. Por ejemplo, Google Fotos utiliza datos etiquetados para reconocer y clasificar tus fotos por persona o ubicación.
Filtros de spam. Los servicios de correo electrónico utilizan conjuntos de datos de correos etiquetados como "spam" o "no spam" para entrenar sus algoritmos de detección de spam.
Vehículos autónomos. Los datos etiquetados, como imágenes con objetos identificados (por ejemplo, peatones y otros vehículos), ayudan a entrenar los vehículos autónomos para que comprendan su entorno.

Herramientas de etiquetado de datos de código abierto

Label Studio. La herramienta de etiquetado más flexible para ajustar LLM, preparar datos de entrenamiento y validar modelos de IA, con una interfaz fácil de usar.
Universal Data Tool. Se puede utilizar en diferentes plataformas para crear y etiquetar conjuntos de datos formados por imágenes, audio, texto, vídeos y documentos. Utiliza un formato de datos abierto.
Sloth. Una herramienta de etiquetado de datos de imagen y vídeo para la investigación en visión artificial. Admite anotaciones complejas y exporta a los principales formatos.
doccano. Ofrece herramientas de anotación fáciles de usar para clasificación de textos, etiquetado de secuencias y tareas secuencia a secuencia.
Audino. Proporciona funciones de transcripción y etiquetado para anotar datos de voz para VAD, diarización, reconocimiento del habla y reconocimiento de emociones.
Computer Vision Annotation Tool. Una herramienta interactiva de anotación de vídeos e imágenes para tareas de visión artificial. Permite anotaciones fotograma a fotograma y acciones masivas.

Importancia de los datos etiquetados en el mundo moderno

El etiquetado de datos y el crowdsourcing se han vuelto fundamentales para desarrollar modelos de machine learning basados en datos. Aunque es relativamente fácil etiquetar datos tabulares utilizando hojas de cálculo, surgen retos cuando se etiquetan cientos de imágenes, textos o ejemplos de audio. Las tasas de error suelen ser elevadas, por lo que requieren herramientas especializadas. Por eso las principales plataformas de ML ofrecen funciones de etiquetado de datos, como las de DagsHub Label Studio y Amazon SageMaker Ground Truth.

El acceso a grandes conjuntos de datos de alta calidad se ha convertido en algo esencial para construir modelos de machine learning basados en datos. A medida que aumenta la complejidad del modelo, también lo hace la necesidad de cantidades masivas de datos etiquetados.

Los proyectos de código abierto reconocen esto y confían en el crowdsourcing para obtener los datos etiquetados necesarios para desarrollar productos como ChatGPT. Por ejemplo, Open Assistant, un chatbot de código abierto, utiliza datos etiquetados por voluntarios.

Los conjuntos de datos etiquetados se están convirtiendo rápidamente en el alma de la IA moderna. La disponibilidad de datos de entrenamiento numerosos y organizados ha permitido avances revolucionarios en áreas como la visión artificial, el procesamiento de lenguaje natural y el reconocimiento del habla. Los datos etiquetados son el nuevo petróleo, y las aplicaciones modernas dependen de anotaciones de alta calidad para alimentar el progreso continuo de la inteligencia artificial.

¿Quieres saber más sobre IA y machine learning? Consulta los siguientes recursos:

¿Cuál es la diferencia entre datos etiquetados y sin etiquetar?

¿Por qué los datos etiquetados son esenciales en el machine learning?

¿Pueden los ordenadores etiquetar datos?

Temas

Inteligencia Artificial

Aprendizaje automático

Relacionado

blog

¿Qué es vector embedding? Una explicación intuitiva

Vector embedding refiere a representaciones numéricas de palabras o frases que captan sus significados y relaciones, ayudando a los modelos de aprendizaje automático a comprender el texto con mayor eficacia.

blog

Clasificación en machine learning: Introducción

Aprende sobre la clasificación en machine learning viendo qué es, cómo se utiliza y algunos ejemplos de algoritmos de clasificación.

Zoumana Keita

14 min

blog

¿Qué es un modelo generativo?

Los modelos generativos utilizan el machine learning para descubrir patrones en los datos y generar datos nuevos. Conoce su importancia y sus aplicaciones en la IA.

Abid Ali Awan

11 min

blog

Machine learning supervisado

Descubre qué es el machine learning supervisado, en qué se diferencia del machine learning no supervisado y cómo funcionan algunos algoritmos esenciales del machine learning supervisado

Moez Ali

8 min

Tutorial

Aprendizaje automático de datos categóricos con el tutorial de Python

Aprenda los trucos más comunes para manejar datos categóricos y preprocesarlos para construir modelos de aprendizaje automático.

Moez Ali

Ver más Ver más

Explicación de los datos etiquetados

¿Cuáles son las ventajas de utilizar datos etiquetados?

¿Cuáles son las limitaciones del uso de datos etiquetados?

Enfoques para el etiquetado de datos

Ejemplos de casos de uso de datos etiquetados en el mundo real

Herramientas de etiquetado de datos de código abierto

Importancia de los datos etiquetados en el mundo moderno

Preguntas frecuentes

¿Pueden los ordenadores etiquetar datos?

¿Qué es vector embedding? Una explicación intuitiva

Clasificación en machine learning: Introducción

¿Qué es un modelo generativo?

Machine learning supervisado

Aprendizaje automático de datos categóricos con el tutorial de Python

¿Qué es vector embedding? Una explicación intuitiva

Clasificación en machine learning: Introducción

¿Qué es un modelo generativo?

Machine learning supervisado

Aprendizaje automático de datos categóricos con el tutorial de Python