La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones

Explore la maldición de la dimensionalidad en el análisis de datos y el aprendizaje automático, incluidos sus retos, efectos en los algoritmos y técnicas como PCA, LDA y t-SNE para combatirla.

3 may 2024 · 7 min leer

La maldición de la dimensionalidad se refiere a los diversos retos y complicaciones que surgen al analizar y organizar datos en espacios de alta dimensión (a menudo cientos o miles de dimensiones). En el ámbito del aprendizaje automático, es fundamental comprender este concepto porque, a medida que aumenta el número de características o dimensiones de un conjunto de datos, la cantidad de datos que necesitamos para generalizar con precisión crece exponencialmente.

La maldición de la dimensionalidad explicada

¿Qué son las dimensiones?

En el contexto del análisis de datos y el aprendizaje automático, las dimensiones se refieren a las características o atributos de los datos. Por ejemplo, si consideramos un conjunto de datos de casas, las dimensiones podrían incluir el precio de la casa, el tamaño, el número de dormitorios, la ubicación, etc.

¿Cómo se produce la maldición de la dimensionalidad?

A medida que añadimos más dimensiones a nuestro conjunto de datos, el volumen del espacio aumenta exponencialmente. Esto significa que los datos se vuelven dispersos. Piénsalo así: si tienes una línea (1D), es fácil rellenarla con unos cuantos puntos. Si tienes un cuadrado (2D), necesitas más puntos para cubrir el área. Ahora imagina un cubo (3D): necesitarías aún más puntos para llenar el espacio. Este concepto se extiende a dimensiones superiores, lo que hace que los datos sean extremadamente dispersos.

¿Qué problemas causa?

Dispersión de datos. Como ya se ha mencionado, los datos se vuelven dispersos, lo que significa que la mayor parte del espacio de alta dimensión está vacío. Esto dificulta las tareas de agrupación y clasificación.
Mayor computación. Más dimensiones significan más recursos informáticos y tiempo para procesar los datos.
Sobreajuste. Con dimensiones mayores, los modelos pueden volverse excesivamente complejos y ajustarse más al ruido que al patrón subyacente. Esto reduce la capacidad del modelo para generalizar a nuevos datos.
Las distancias pierden sentido. En dimensiones elevadas, la diferencia de distancias entre puntos de datos tiende a ser insignificante, lo que hace que medidas como la distancia euclidiana pierdan sentido.
Degradación del rendimiento. Los algoritmos, especialmente los que se basan en mediciones de distancia como k-nearest neighbors, pueden ver reducido su rendimiento.
Retos de visualización. Los datos de alta dimensión son difíciles de visualizar, lo que dificulta el análisis exploratorio de datos.

¿Por qué se produce la maldición de la dimensionalidad?

Ocurre principalmente porque a medida que añadimos más características o dimensiones, estamos aumentando la complejidad de nuestros datos sin aumentar necesariamente la cantidad de información útil. Además, en los espacios de alta dimensión, la mayoría de los puntos de datos se encuentran en los "bordes" o "esquinas", lo que hace que los datos sean dispersos.

Cómo resolver la maldición de la dimensionalidad

La principal solución a la maldición de la dimensionalidad es la "reducción de la dimensionalidad". Es un proceso que reduce el número de variables aleatorias consideradas obteniendo un conjunto de variables principales. Al reducir la dimensionalidad, podemos conservar la información más importante de los datos y descartar las características redundantes o menos importantes.

Métodos de reducción de la dimensionalidad

Análisis de componentes principales (ACP)

El ACP es un método estadístico que transforma las variables originales en un nuevo conjunto de variables, que son combinaciones lineales de las variables originales. Estas nuevas variables se denominan componentes principales.

Supongamos que tenemos un conjunto de datos que contiene información sobre distintos aspectos de los coches, como la potencia, el par, la aceleración y la velocidad máxima. Queremos reducir la dimensionalidad de este conjunto de datos mediante PCA.

Mediante el ACP, podemos crear un nuevo conjunto de variables denominadas componentes principales. El primer componente principal captaría la mayor varianza de los datos, que podría ser una combinación de potencia y par motor. El segundo componente principal podría representar la aceleración y la velocidad máxima. Al reducir la dimensionalidad de los datos mediante PCA, podemos visualizar y analizar el conjunto de datos con mayor eficacia.

Análisis discriminante lineal (LDA)

El objetivo de LDA es identificar los atributos que explican la mayor parte de la varianza entre clases. Es especialmente útil para tareas de clasificación. Supongamos que tenemos un conjunto de datos con varias características de las flores, como la longitud de los pétalos, la anchura de los pétalos, la longitud de los sépalos y la anchura de los sépalos. Además, cada flor del conjunto de datos se etiqueta como rosa o lirio. Podemos utilizar LDA para identificar los atributos que representan la mayor varianza entre estas dos clases.

LDA podría descubrir que la longitud y la anchura de los pétalos son los atributos que más discriminan entre rosas y lirios. Crearía una combinación lineal de estos atributos para formar una nueva variable, que luego puede utilizarse para tareas de clasificación. Al reducir la dimensionalidad mediante LDA, podemos mejorar la precisión de los modelos de clasificación de flores.

Incrustación estocástica de vecinos distribuida (t-SNE)

t-SNE es una técnica no lineal de reducción de la dimensionalidad especialmente útil para visualizar conjuntos de datos de gran dimensión. Consideremos un conjunto de datos con imágenes de distintos tipos de animales, como gatos, perros y pájaros. Cada imagen se representa mediante un vector de características de alta dimensión extraído de una red neuronal profunda.

Utilizando t-SNE, podemos reducir la dimensionalidad de estos vectores de características a dos dimensiones, lo que nos permite visualizar el conjunto de datos. El algoritmo t-SNE acercaría los animales similares en el espacio reducido, lo que nos permitiría observar grupos de animales similares. Esta visualización puede ayudarnos a comprender las relaciones y similitudes entre distintos tipos de animales de una forma más intuitiva.

Autocodificadores

Se trata de redes neuronales utilizadas para reducir la dimensionalidad. Funcionan comprimiendo la entrada en una representación compacta y reconstruyendo la entrada original a partir de esta representación. Supongamos que tenemos un conjunto de datos de imágenes de dígitos manuscritos, como el conjunto de datos MNIST. Cada imagen se representa mediante un vector de píxeles de alta dimensión.

Podemos utilizar un autoencoder, que es un tipo de red neuronal, para reducir la dimensionalidad. El autocodificador aprendería a comprimir las imágenes de entrada en una representación de menor dimensión, a menudo denominada espacio latente. Este espacio latente captaría las características más importantes de las imágenes. A continuación, podemos utilizar el autoencoder para reconstruir las imágenes originales a partir de la representación del espacio latente. Al reducir la dimensionalidad mediante autocodificadores, podemos capturar eficazmente la información esencial de las imágenes y descartar al mismo tiempo los detalles innecesarios.

La maldición de la dimensionalidad en un proyecto de ciencia de datos

Antes de construir modelos de aprendizaje automático, debemos comprender qué dimensiones tienen los datos tabulares. Normalmente, se refieren al número de columnas o características. Aunque he trabajado con conjuntos de datos unidimensionales o bidimensionales, los conjuntos de datos reales suelen ser muy dimensionales y complejos. Si estamos clasificando a los clientes, probablemente estemos tratando con al menos 50 dimensiones.

Para utilizar un conjunto de datos de alta dimensión, podemos extraer características (PCA, LDA) o realizar una selección de características y seleccionar características impactantes para los modelos. Además, hay muchos modelos que funcionan bien con datos de alta dimensión, como las redes neuronales y los bosques aleatorios.

Cuando construyo modelos de clasificación de imágenes, no me preocupa la dimensionalidad. A veces, la imagen puede tener hasta 7.500 dimensiones, lo que es mucho para los algoritmos de aprendizaje automático normales, pero fácil para las redes neuronales profundas. Pueden comprender patrones ocultos y aprender a identificar diversas imágenes. La mayoría de los modelos modernos de redes neuronales, como los transformadores, no se ven afectados por los datos de alta dimensión. Los únicos algoritmos afectados son los que utilizan medidas de distancia, concretamente la distancia euclídea, para la clasificación y la agrupación.

¿Por qué la maldición de la dimensionalidad es un problema en el aprendizaje automático?

¿Podemos recurrir siempre a la reducción de la dimensionalidad para resolver la maldición de la dimensionalidad?

¿Más datos significan siempre mejores modelos de aprendizaje automático?

¿Son lineales todas las técnicas de reducción de la dimensionalidad?

¿Cómo afecta la alta dimensionalidad a la visualización de datos?

Temas

Aprendizaje automático

Relacionado

Tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.

Abid Ali Awan

Tutorial

Introducción al aprendizaje automático estadístico

Descubra la potente fusión de estadística y aprendizaje automático. Explore cómo las técnicas estadísticas sustentan los modelos de aprendizaje automático, permitiendo la toma de decisiones basada en datos.

Joanne Xiong

Tutorial

Introducción al t-SNE

Aprende a visualizar datos de alta dimensión en un espacio de baja dimensión utilizando una técnica de reducción no lineal de la dimensionalidad.

Abid Ali Awan

Tutorial

Aprendizaje automático de datos categóricos con el tutorial de Python

Aprenda los trucos más comunes para manejar datos categóricos y preprocesarlos para construir modelos de aprendizaje automático.

Moez Ali

Tutorial

Una introducción a los valores SHAP y a la interpretabilidad del machine learning

Los modelos de machine learning son potentes, pero difíciles de interpretar. Sin embargo, los valores SHAP pueden ayudarte a comprender cómo influyen las características del modelo en las predicciones.

Abid Ali Awan

Ver más Ver más

La maldición de la dimensionalidad explicada

¿Qué son las dimensiones?

¿Cómo se produce la maldición de la dimensionalidad?

¿Qué problemas causa?

¿Por qué se produce la maldición de la dimensionalidad?

Cómo resolver la maldición de la dimensionalidad

Métodos de reducción de la dimensionalidad

Análisis de componentes principales (ACP)

Análisis discriminante lineal (LDA)

Incrustación estocástica de vecinos distribuida (t-SNE)

Autocodificadores

La maldición de la dimensionalidad en un proyecto de ciencia de datos

Preguntas frecuentes sobre la maldición de la dimensionalidad

¿Más datos significan siempre mejores modelos de aprendizaje automático?

¿Son lineales todas las técnicas de reducción de la dimensionalidad?

¿Cómo afecta la alta dimensionalidad a la visualización de datos?

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Introducción al aprendizaje automático estadístico

Introducción al t-SNE

Aprendizaje automático de datos categóricos con el tutorial de Python

Una introducción a los valores SHAP y a la interpretabilidad del machine learning

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Introducción al aprendizaje automático estadístico

Introducción al t-SNE

Aprendizaje automático de datos categóricos con el tutorial de Python

Una introducción a los valores SHAP y a la interpretabilidad del machine learning