Curso
Cuando aprendí sobre la paradoja de Simpson en la universidad, me pareció muy confusa. Casi no sabía lo que estaba viendo. Ahí estaba, una tendencia de alto nivel, y la historia parecía bastante clara. Pero luego, cuando separé los grupos subyacentes, la tendencia se invirtió.
Lo primero que pensé al ver esto fue algo así como: «Bueno, supongo que no se puede confiar en las estadísticas». Pero en el tiempo transcurrido, he estudiado un poco y me complace decir que vuelvo a confiar en las estadísticas. Si estás tan confundido como yo lo estaba, sigue leyendo y te ayudaré a entender lo que está pasando.
¿Qué es la paradoja de Simpson?
Un analista de datos con experiencia habrá aprendido que debe mostrarse escéptico ante las tendencias generales. Esto se debe a que un promedio simple puede ocultar algo más complicado que es cierto en los datos. Con la paradoja de Simpson, este «algo más» es bastante notable: Los datos agregados no solo ocultan los hechos, sino que apuntan a la conclusión exactamente opuesta.
En otras palabras, la paradoja de Simpson se produce cuando aparece una tendencia en grupos de datos separados, pero desaparece o se invierte por completo cuando se combinan esos grupos. Es un claro recordatorio de que mirar el panorama general sin comprender sus partes puede acarrear problemas.
Un ejemplo de la paradoja de Simpson
Lo mejor es mostrarlo con un ejemplo. Empezaré con algo sencillo y luego señalaré ejemplos famosos que puedes estudiar por tu cuenta.
Imagina un estudio que compara las tasas de éxito de dos tipos de suelo en el crecimiento de los árboles, el suelo A y el suelo B. Cuando observamos el crecimiento de los árboles en función del tipo de suelo, los resultados parecen claros:
- Para los árboles de climas fríos (grupo 1), el suelo A ofrece mejores resultados.
- Para árboles en climas cálidos (Grupo 2), suelo A tiene tiene mejores resultados.
Basándonos en esto, el suelo A parece el claro ganador. Pero cuando combinamos todos los datos, aparece la paradoja: Vemos que el suelo B es, en realidad, la opción más eficaz en general.
Por si no me crees, te lo voy a demostrar con cifras:
El crecimiento de los árboles en climas fríos
Tipo de suelo |
Número de árboles |
Tasa de crecimiento promedio |
Suelo A |
90 |
30 cm/año |
Suelo B |
10 |
25 cm/año |
En climas fríos, el suelo A favoreceun crecimiento más rápido.
El crecimiento de los árboles en climas cálidos
Tipo de suelo |
Número de árboles |
Tasa de crecimiento promedio |
Suelo A |
10 |
60 cm/año |
Suelo B |
90 |
55 cm/año |
En climas cálidos, el suelo A sigue ofreciendomejores resultados, aunque la diferencia es menor.
Pero cuando combinas todos los árboles
Tipo de suelo |
Total de árboles |
Tasa de crecimiento medio ponderado |
Suelo A |
100 |
33 cm/año |
Suelo B |
100 |
47 cm/año |
Ahora vemosque el suelo B es mejor en general, aunque el suelo A lo supera en ambos climas.
¿Cómo es posible? La respuesta es una variable confusa, un factor oculto que influye tanto en los grupos estudiados como en el resultado final. En este caso, el clima es el factor de confusión.
En concreto, deberíamos decir que:
- El suelo A se utiliza con mayor frecuencia en climas más fríos, donde todos los árboles crecen más lentamente, independientemente del tipo de suelo.
- Y el suelo B se utiliza con mayor frecuencia en climas más cálidos, donde los árboles crecen más rápido en general.
Por lo tanto, el clima influye en la tasa de crecimiento y también se distribuye de forma desigual entre los grupos de suelos.
Ejemplos clásicos de la paradoja de Simpson
La paradoja de Simpson se estudia a menudo con casos históricos concretos que muestran realmente lo que está sucediendo.
Un ejemplo famoso proviene de las admisiones de la Universidad de California en Berkeley en la década de 1970. Al principio, los datos sugerían que las mujeres eran aceptadas en menor proporción que los hombres. Pero cuando se desglosa por departamentos, la mayoría de las mujeres admitidas lo hicieron en proporciones iguales o superiores. El factor de confusión fue la elección del departamento: las mujeres se inscribieron en mayor medida en departamentos competitivos con tasas de aceptación más bajas en general, mientras que los hombres se inscribieron en departamentos menos competitivos.
Otro caso es un estudio de 1986 sobre tratamientos para cálculos renales. En general, un método menos invasivo pareció más eficaz. Sin embargo, cuando se dividieron según el tamaño de los cálculos, la cirugía más invasiva tuvo mayores tasas de éxito tanto para los cálculos pequeños como para los grandes. El factor de confusión en este caso fue la gravedad de los casos: los casos más graves fueron sometidos a cirugía, lo que empeoró las cifras generales.
En ambos casos, los datos combinados dieron una impresión errónea. Solo después de analizarlo todo se supo la verdad.
¿Qué causa la paradoja de Simpson?
En la paradoja de Simpson, los números son correctos tanto para los grupos combinados como para los individuales. Así que no hay ningún error matemático. El problema es de interpretación. Pone a prueba nuestra capacidad para recordar todos los datos correctamente.
Para ayudarte a entenderlo, y como ya he mencionado anteriormente, la paradoja de Simpson se produce cuando se dan dos condiciones:
- Existe una variable de confusión: Hay un tercer factor que está relacionado tanto con la variable independiente como con el resultado.
- Los grupos están desequilibrados: En nuestro ejemplo de los árboles, el suelo A se utilizaba con más frecuencia en climas más fríos, donde los árboles crecen más lentamente en general. El suelo B se utilizaba más en climas cálidos, donde el crecimiento es más rápido. Este desequilibrio sesga el promedio combinado y provoca la inversión.
Qué hacer con la paradoja de Simpson
Ahora bien, esta podría ser la parte más importante: ¿Cómo defiendes tu propio análisis frente a la paradoja de Simpson, para que no aparezca accidentalmente y, si aparece, qué versión de los hechos debes informar?
Qué hacer antes
Quizás, la paradoja de Simpson se aborda mejor antes de que tenga la oportunidad de distorsionar tus conclusiones. Esto implica desarrollar algunos hábitos disciplinados:
- Segmenta tus datos: No te fíes de los promedios generales. Divide los datos en subgrupos relevantes, como edad, región, tipo de producto o gravedad, entre otros, y comprueba si la tendencia se mantiene dentro de esos segmentos.
- Búsqueda de variables de confusión: Pregunta siempre: ¿Qué más podría estar influyendo en este resultado? Busca factores que puedan estar distribuidos de forma desigual entre tus grupos, especialmente aquellos que conoces gracias a tu experiencia en el ámbito.
- Recuerda que correlación no es causalidad: El hecho de que una tendencia aparezca en el conjunto no significa que refleje una relación real de causa y efecto. La paradoja de Simpson suele surgir cuando una correlación superficial enmascara algún tipo de desequilibrio o desequilibrios más profundos.
- Insiste en el contexto: Averigua de dónde proceden tus datos y qué factores pueden estar influyendo en ellos. Los métodos de recolección, la naturaleza de los sujetos y las influencias externas son factores importantes.
Qué hacer después de que aparezca
Si aparece la paradoja de Simpson, no te asustes. Esta es tu señal para que te fijes un poco más:
- Investiga el desequilibrio. ¿Qué está distribuido de forma desigual entre los grupos? Probablemente ese sea tu factor de confusión.
- Informa de ambas opiniones, pero prioriza la claridad. Está bien mostrar también el resultado agregado, pero asegúrate de explicar por qué es engañoso y destaca el análisis desagregado que refleja mejor el patrón real.
- Deja que tu propósito guíe tus reportajes. Si estás tomando decisiones políticas o realizando cambios operativos, normalmente querrás actuar basándote en información detallada a nivel de subgrupos, y no en resúmenes generales.
Si te estás preguntando si una versión de los resultados es «mejor» que la otra, ¿la agregada o la desagregada? Ten en cuenta que no hay una respuesta única para todos. Dicho esto, creo que el análisis desagregado suele ser más fiable cuando hay factores de confusión. Los resultados desagregados (agrupados) suelen ser más informativos porque reflejan cómo se comporta una variable en diferentes condiciones o contextos, y los resultados agregados pueden ser engañosos si existe una variable de confusión que influye tanto en la agrupación como en el resultado. Creo que lo más importante es comprender por qué se produce el cambio de tendencia y comunicarlo con claridad en tus informes.
Conclusión
La paradoja de Simpson es una gran lección sobre el arte de interpretar datos. La capacidad de mirar más allá de un total engañoso y preguntarse «¿qué me estoy perdiendo?» es la marca distintiva de un analista maduro. Es la habilidad lo que diferencia a alguien que solo informa de cifras de alguien que descubre información valiosa.
Si te interesa el «porqué» de estos cambios (a mí sin duda me interesa), la paradoja es una excelente puerta de entrada al amplio campo de la inferencia causal. Nuestro curso Machine Learning for Business enseña modelos causales y otros conceptos relacionados. Además, inscríbete hoy mismo en nuestro curso Fundamentos de la inferencia en Python como otra excelente opción de aprendizaje.
