Ir al contenido principal

La paradoja de Simpson: No te dejes engañar por los datos

Desglosa las tendencias engañosas para descubrir lo que realmente ocurre en tus datos. Aprende a identificar factores de confusión, segmentar tu análisis y evitar conclusiones erróneas causadas por la paradoja de Simpson.
Actualizado 7 ago 2025  · 7 min de lectura

Cuando aprendí sobre la paradoja de Simpson en la universidad, me pareció muy confusa. Casi no sabía lo que estaba viendo. Ahí estaba, una tendencia de alto nivel, y la historia parecía bastante clara. Pero luego, cuando separé los grupos subyacentes, la tendencia se invirtió.

Lo primero que pensé al ver esto fue algo así como: «Bueno, supongo que no se puede confiar en las estadísticas». Pero en el tiempo transcurrido, he estudiado un poco y me complace decir que vuelvo a confiar en las estadísticas. Si estás tan confundido como yo lo estaba, sigue leyendo y te ayudaré a entender lo que está pasando. 

¿Qué es la paradoja de Simpson?

Un analista de datos con experiencia habrá aprendido que debe mostrarse escéptico ante las tendencias generales. Esto se debe a que un promedio simple puede ocultar algo más complicado que es cierto en los datos. Con la paradoja de Simpson, este «algo más» es bastante notable: Los datos agregados no solo ocultan los hechos, sino que apuntan a la conclusión exactamente opuesta.

En otras palabras, la paradoja de Simpson se produce cuando aparece una tendencia en grupos de datos separados, pero desaparece o se invierte por completo cuando se combinan esos grupos. Es un claro recordatorio de que mirar el panorama general sin comprender sus partes puede acarrear problemas.

Un ejemplo de la paradoja de Simpson

Lo mejor es mostrarlo con un ejemplo. Empezaré con algo sencillo y luego señalaré ejemplos famosos que puedes estudiar por tu cuenta. 

Imagina un estudio que compara las tasas de éxito de dos tipos de suelo en el crecimiento de los árboles, el suelo A y el suelo B. Cuando observamos el crecimiento de los árboles en función del tipo de suelo, los resultados parecen claros:

  • Para los árboles de climas fríos (grupo 1), el suelo A ofrece mejores resultados.
  • Para árboles en climas cálidos (Grupo 2), suelo A tiene tiene mejores resultados.

Basándonos en esto, el suelo A parece el claro ganador. Pero cuando combinamos todos los datos, aparece la paradoja: Vemos que el suelo B es, en realidad, la opción más eficaz en general.

Por si no me crees, te lo voy a demostrar con cifras:

El crecimiento de los árboles en climas fríos

Tipo de suelo

Número de árboles

Tasa de crecimiento promedio

Suelo A

90

30 cm/año

Suelo B

10

25 cm/año

En climas fríos, el suelo A favoreceun crecimiento más rápido.

El crecimiento de los árboles en climas cálidos

Tipo de suelo

Número de árboles

Tasa de crecimiento promedio

Suelo A

10

60 cm/año

Suelo B

90

55 cm/año

En climas cálidos, el suelo A sigue ofreciendomejores resultados, aunque la diferencia es menor.

Pero cuando combinas todos los árboles

Tipo de suelo

Total de árboles

Tasa de crecimiento medio ponderado

Suelo A

100

33 cm/año

Suelo B

100

47 cm/año

Ahora vemosque el suelo B es mejor en general, aunque el suelo A lo supera en ambos climas.

¿Cómo es posible? La respuesta es una variable confusa, un factor oculto que influye tanto en los grupos estudiados como en el resultado final. En este caso, el clima es el factor de confusión. 

En concreto, deberíamos decir que: 

  • El suelo A se utiliza con mayor frecuencia en climas más fríos, donde todos los árboles crecen más lentamente, independientemente del tipo de suelo.
  • Y el suelo B se utiliza con mayor frecuencia en climas más cálidos, donde los árboles crecen más rápido en general.

Por lo tanto, el clima influye en la tasa de crecimiento y también se distribuye de forma desigual entre los grupos de suelos.

Ejemplos clásicos de la paradoja de Simpson 

La paradoja de Simpson se estudia a menudo con casos históricos concretos que muestran realmente lo que está sucediendo.

Un ejemplo famoso proviene de las admisiones de la Universidad de California en Berkeley en la década de 1970. Al principio, los datos sugerían que las mujeres eran aceptadas en menor proporción que los hombres. Pero cuando se desglosa por departamentos, la mayoría de las mujeres admitidas lo hicieron en proporciones iguales o superiores. El factor de confusión fue la elección del departamento: las mujeres se inscribieron en mayor medida en departamentos competitivos con tasas de aceptación más bajas en general, mientras que los hombres se inscribieron en departamentos menos competitivos.

Otro caso es un estudio de 1986 sobre tratamientos para cálculos renales. En general, un método menos invasivo pareció más eficaz. Sin embargo, cuando se dividieron según el tamaño de los cálculos, la cirugía más invasiva tuvo mayores tasas de éxito tanto para los cálculos pequeños como para los grandes. El factor de confusión en este caso fue la gravedad de los casos: los casos más graves fueron sometidos a cirugía, lo que empeoró las cifras generales.

En ambos casos, los datos combinados dieron una impresión errónea. Solo después de analizarlo todo se supo la verdad.

¿Qué causa la paradoja de Simpson?

En la paradoja de Simpson, los números son correctos tanto para los grupos combinados como para los individuales. Así que no hay ningún error matemático. El problema es de interpretación. Pone a prueba nuestra capacidad para recordar todos los datos correctamente. 

Para ayudarte a entenderlo, y como ya he mencionado anteriormente, la paradoja de Simpson se produce cuando se dan dos condiciones:

  1. Existe una variable de confusión: Hay un tercer factor que está relacionado tanto con la variable independiente como con el resultado.
  2. Los grupos están desequilibrados: En nuestro ejemplo de los árboles, el suelo A se utilizaba con más frecuencia en climas más fríos, donde los árboles crecen más lentamente en general. El suelo B se utilizaba más en climas cálidos, donde el crecimiento es más rápido. Este desequilibrio sesga el promedio combinado y provoca la inversión.

Qué hacer con la paradoja de Simpson

Ahora bien, esta podría ser la parte más importante: ¿Cómo defiendes tu propio análisis frente a la paradoja de Simpson, para que no aparezca accidentalmente y, si aparece, qué versión de los hechos debes informar? 

Qué hacer antes

Quizás, la paradoja de Simpson se aborda mejor antes de que tenga la oportunidad de distorsionar tus conclusiones. Esto implica desarrollar algunos hábitos disciplinados:

  • Segmenta tus datos: No te fíes de los promedios generales. Divide los datos en subgrupos relevantes, como edad, región, tipo de producto o gravedad, entre otros, y comprueba si la tendencia se mantiene dentro de esos segmentos.
  • Búsqueda de variables de confusión: Pregunta siempre: ¿Qué más podría estar influyendo en este resultado? Busca factores que puedan estar distribuidos de forma desigual entre tus grupos, especialmente aquellos que conoces gracias a tu experiencia en el ámbito.
  • Recuerda que correlación no es causalidad: El hecho de que una tendencia aparezca en el conjunto no significa que refleje una relación real de causa y efecto. La paradoja de Simpson suele surgir cuando una correlación superficial enmascara algún tipo de desequilibrio o desequilibrios más profundos.
  • Insiste en el contexto: Averigua de dónde proceden tus datos y qué factores pueden estar influyendo en ellos. Los métodos de recolección, la naturaleza de los sujetos y las influencias externas son factores importantes.

Qué hacer después de que aparezca

Si aparece la paradoja de Simpson, no te asustes. Esta es tu señal para que te fijes un poco más:

  • Investiga el desequilibrio. ¿Qué está distribuido de forma desigual entre los grupos? Probablemente ese sea tu factor de confusión.
  • Informa de ambas opiniones, pero prioriza la claridad. Está bien mostrar también el resultado agregado, pero asegúrate de explicar por qué es engañoso y destaca el análisis desagregado que refleja mejor el patrón real.
  • Deja que tu propósito guíe tus reportajes. Si estás tomando decisiones políticas o realizando cambios operativos, normalmente querrás actuar basándote en información detallada a nivel de subgrupos, y no en resúmenes generales.

Si te estás preguntando si una versión de los resultados es «mejor» que la otra, ¿la agregada o la desagregada? Ten en cuenta que no hay una respuesta única para todos. Dicho esto, creo que el análisis desagregado suele ser más fiable cuando hay factores de confusión. Los resultados desagregados (agrupados) suelen ser más informativos porque reflejan cómo se comporta una variable en diferentes condiciones o contextos, y los resultados agregados pueden ser engañosos si existe una variable de confusión que influye tanto en la agrupación como en el resultado. Creo que lo más importante es comprender por qué se produce el cambio de tendencia y comunicarlo con claridad en tus informes.

Conclusión

La paradoja de Simpson es una gran lección sobre el arte de interpretar datos. La capacidad de mirar más allá de un total engañoso y preguntarse «¿qué me estoy perdiendo?» es la marca distintiva de un analista maduro. Es la habilidad lo que diferencia a alguien que solo informa de cifras de alguien que descubre información valiosa.

Si te interesa el «porqué» de estos cambios (a mí sin duda me interesa), la paradoja es una excelente puerta de entrada al amplio campo de la inferencia causal. Nuestro curso Machine Learning for Business enseña modelos causales y otros conceptos relacionados. Además, inscríbete hoy mismo en nuestro curso Fundamentos de la inferencia en Python como otra excelente opción de aprendizaje.


Josef Waples's photo
Author
Josef Waples
Temas

Aprende con DataCamp

Curso

Foundations of Probability in R

4 h
40.5K
In this course, you'll learn about the concepts of random variables, distributions, and conditioning.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

Cómo analizar datos para tu empresa en 5 pasos

Descubre los distintos pasos para analizar los datos y extraer valor de ellos, así como los métodos y técnicas que intervienen en el proceso.
Javier Canales Luna's photo

Javier Canales Luna

14 min

blog

Cómo ser analista de datos en 2024: 5 pasos para iniciar tu carrera profesional

Aprende a convertirte en analista de datos y descubre todo lo que necesitas saber para lanzar tu carrera, incluidas las habilidades que necesitas y cómo aprenderlas.
Elena Kosourova's photo

Elena Kosourova

15 min

blog

11 técnicas de visualización de datos para cada caso de uso con ejemplos

Descubra los análisis, técnicas y herramientas más populares para dominar el arte de la visualización de datos.
Javier Canales Luna's photo

Javier Canales Luna

12 min

Data Science Concept Vector Image

blog

Cómo convertirse en científico de datos en 8 pasos

Descubre todo lo que necesitas saber para convertirte en un científico de datos, ¡y averigua si es la carrera adecuada para ti!
Jose Jorge Rodriguez Salgado's photo

Jose Jorge Rodriguez Salgado

12 min

Tutorial

Comprender la asimetría y la curtosis y cómo trazarlas

Una completa guía visual sobre la asimetría/curtosis y cómo afectan a las distribuciones y, en última instancia, a tu proyecto de ciencia de datos.
Bex Tuychiev's photo

Bex Tuychiev

Tutorial

Guía completa para utilizar ANOVA en Excel

Aprende el proceso simplificado de realizar ANOVA en Excel, e interpretar los resultados con instrucciones claras, paso a paso.
Arunn Thevapalan's photo

Arunn Thevapalan

Ver másVer más