Accéder au contenu principal

Le paradoxe de Simpson : Évitez de vous laisser induire en erreur par les données

Analysez les tendances trompeuses pour découvrir ce qui se cache réellement derrière vos données. Apprenez à identifier les facteurs de confusion, à segmenter votre analyse et à éviter les conclusions erronées causées par le paradoxe de Simpson.
Actualisé 7 août 2025  · 7 min de lecture

Lorsque j'ai découvert le paradoxe de Simpson à l'université, j'ai trouvé cela extrêmement déroutant. Je ne savais presque pas ce que je regardais. C'était là, une tendance de haut niveau, et l'histoire semblait assez claire. Cependant, lorsque j'ai séparé les groupes sous-jacents, la tendance s'est inversée.

En voyant cela, ma première pensée a été quelque chose comme : « Eh bien, on ne peut pas se fier aux statistiques. » Cependant, entre-temps, j'ai approfondi mes connaissances et je suis heureux de pouvoir affirmer que j'ai retrouvé confiance dans les statistiques. Si vous êtes aussi perplexe que je l'étais, poursuivez votre lecture, et je vous aiderai à comprendre ce qui se passe. 

Qu'est-ce que le paradoxe de Simpson ?

Un analyste de données expérimenté aura appris qu'il doit se montrer sceptique face aux tendances générales. En effet, une moyenne simple peut masquer des éléments plus complexes qui sont pourtant présents dans les données. Dans le paradoxe de Simpson, ce « quelque chose d'autre » est assez remarquable : Les données agrégées ne font pas que masquer les faits, elles conduisent à la conclusion inverse.

En d'autres termes, le paradoxe de Simpson se produit lorsqu'une tendance apparaît dans des groupes de données distincts, mais disparaît ou s'inverse complètement lorsque ces groupes sont combinés. Cela nous rappelle clairement que considérer la situation dans son ensemble sans en comprendre les détails peut entraîner des difficultés.

Un exemple du paradoxe de Simpson

Il est préférable d'illustrer cela à l'aide d'un exemple. Je commencerai par quelque chose de simple, puis je vous donnerai des exemples célèbres que vous pourrez étudier par vous-même. 

Imaginons une étude comparant les taux de réussite de deux types de sol, le sol A et le sol B, sur la croissance des arbres. Lorsque nous examinons la croissance des arbres en fonction du type de sol, les résultats semblent clairs :

  • Pour les arbres poussant dans des climats frais (groupe 1), le sol A offre de meilleurs résultats.
  • Pour les arbres des climats chauds (groupe 2), le sol A donne toujours donne de meilleurs résultats.

Sur cette base, le sol A semble être le choix évident. Cependant, lorsque nous combinons toutes les données, un paradoxe apparaît : Nous constatons que le sol B est en réalité l'option la plus efficace dans l'ensemble.

Si vous ne me croyez pas, je vais vous donner des chiffres :

Croissance des arbres dans les climats frais

Type de sol

Nombre d'arbres

Taux de croissance moyen

Sol A

90

30 cm par an

Sol B

10

25 cm par an

Dans les climats frais, le sol A favoriseune croissance plus rapide.

Croissance des arbres dans les climats chauds

Type de sol

Nombre d'arbres

Taux de croissance moyen

Sol A

10

60 cm par an

Sol B

90

55 cm par an

Dans les climats chauds, le sol A resteplus performant, bien que la différence soit moins marquée.

Cependant, lorsque l'on combine tous les arbres

Type de sol

Nombre total d'arbres

Taux de croissance moyen pondéré

Sol A

100

33 cm par an

Sol B

100

47 cm par an

Nous constatons maintenantque le sol B est globalement meilleur, même si le sol A le surpasse dans les deux climats.

Comment est-ce possible ? La réponse est une variable confondante, c'est-à-dire un facteur caché qui influence à la fois les groupes étudiés et le résultat final. Dans ce cas, le climat est le facteur de confusion. 

Plus précisément, nous devrions dire que : 

  • Le sol A est plus souvent utilisé dans les climats plus frais, où tous les arbres poussent plus lentement, quel que soit le type de sol.
  • Le sol B est plus souvent utilisé dans les climats plus chauds, où les arbres poussent généralement plus rapidement.

Le climat influence donc le taux de croissance et il est également réparti de manière inégale entre les groupes de sols.

Exemples classiques du paradoxe de Simpson 

Le paradoxe de Simpson est souvent étudié à l'aide d'études de cas historiques spécifiques qui illustrent clairement ce phénomène.

Un exemple célèbre nous vient des admissions à l'université de Berkeley dans les années 1970. Au départ, les données suggéraient que les femmes étaient acceptées à un taux inférieur à celui des hommes. Cependant, lorsque l'on examine les chiffres par département, la plupart des établissements ont admis autant, voire davantage, de femmes. Le facteur de confusion était le choix du département : les femmes postulaient davantage dans des départements compétitifs avec des taux d'acceptation globalement plus faibles, tandis que les hommes postulaient dans des départements moins compétitifs.

Un autre cas est celui d'une étude réalisée en 1986 sur les traitements des calculs rénaux. Dans l'ensemble, une méthode moins invasive s'est avérée plus efficace. Cependant, lorsque les calculs ont été classés selon leur taille, la chirurgie plus invasive a présenté des taux de réussite plus élevés, tant pour les petits calculs que pour les gros. Le facteur de confusion ici était la gravité des cas : les cas les plus difficiles ont été opérés, ce qui a aggravé les chiffres globaux.

Dans les deux cas, les données combinées ont donné une impression erronée. Ce n'est qu'après avoir analysé la situation en détail que la vérité a été révélée.

Quelles sont les causes du paradoxe de Simpson ?

Dans le paradoxe de Simpson, les chiffres sont corrects tant pour les groupes combinés que pour les groupes individuels. Il n'y a donc aucune erreur mathématique. Le problème réside dans l'interprétation. Cela met à l'épreuve notre capacité à garder tous les faits en ordre. 

Pour vous aider à comprendre, comme je l'ai déjà mentionné précédemment, le paradoxe de Simpson se produit lorsque deux conditions sont réunies :

  1. Une variable confondante est présente: Il existe un troisième facteur lié à la fois à la variable indépendante et au résultat.
  2. Les groupes sont déséquilibrés: Dans notre exemple concernant les arbres, le sol A était plus souvent utilisé dans les climats plus frais, où les arbres poussent globalement plus lentement. Le sol B était davantage utilisé dans les climats plus chauds, où la croissance est plus rapide. Ce déséquilibre fausse la moyenne combinée et provoque l'inversion.

Que faire face au paradoxe de Simpson ?

Maintenant, voici peut-être la partie la plus importante : Comment vous protégez-vous contre le paradoxe de Simpson dans votre propre analyse, afin qu'il n'apparaisse pas accidentellement et, s'il apparaît, quelle version des événements devez-vous rapporter ? 

À faire avant

Il est peut-être préférable d'aborder le paradoxe de Simpson avant qu'il ne vienne fausser vos conclusions. Cela implique de développer quelques habitudes rigoureuses :

  • Segmentez vos données : Ne vous fiez pas aux moyennes globales. Divisez les données en sous-groupes pertinents, tels que l'âge, la région, le type de produit ou la gravité, entre autres, et vérifiez si la tendance se maintient au sein de ces segments.
  • Recherche de variables confusionnelles: Demandez toujours : Quels autres facteurs pourraient influencer ce résultat ? Recherchez les facteurs susceptibles d'être répartis de manière inégale entre vos groupes, en particulier ceux que vous connaissez grâce à votre expertise dans le domaine.
  • N'oubliez pas que corrélation n'est pas causalité: Le fait qu'une tendance apparaisse dans l'ensemble ne signifie pas nécessairement qu'elle reflète une véritable relation de cause à effet. Le paradoxe de Simpson apparaît souvent lorsqu'une corrélation superficielle masque un ou plusieurs déséquilibres plus profonds.
  • Insistez sur l' e contextuelle: Sachez d'où proviennent vos données et ce qui pourrait les influencer. Les méthodes de collecte, la nature des sujets et les influences externes sont tous des facteurs importants.

Que faire après son apparition ?

Si le paradoxe de Simpson apparaît, veuillez ne pas vous inquiéter. C'est le moment de regarder de plus près :

  • Veuillez examiner le déséquilibre. Qu'est-ce qui est réparti de manière inégale entre les groupes ? C'est probablement votre facteur de confusion.
  • Veuillez signaler les deux points de vue, mais privilégiez la clarté.. Il est acceptable de présenter également le résultat agrégé, mais veillez à expliquer pourquoi il peut être trompeur et mettez en évidence l'analyse désagrégée qui reflète mieux la tendance réelle.
  • Laissez votre objectif guider votre travail de reportage.. Si vous prenez des décisions stratégiques ou apportez des changements opérationnels, vous souhaiterez généralement agir en vous basant sur des informations au niveau des sous-groupes, et non sur des résumés globaux.

Si vous vous demandez si l'une des versions des résultats est « meilleure » que l'autre, à savoir la version agrégée ou la version désagrégée, la réponse est simple : cela dépend. Sachez qu'il n'existe pas de réponse universelle. Cela dit, je pense que l'analyse désagrégée est généralement plus fiable en présence de facteurs de confusion. Les résultats désagrégés (regroupés) sont généralement plus informatifs, car ils reflètent le comportement d'une variable dans différentes conditions ou différents contextes. Les résultats agrégés peuvent être trompeurs s'il existe une variable confondante qui influence à la fois le regroupement et le résultat. Je pense que le plus important est de comprendre pourquoi ce revirement s'est produit et de le communiquer clairement dans vos rapports.

Conclusion

Le paradoxe de Simpson constitue une excellente leçon sur l'art d'interpréter les données. La capacité à aller au-delà d'un total trompeur et à se demander « Qu'est-ce qui m'échappe ? » est la marque d'un analyste chevronné. C'est cette compétence qui distingue celui qui se contente de rapporter des chiffres de celui qui met en lumière des informations pertinentes.

Si vous êtes intéressé par les raisons qui expliquent ces revirements (ce qui est mon cas), ce paradoxe constitue une excellente porte d'entrée vers le domaine plus vaste de l'inférence causale. Notre cours « Machine Learning for Business » aborde les modèles causaux et d'autres sujets connexes. Inscrivez-vous dès aujourd'hui à notre cours « Fondements de l'inférence en Python » pour bénéficier d'une autre excellente option d'apprentissage.


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 

Sujets

Apprenez avec DataCamp

Cours

Foundations of Probability in R

4 h
40.5K
In this course, you'll learn about the concepts of random variables, distributions, and conditioning.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow