Direkt zum Inhalt

Simpsons Paradoxon: Lass dich nicht von den Daten verwirren

Mach dir falsche Trends klar, um zu sehen, was wirklich in deinen Daten los ist. Lerne, Störfaktoren zu erkennen, deine Analyse zu segmentieren und falsche Schlussfolgerungen zu vermeiden, die durch Simpsons Paradoxon verursacht werden.
Aktualisierte 7. Aug. 2025  · 7 Min. Lesezeit

Als ich in der Uni zum ersten Mal vom Simpson-Paradoxon gehört hab, fand ich das echt verwirrend. Ich wusste fast nicht, was ich da sah. Da war es also, ein wichtiger Trend, und die Geschichte schien klar zu sein. Aber als ich dann die Gruppen getrennt habe, hat sich der Trend umgedreht.

Als ich das gesehen hab, war mein erster Gedanke so was wie: „Na ja, auf Statistiken kann man sich wohl nicht verlassen.“ Aber in der Zwischenzeit hab ich mich ein bisschen schlau gemacht und bin froh, sagen zu können, dass ich Statistiken wieder vertraue. Wenn du genauso verwirrt bist wie ich, lies einfach weiter, ich helfe dir, zu verstehen, was hier los ist. 

Was ist das Simpson-Paradoxon?

Ein erfahrener Datenanalyst weiß, dass er breiten Trends skeptisch gegenüberstehen muss. Das liegt daran, dass ein einfacher Durchschnitt etwas Komplizierteres verbergen kann, das in den Daten echt ist. Beim Simpson-Paradoxon ist dieses „etwas anderes“ ziemlich bemerkenswert: Die zusammengefassten Daten machen die Fakten nicht nur unklar, sondern zeigen genau das Gegenteil.

Einfach gesagt, tritt das Simpson-Paradoxon auf, wenn ein Trend in verschiedenen Datengruppen auftaucht, aber verschwindet oder sich komplett umkehrt, wenn diese Gruppen zusammengefasst werden. Das zeigt mal wieder, dass es Probleme geben kann, wenn man nur das große Ganze sieht, ohne die einzelnen Teile zu verstehen.

Ein Beispiel für das Simpson-Paradoxon

Am besten zeig ich dir das mit einem Beispiel. Ich fang mal mit was Einfachem an und zeig dir dann ein paar bekannte Beispiele, die du selbst anschauen kannst. 

Stell dir vor, es gibt eine Studie, die die Erfolgsraten von zwei Bodentypen beim Baumwachstum vergleicht, Boden A und Boden B. Wenn wir das Baumwachstum nach Bodentyp betrachten, scheinen die Ergebnisse klar zu sein:

  • Für Bäume in kühlen Klimazonen (Gruppe 1) ist Boden A besser geeignet.
  • Für Bäume in warmen Klimazonen (Gruppe 2) ist Boden A immer bessere Ergebnisse.

Auf dieser Grundlage scheint Boden A der klare Sieger zu sein. Aber wenn wir alle Daten zusammenfassen, kommt das Paradoxe zum Vorschein: Wir sehen, dass Boden B insgesamt die bessere Wahl ist.

Falls du mir nicht glaubst, zeig ich dir ein paar Zahlen:

Baumwachstum in kühlen Klimazonen

Bodenart

Anzahl der Bäume

Durchschnittliche Wachstumsrate

Boden A

90

30 cm pro Jahr

Boden B

10

25 cm pro Jahr

In kühlen Klimazonen sorgt Boden A für schnelleresWachstum.

Baumwachstum in warmen Klimazonen

Bodenart

Anzahl der Bäume

Durchschnittliche Wachstumsrate

Boden A

10

60 cm pro Jahr

Boden B

90

55 cm pro Jahr

In warmen Klimazonen ist Boden A immer nochbesser, aber der Unterschied ist nicht so groß.

Aber wenn du alle Bäume zusammenzählst

Bodenart

Gesamtzahl der Bäume

Gewichtete durchschnittliche Wachstumsrate

Boden A

100

33 cm pro Jahr

Boden B

100

47 cm pro Jahr

Jetzt sehen wir, dass Boden B insgesamt besser ist, obwohl Boden A in beiden Klimazonen besser abschneidet.

Wie ist das denn möglich? Die Antwort ist eine Störvariable – ein versteckter Faktor, der sowohl die untersuchten Gruppen als auch das Endergebnis beeinflusst. In diesem Fall ist das Klima der Störfaktor. 

Genauer gesagt sollten wir sagen, dass: 

  • Boden A wird öfter in kühleren Gegenden benutzt, wo alle Bäume langsamer wachsen, egal wie der Boden ist.
  • Und Boden B wird öfter in wärmeren Gegenden benutzt, wo Bäume im Allgemeinen schneller wachsen.

Also, das Klima beeinflusst die Wachstumsrate und ist auch ungleichmäßig über die Bodengruppen verteilt.

Simpsons Paradoxon – Klassische Beispiele 

Simpsons Paradoxon wird oft anhand von konkreten historischen Fällen untersucht, die wirklich zeigen, was passiert.

Ein bekanntes Beispiel dafür ist die Zulassungspolitik der UC Berkeley in den 1970er Jahren. Zuerst sah es so aus, als würden Frauen seltener angenommen als Männer. Aber wenn man es nach Abteilungen aufschlüsselt, wurden die meisten Frauen zu gleichen oder höheren Quoten aufgenommen. Der Störfaktor war die Wahl der Abteilung: Frauen bewarben sich eher bei Abteilungen mit mehr Wettbewerb und insgesamt niedrigeren Zulassungsquoten, während Männer sich eher bei weniger wettbewerbsorientierten Abteilungen bewarben.

Ein weiterer Fall ist eine Studie aus dem Jahr 1986 über die Behandlung von Nierensteinen. Insgesamt schien eine weniger invasive Methode besser zu funktionieren. Aber wenn man die Steine nach Größe sortiert, hatte der invasivere Eingriff sowohl bei kleinen als auch bei großen Steinen bessere Ergebnisse. Der Störfaktor hier war der Schweregrad der Fälle: Die schwereren Fälle wurden operiert, was die Gesamtzahlen schlechter aussehen ließ.

In beiden Fällen haben die zusammengefassten Daten einen falschen Eindruck gemacht. Erst als alles auseinandergenommen wurde, kam die Wahrheit ans Licht.

Was ist der Grund für Simpsons Paradoxon?

Im Simpson-Paradoxon stimmen die Zahlen sowohl für die kombinierten als auch für die einzelnen Gruppen. Es gibt also keinen Rechenfehler. Das Problem ist, wie man das sieht. Es testet, wie gut wir alle Fakten im Kopf behalten können. 

Um das besser zu verstehen – ich hab das schon kurz angesprochen – tritt Simpsons Paradox auf, wenn zwei Bedingungen erfüllt sind:

  1. gibt's eine Störvariable: Es gibt noch einen dritten Faktor, der sowohl mit der unabhängigen Variable als auch mit dem Ergebnis zusammenhängt.
  2. Die Gruppen sind unausgewogen: In unserem Beispiel mit den Bäumen wurde Boden A öfter in kühleren Gegenden benutzt, wo die Bäume insgesamt langsamer wachsen. Der Boden B wurde eher in wärmeren Gegenden benutzt, wo alles schneller wächst. Dieses Ungleichgewicht verzerrt den kombinierten Durchschnitt und führt zu einer Umkehrung.

Was tun mit Simpsons Paradoxon?

Jetzt kommt vielleicht der wichtigste Teil: Wie gehst du in deiner eigenen Analyse mit dem Simpson-Paradoxon um, damit es nicht aus Versehen auftaucht? Und wenn es doch auftaucht, welche Version der Ereignisse solltest du dann melden? 

Was du vorher machen solltest

Vielleicht solltest du dich mit dem Simpson-Paradoxon beschäftigen, bevor es deine Schlussfolgerungen durcheinanderbringt. Das heißt, man muss ein paar disziplinierte Gewohnheiten entwickeln:

  • Teile deine Daten auf: Verlass dich nicht auf Durchschnittswerte der obersten Ebene. Teile die Daten in relevante Untergruppen wie Alter, Region, Produkttyp oder Schweregrad und so weiter auf und schau, ob der Trend in diesen Gruppen auch stimmt.
  • Suche nach Störvariablen: Frag immer nach: Was könnte dieses Ergebnis noch beeinflussen? Such nach Faktoren, die in deinen Gruppen vielleicht ungleich verteilt sind, vor allem solche, die du aus deinem Fachgebiet kennst.
  • Denk dran, dass Korrelation nicht gleich Kausalität ist: Nur weil ein Trend insgesamt auftaucht, heißt das noch lange nicht, dass es einen echten Zusammenhang gibt. Simpsons Paradox taucht oft auf, wenn eine oberflächliche Verbindung irgendwelche tieferen Ungleichgewichte verdeckt.
  • Achte unbedingt auf den Kontext: Wissen, woher deine Daten kommen und was sie beeinflussen könnte. Die Methoden der Datenerhebung, die Art der Themen und äußere Einflüsse sind alle wichtig.

Was tun, wenn es auftaucht?

Wenn das Simpson-Paradoxon auftritt, keine Panik. Das ist dein Stichwort, um genauer hinzuschauen:

  • Schau mal, was mit dem Ungleichgewicht los ist:. Was ist ungleichmäßig auf die Gruppen verteilt? Das ist wahrscheinlich dein Störfaktor.
  • Beide Ansichten melden, aber auf Klarheit achten. Es ist okay, auch das Gesamtergebnis zu zeigen, aber erkläre unbedingt, warum es irreführend ist, und hebe die aufgeschlüsselte Analyse hervor, die das wahre Muster besser widerspiegelt.
  • Lass dich beim Berichten von deinem Ziel leiten. Wenn du strategische Entscheidungen triffst oder betriebliche Änderungen vornimmst, möchtest du in der Regel auf der Grundlage von Erkenntnissen auf Untergruppenebene handeln und nicht auf der Grundlage von zusammengefassten Übersichten.

Wenn du dich fragst, ob eine Version der Ergebnisse „besser“ ist – die zusammengefasste oder die aufgeschlüsselte Version? Es gibt keine Antwort, die für alle passt. Trotzdem denke ich, dass die aufgeschlüsselte Analyse normalerweise zuverlässiger ist, wenn es Störfaktoren gibt. Die aufgeschlüsselten (gruppierten) Ergebnisse sind normalerweise informativer, weil sie zeigen, wie sich eine Variable unter verschiedenen Bedingungen oder in verschiedenen Kontexten verhält. Die zusammengefassten Ergebnisse können irreführend sein, wenn es eine Störvariable gibt, die sowohl die Gruppierung als auch das Ergebnis beeinflusst. Ich denke, das Wichtigste ist, zu verstehen, warum es zu dieser Umkehrung kommt, und das in deinen Berichten klar zu erklären.

Fazit

Simpsons Paradoxon ist eine super Lektion in der Kunst, Daten richtig zu deuten. Die Fähigkeit, über irreführende Gesamtzahlen hinwegzusehen und zu fragen: „Was übersehe ich hier?“, ist das Zeichen eines erfahrenen Analysten. Es ist die Fähigkeit, die jemanden, der nur Zahlen meldet, von jemandem unterscheidet, der Erkenntnisse gewinnt.

Wenn du dich für das „Warum“ hinter diesen Umkehrungen interessierst (ich auf jeden Fall), ist dieses Paradoxon ein super Einstieg in das breitere Feld der kausalen Inferenz. In unserem Kurs „Machine Learning für Unternehmen“ lernst du kausale Modelle und vieles mehr. Melde dich auch gleich für unseren Kurs „Grundlagen der Inferenz in Python” an, der eine weitere super Lernmöglichkeit ist.


Josef Waples's photo
Author
Josef Waples
Themen

Lerne mit DataCamp

Kurs

Foundations of Probability in R

4 Std.
40.9K
In this course, you'll learn about the concepts of random variables, distributions, and conditioning.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Lernprogramm

So kürzt man eine Zeichenfolge in Python: Drei verschiedene Methoden

Lerne die Grundlagen zum Entfernen von führenden und nachfolgenden Zeichen aus einer Zeichenfolge in Python.
Adel Nehme's photo

Adel Nehme

Lernprogramm

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Lernprogramm

Python-Anweisungen IF, ELIF und ELSE

In diesem Tutorial lernst du ausschließlich Python if else-Anweisungen kennen.
Sejal Jaiswal's photo

Sejal Jaiswal

Lernprogramm

Wie man in Python auf 2 Dezimalstellen rundet

Lerne, wie du in Python eine Zahl auf zwei Dezimalstellen rundest, um die Genauigkeit zu verbessern, indem du Techniken wie round(), format() und String-Formatierungstechniken verwendest.
Allan Ouko's photo

Allan Ouko

Mehr anzeigenMehr anzeigen