Lernpfad
Hast du schon mal einen t-Test gerechnet, ein seltsames p-Value bekommen und später gemerkt, dass deine Daten alles andere als normalverteilt waren?
Das passiert früher oder später jedem. Das Problem am t-Test ist seine Annahme, dass deine Daten normalverteilt sind. Wenn das nicht gilt, können die Ergebnisse in die Irre führen. Schiefe Daten und kleine Stichproben verletzen diese Normalitätsannahme. Und echte Daten verhalten sich selten so, wie es im Lehrbuch steht.
Der Mann-Whitney-U-Test löst genau dieses Problem. Er ist eine nichtparametrische Alternative zum t-Test, die zwei Gruppen anhand von Rängen statt Mittelwerten vergleicht – die Form der Verteilung ist ihm daher egal.
In diesem Artikel erfährst du, was der Mann-Whitney-U-Test ist, wann du ihn einsetzen solltest, wie die Mathematik dahinter funktioniert und wie du ihn in Python und R durchführst und interpretierst.
Aber was genau ist ein t-Test? Wenn du dir diese Frage stellst, lies unseren Einführung in t-Tests mit Python – dort werden alle Fragen beantwortet.
Was ist der Mann-Whitney-U-Test?
Der Mann-Whitney-U-Test ist ein nichtparametrischer statistischer Test zum Vergleich zweier unabhängiger Gruppen.
Im Gegensatz zum t-Test setzt er keine Normalverteilung voraus. Er vergleicht die Verteilungen zweier Gruppen, indem Rohwerte in Ränge umgewandelt und diese analysiert werden. Das macht ihn zur guten Wahl, wenn deine Daten schief sind, Ausreißer enthalten oder die Normalitätsanforderung anderweitig nicht erfüllen.
Du wirst ihn auch als Wilcoxon-Rangsummentest finden. Für praktische Zwecke sind das Synonyme.
Wann du den Mann-Whitney-U-Test einsetzen solltest
Der Mann-Whitney-U-Test braucht bestimmte Voraussetzungen. Verwende ihn nur, wenn alle folgenden Punkte zutreffen:
- Zwei unabhängige Gruppen: Die Stichproben überschneiden sich nicht, und die Werte der einen Gruppe beeinflussen die der anderen nicht
- Ordinale oder kontinuierliche Daten: Zum Beispiel Testergebnisse, Reaktionszeiten oder andere Messwerte
- Nicht-normalverteilt: Deine Daten sind schief, haben fette Tails oder du kannst bei kleiner Stichprobe die Normalität nicht bestätigen
- Kleine Stichprobengrößen: Wenn du nicht genug Daten hast, um dich auf den Zentrale-Grenzwertsatz zu verlassen
Schauen wir uns ein Beispiel an.
Angenommen, du hast zwei Klassen, die mit unterschiedlichen Methoden unterrichtet wurden, und willst wissen, welche bessere Prüfungsergebnisse erzielt hat. Du plottest die Scores und siehst, dass sie nicht normalverteilt sind – in einer Klasse ziehen ein paar Ausreißer die Verteilung nach rechts. Der t-Test vergleicht Gruppenmittelwerte, also ziehen diese Ausreißer den Mittelwert nach oben und lassen eine Klasse besser aussehen, als sie ist.
Dieser verzerrte Mittelwert geht in die t-Test-Berechnung ein, und das zurückkommende p-Value spiegelt den Unterschied zwischen den Gruppen nicht korrekt wider. Der Mann-Whitney-U-Test hat dieses Problem nicht, weil er mit Rängen statt mit Rohwerten arbeitet. Ein einzelner Ausreißer kann höchstens den höchsten Rang bekommen und kann das Ergebnis nicht so verzerren wie ein Mittelwert.
Er ist auch die erste Wahl bei ordinalen Daten, etwa bei Umfrageantworten auf einer Skala von 1–5. Diese Werte sind nicht wirklich kontinuierlich, daher ergibt ein Mittelwert wenig Sinn.
Formel des Mann-Whitney-U-Tests
Der Test liefert zwei U-Statistiken, eine pro Gruppe. Hier ist die Formel:

Formel des Mann-Whitney-U-Tests
Dabei gilt:
-
n1undn2sind die Stichprobengrößen von Gruppe 1 und 2 -
R1undR2sind die Rangsummen je Gruppe – also die Summe aller Ränge, die den Beobachtungen der jeweiligen Gruppe zugewiesen wurden
Die Rangsummen berechnest du, indem du alle Werte beider Gruppen zusammenführst, von klein nach groß sortierst und jedem Wert einen Rang zuweist. Der kleinste Wert bekommt Rang 1, der nächste Rang 2 usw. Anschließend addierst du die Ränge je Gruppe separat.
Die Teststatistik ist das kleinere von U1 und U2. Dann vergleichst du es mit einem kritischen Wert oder verwendest es zur Berechnung eines p-Values.
Die gute Nachricht: Du musst das nicht per Hand rechnen. Sowohl Python als auch R übernehmen das für dich – gleich zeige ich dir, wie.
Annahmen des Mann-Whitney-U-Tests
Der Mann-Whitney-U-Test ist flexibler als der t-Test, hat aber drei Annahmen, die du beachten musst:
- Unabhängige Stichproben: Die beiden Gruppen beeinflussen sich nicht. Beobachtungen in der einen Gruppe stehen in keiner Beziehung zu denen der anderen
- Ordinale oder kontinuierliche Daten: Deine Daten benötigen eine natürliche Ordnung – du kannst sagen, ein Wert ist höher oder niedriger als ein anderer
- Ähnliche Verteilungsformen: Wenn du die Ergebnisse als Medianvergleich interpretieren willst, sollten beide Gruppen grob ähnlich geformte Verteilungen haben. Sind die Formen unterschiedlich, funktioniert der Test zwar, aber du vergleichst mittlere Ränge statt Mediane
Die dritte Annahme sorgt am häufigsten für Verwirrung.
Der Mann-Whitney-U-Test wird oft als Test für Mediane beschrieben, aber das stimmt nur, wenn die beiden Verteilungen ähnlich geformt sind. Wenn nicht, sagt dir das Ergebnis etwas Allgemeineres – ob Werte in einer Gruppe tendenziell höher sind als in der anderen.
Mann-Whitney-U-Test in Python
Pythons scipy.stats-Modul enthält eine Funktion für den Mann-Whitney-U-Test. Hier ein einfaches Beispiel mit Prüfungsscores aus zwei Klassen.
from scipy.stats import mannwhitneyu
class_a = [72, 85, 90, 65, 78, 88, 95, 70, 83, 76]
class_b = [60, 55, 74, 68, 80, 58, 63, 71, 66, 59]
stat, p_value = mannwhitneyu(class_a, class_b, alternative="two-sided")
print(f"U statistic: {stat}")
print(f"P-value: {p_value:.4f}")

Mann-Whitney-U-Test in Python
Das Argument alternative="two-sided" sagt dem Test, dass du in beide Richtungen auf Unterschiede prüfst. Du nimmst nicht vorab an, dass eine Gruppe höhere Werte hat. Bei einer gerichteten Hypothese würdest du stattdessen "less" oder "greater" verwenden.
Das p-Value beträgt hier 0,0046 und liegt damit unter dem üblichen Schwellenwert von 0,05. Du kannst die Nullhypothese verwerfen – die Verteilungen der Scores unterscheiden sich statistisch signifikant zwischen den beiden Klassen.
Die U-Statistik allein sagt ohne Kontext wenig aus. Konzentriere dich auf das p-Value, um die statistische Signifikanz zu beurteilen, und sieh dir Rohdaten oder Mediane an, um die Richtung des Unterschieds zu verstehen.
Mann-Whitney-U-Test in R
R führt den Mann-Whitney-U-Test mit der Funktion wilcox.test() aus. Ich verwende dasselbe Beispiel mit Prüfungsscores wie zuvor.
class_a <- c(72, 85, 90, 65, 78, 88, 95, 70, 83, 76)
class_b <- c(60, 55, 74, 68, 80, 58, 63, 71, 66, 59)
wilcox.test(class_a, class_b, alternative = "two.sided")

Mann-Whitney-U-Test in R
Die W-Statistik ist identisch zur U-Statistik – R bezeichnet sie nur anders. Die Interpretation ist wie in Python: Ein p-Value von 0,0029 liegt unter 0,05, also besteht ein statistisch signifikanter Unterschied zwischen den Gruppen.
Eventuell siehst du auch eine Warnung zu Bindungen (Ties) in deinen Daten.
Das passiert, wenn zwei oder mehr Werte in beiden Gruppen identisch sind, was die Rangzuweisung beeinflusst. R handhabt das für dich; bei vielen Ties lohnt es sich jedoch zu prüfen, ob deine Daten die Testannahmen erfüllen.
Mann-Whitney-U-Test: Ergebnisse interpretieren
Die Nullhypothese des Mann-Whitney-U-Tests lautet, dass beide Gruppen aus derselben Verteilung stammen – sprich, dass es keinen Unterschied gibt. Deine Aufgabe ist es, dagegen Evidenz zu finden.
Das p-Value ist der Weg dorthin:
- p < 0,05: Du verwirfst die Nullhypothese. Die Gruppen sind unterschiedlich verteilt, und der Unterschied ist statistisch signifikant
- p >= 0,05: Es gibt nicht genügend Evidenz, die Nullhypothese zu verwerfen. Das heißt nicht, dass die Gruppen identisch sind, nur dass die Daten keinen klaren Unterschied zeigen
Denke daran: Der Mann-Whitney-U-Test vergleicht Verteilungen. Ein signifikanter Befund sagt, dass Werte in einer Gruppe tendenziell höher gerankt sind als in der anderen – nicht, dass der Durchschnitt höher ist. Wenn du die Richtung des Unterschieds beschreiben willst, schau dir die Mediane beider Gruppen an, nicht die Mittelwerte.
Mann-Whitney-U-Test vs. t-Test
Beide Tests lösen dasselbe Problem (Vergleich zweier Gruppen), gehen aber unterschiedlich vor – und die falsche Wahl beeinflusst deine Ergebnisse.
t-Test
Der t-Test vergleicht die Mittelwerte zweier Gruppen. Er basiert auf der Annahme einer Normalverteilung – wenn die erfüllt ist, ist es ein guter Test.
Das Problem ist genau diese Annahme. Sind deine Daten schief oder stammt die Stichprobe aus einer kleinen Grundgesamtheit, in der Normalität schwer zu bestätigen ist, werden die Ergebnisse des t-Tests unzuverlässig. Der Mittelwert wird von Extremwerten gezogen – das schlägt sich im p-Value nieder.
Verwende den t-Test, wenn:
- Deine Daten normalverteilt sind
- Du eine ausreichend große Stichprobe hast
- Du mit kontinuierlichen Daten ohne starke Schiefe oder Ausreißer arbeitest
Mann-Whitney-U-Test
Der Mann-Whitney-U-Test vergleicht Verteilungen statt Mittelwerte. Er rangiert alle Werte beider Gruppen gemeinsam und prüft, ob eine Gruppe durchgängig höher rangiert. Weil er mit Rängen arbeitet, verzerren Ausreißer und Schiefe das Ergebnis nicht in gleicher Weise.
Sind deine Daten tatsächlich normalverteilt, erkennt der t-Test Unterschiede zuverlässiger. Der Mann-Whitney-U-Test ist flexibler, aber etwas weniger sensitiv.
Verwende den Mann-Whitney-U-Test, wenn:
- Deine Daten nicht normalverteilt sind
- Du mit ordinalen Daten arbeitest
- Du eine kleine Stichprobe hast und Normalität nicht bestätigen kannst
- Ausreißer vorhanden sind und du sie nicht entfernen kannst
Hier ein schneller Vergleich der beiden:

t-Test im Vergleich zum Mann-Whitney-U-Test
Im Zweifel prüfe zuerst die Verteilung. Ist sie einigermaßen normal, nimm den t-Test. Wenn nicht, ist der Mann-Whitney-U-Test die sicherere Wahl.
Häufige Fehler beim Mann-Whitney-U-Test
Die meisten Fehler entstehen, weil nicht klar ist, was der Test tatsächlich misst. Hier sind die häufigsten Stolperfallen.
Annehmen, er vergleicht Mittelwerte
Das ist der Klassiker. Der Mann-Whitney-U-Test vergleicht Verteilungen, nicht Mittelwerte. Ein signifikanter Befund sagt, dass Werte in einer Gruppe tendenziell höher gerankt sind – nicht, dass der Durchschnitt höher ist. Wenn du den Unterschied beschreiben willst, gib die Mediane an, nicht die Mittelwerte.
Unterschiedliche Verteilungsformen ignorieren
Wenn die Gruppen unterschiedlich geformte Verteilungen haben – eine rechtsschief, die andere symmetrisch –, kannst du das Ergebnis nicht als Medianvergleich interpretieren. Der Test läuft zwar, aber das Ergebnis zeigt einen Unterschied der Gesamtverteilungen, keinen Shift im Zentrum. Prüfe die Verteilungen, bevor du Aussagen zu Medianen triffst.
p-Values falsch deuten
Ein p-Value unter 0,05 bedeutet statistische Signifikanz. Es sagt nichts darüber aus, wie groß der Unterschied ist oder ob er praktisch relevant ist. Sehr große Stichproben können ein signifikantes p-Value liefern, obwohl der tatsächliche Unterschied winzig ist. Wenn die Effektgröße wichtig ist, berechne sie separat.
Einsatz bei gepaarten Daten
Der Mann-Whitney-U-Test ist für zwei unabhängige Gruppen. Bei gepaarten Daten – dieselben Personen zweimal gemessen oder gematchte Paare – brauchst du stattdessen den Wilcoxon-Vorzeichen-Rang-Test.
Wann du den Mann-Whitney-U-Test nicht verwenden solltest
Der Mann-Whitney-U-Test ist nicht immer das richtige Werkzeug. In diesen Fällen solltest du zu etwas anderem greifen.
Deine Daten sind gepaart
Wenn dieselben Personen in beiden Gruppen vorkommen – Vorher-/Nachher-Messungen oder gematchte Paare –, sind die Stichproben nicht unabhängig. Der Mann-Whitney-U-Test setzt Unabhängigkeit voraus; ignorierst du die Beziehung zwischen Beobachtungen, erhältst du unzuverlässige Ergebnisse. Nutze stattdessen den Wilcoxon-Vorzeichen-Rang-Test.
Du hast mehr als zwei Gruppen
Der Mann-Whitney-U-Test vergleicht immer nur zwei Gruppen. Für drei oder mehr Gruppen nutze den Kruskal-Wallis-Test – das nichtparametrische Pendant zur einfaktoriellen ANOVA, das mehrere Gruppen handhaben kann.
Große Stichprobe mit normalen Daten
Der Hauptvorteil des Mann-Whitney-U-Tests ist, dass er keine Normalität annimmt. Wenn deine Daten normalverteilt sind und die Stichprobe groß genug ist, um das zu bestätigen, ist der t-Test die bessere Wahl. Er hat in diesem Fall mehr Teststärke und erkennt echte Unterschiede eher.
Fazit
Der Mann-Whitney-U-Test ist eine starke Lösung, wenn deine Daten nicht normalverteilt sind und der t-Test nicht passt.
Er arbeitet mit Rängen statt mit Rohwerten und umgeht damit Annahmen, die parametrische Tests bei schiefen oder kleinen Stichproben unzuverlässig machen. Damit eignet er sich gut für Analysen in der Praxis, wo Daten selten so sauber sind, wie man es gern hätte.
Die größere Lektion ist die Testauswahl. Kein einzelner Test passt für jedes Dataset. Prüfe deine Daten zuerst – Verteilung, Struktur und Stichprobengröße – und lass diese Eigenschaften deine Wahl leiten. Richtig ist, was zu deinen Daten passt.
Wenn du neu in Statistik bist oder tiefer einsteigen willst, bringt dich unser Statistician in R-Lernpfad mit 52 Stunden Material jobfit.
FAQs
Wofür wird der Mann-Whitney-U-Test verwendet?
Der Mann-Whitney-U-Test wird verwendet, um zwei unabhängige Gruppen zu vergleichen, wenn du keine Normalverteilung annehmen kannst. Er rangiert alle Werte beider Gruppen gemeinsam und prüft, ob eine Gruppe durchgängig höher rangiert als die andere. Er funktioniert mit ordinalen und kontinuierlichen Daten.
Worin unterscheidet sich der Mann-Whitney-U-Test vom t-Test?
Der t-Test vergleicht die Mittelwerte zweier Gruppen und setzt Normalverteilung voraus. Der Mann-Whitney-U-Test vergleicht Verteilungen anhand von Rängen und macht diese Annahme nicht. Bei schiefen Daten oder kleinen Stichproben ist der Mann-Whitney-U-Test die sicherere Wahl.
Wann sollte ich den Mann-Whitney-U-Test verwenden?
Verwende ihn, wenn du zwei unabhängige Gruppen hast, deine Daten ordinal oder kontinuierlich sind und du Normalität nicht bestätigen kannst. Er passt auch gut bei kleinen Stichproben und vorhandenen Ausreißern. Sind deine Daten normalverteilt und die Stichprobe groß, liefert der t-Test in der Regel bessere Ergebnisse.
Was sagt das p-Value beim Mann-Whitney-U-Test aus?
Ein p-Value unter 0,05 bedeutet, dass es einen statistisch signifikanten Unterschied zwischen den Verteilungen der beiden Gruppen gibt. Es sagt nicht, wie groß dieser Unterschied ist oder ob er praktisch relevant ist. Dafür musst du die Effektgröße separat berechnen und dir die Mediane der Gruppen ansehen.
Kann ich den Mann-Whitney-U-Test für gepaarte Daten verwenden?
Nein. Der Mann-Whitney-U-Test setzt unabhängige Gruppen voraus, d. h. die Werte der einen Gruppe beeinflussen die der anderen nicht. Bei gepaarten Daten – etwa Vorher-/Nachher-Messungen bei denselben Personen – verwende den Wilcoxon-Vorzeichen-Rang-Test. Der Mann-Whitney-U-Test bei gepaarten Daten ignoriert die Beziehung zwischen Beobachtungen und führt zu unzuverlässigen Ergebnissen.


