Weiter zum Inhalt

Mann-Whitney-U-Test: Nichtparametrische Alternative zum t-Test

Der Mann-Whitney-U-Test ist ein rangbasierter, nichtparametrischer Test zum Vergleich zweier unabhängiger Gruppen, wenn die Normalitätsannahme des t-Tests nicht gilt.
Aktualisiert 4. Mai 2026  · 10 Min. lesen

Hast du schon mal einen t-Test gerechnet, ein seltsames p-Value bekommen und später gemerkt, dass deine Daten alles andere als normalverteilt waren?

Das passiert früher oder später jedem. Das Problem am t-Test ist seine Annahme, dass deine Daten normalverteilt sind. Wenn das nicht gilt, können die Ergebnisse in die Irre führen. Schiefe Daten und kleine Stichproben verletzen diese Normalitätsannahme. Und echte Daten verhalten sich selten so, wie es im Lehrbuch steht.

Der Mann-Whitney-U-Test löst genau dieses Problem. Er ist eine nichtparametrische Alternative zum t-Test, die zwei Gruppen anhand von Rängen statt Mittelwerten vergleicht – die Form der Verteilung ist ihm daher egal.

In diesem Artikel erfährst du, was der Mann-Whitney-U-Test ist, wann du ihn einsetzen solltest, wie die Mathematik dahinter funktioniert und wie du ihn in Python und R durchführst und interpretierst.

Aber was genau ist ein t-Test? Wenn du dir diese Frage stellst, lies unseren Einführung in t-Tests mit Python – dort werden alle Fragen beantwortet.

Was ist der Mann-Whitney-U-Test?

Der Mann-Whitney-U-Test ist ein nichtparametrischer statistischer Test zum Vergleich zweier unabhängiger Gruppen.

Im Gegensatz zum t-Test setzt er keine Normalverteilung voraus. Er vergleicht die Verteilungen zweier Gruppen, indem Rohwerte in Ränge umgewandelt und diese analysiert werden. Das macht ihn zur guten Wahl, wenn deine Daten schief sind, Ausreißer enthalten oder die Normalitätsanforderung anderweitig nicht erfüllen.

Du wirst ihn auch als Wilcoxon-Rangsummentest finden. Für praktische Zwecke sind das Synonyme.

Wann du den Mann-Whitney-U-Test einsetzen solltest

Der Mann-Whitney-U-Test braucht bestimmte Voraussetzungen. Verwende ihn nur, wenn alle folgenden Punkte zutreffen:

  • Zwei unabhängige Gruppen: Die Stichproben überschneiden sich nicht, und die Werte der einen Gruppe beeinflussen die der anderen nicht
  • Ordinale oder kontinuierliche Daten: Zum Beispiel Testergebnisse, Reaktionszeiten oder andere Messwerte
  • Nicht-normalverteilt: Deine Daten sind schief, haben fette Tails oder du kannst bei kleiner Stichprobe die Normalität nicht bestätigen
  • Kleine Stichprobengrößen: Wenn du nicht genug Daten hast, um dich auf den Zentrale-Grenzwertsatz zu verlassen

Schauen wir uns ein Beispiel an.

Angenommen, du hast zwei Klassen, die mit unterschiedlichen Methoden unterrichtet wurden, und willst wissen, welche bessere Prüfungsergebnisse erzielt hat. Du plottest die Scores und siehst, dass sie nicht normalverteilt sind – in einer Klasse ziehen ein paar Ausreißer die Verteilung nach rechts. Der t-Test vergleicht Gruppenmittelwerte, also ziehen diese Ausreißer den Mittelwert nach oben und lassen eine Klasse besser aussehen, als sie ist.

Dieser verzerrte Mittelwert geht in die t-Test-Berechnung ein, und das zurückkommende p-Value spiegelt den Unterschied zwischen den Gruppen nicht korrekt wider. Der Mann-Whitney-U-Test hat dieses Problem nicht, weil er mit Rängen statt mit Rohwerten arbeitet. Ein einzelner Ausreißer kann höchstens den höchsten Rang bekommen und kann das Ergebnis nicht so verzerren wie ein Mittelwert.

Er ist auch die erste Wahl bei ordinalen Daten, etwa bei Umfrageantworten auf einer Skala von 1–5. Diese Werte sind nicht wirklich kontinuierlich, daher ergibt ein Mittelwert wenig Sinn.

Formel des Mann-Whitney-U-Tests

Der Test liefert zwei U-Statistiken, eine pro Gruppe. Hier ist die Formel:

Mann-Whitney u test formula

Formel des Mann-Whitney-U-Tests

Dabei gilt:

  • n1 und n2 sind die Stichprobengrößen von Gruppe 1 und 2

  • R1 und R2 sind die Rangsummen je Gruppe – also die Summe aller Ränge, die den Beobachtungen der jeweiligen Gruppe zugewiesen wurden

Die Rangsummen berechnest du, indem du alle Werte beider Gruppen zusammenführst, von klein nach groß sortierst und jedem Wert einen Rang zuweist. Der kleinste Wert bekommt Rang 1, der nächste Rang 2 usw. Anschließend addierst du die Ränge je Gruppe separat.

Die Teststatistik ist das kleinere von U1 und U2. Dann vergleichst du es mit einem kritischen Wert oder verwendest es zur Berechnung eines p-Values.

Die gute Nachricht: Du musst das nicht per Hand rechnen. Sowohl Python als auch R übernehmen das für dich – gleich zeige ich dir, wie.

Annahmen des Mann-Whitney-U-Tests

Der Mann-Whitney-U-Test ist flexibler als der t-Test, hat aber drei Annahmen, die du beachten musst:

  • Unabhängige Stichproben: Die beiden Gruppen beeinflussen sich nicht. Beobachtungen in der einen Gruppe stehen in keiner Beziehung zu denen der anderen
  • Ordinale oder kontinuierliche Daten: Deine Daten benötigen eine natürliche Ordnung – du kannst sagen, ein Wert ist höher oder niedriger als ein anderer
  • Ähnliche Verteilungsformen: Wenn du die Ergebnisse als Medianvergleich interpretieren willst, sollten beide Gruppen grob ähnlich geformte Verteilungen haben. Sind die Formen unterschiedlich, funktioniert der Test zwar, aber du vergleichst mittlere Ränge statt Mediane

Die dritte Annahme sorgt am häufigsten für Verwirrung.

Der Mann-Whitney-U-Test wird oft als Test für Mediane beschrieben, aber das stimmt nur, wenn die beiden Verteilungen ähnlich geformt sind. Wenn nicht, sagt dir das Ergebnis etwas Allgemeineres – ob Werte in einer Gruppe tendenziell höher sind als in der anderen.

Mann-Whitney-U-Test in Python

Pythons scipy.stats-Modul enthält eine Funktion für den Mann-Whitney-U-Test. Hier ein einfaches Beispiel mit Prüfungsscores aus zwei Klassen.

from scipy.stats import mannwhitneyu

class_a = [72, 85, 90, 65, 78, 88, 95, 70, 83, 76]
class_b = [60, 55, 74, 68, 80, 58, 63, 71, 66, 59]

stat, p_value = mannwhitneyu(class_a, class_b, alternative="two-sided")

print(f"U statistic: {stat}")
print(f"P-value: {p_value:.4f}")

Mann-Whitney u test in Python

Mann-Whitney-U-Test in Python

Das Argument alternative="two-sided" sagt dem Test, dass du in beide Richtungen auf Unterschiede prüfst. Du nimmst nicht vorab an, dass eine Gruppe höhere Werte hat. Bei einer gerichteten Hypothese würdest du stattdessen "less" oder "greater" verwenden.

Das p-Value beträgt hier 0,0046 und liegt damit unter dem üblichen Schwellenwert von 0,05. Du kannst die Nullhypothese verwerfen – die Verteilungen der Scores unterscheiden sich statistisch signifikant zwischen den beiden Klassen.

Die U-Statistik allein sagt ohne Kontext wenig aus. Konzentriere dich auf das p-Value, um die statistische Signifikanz zu beurteilen, und sieh dir Rohdaten oder Mediane an, um die Richtung des Unterschieds zu verstehen.

Mann-Whitney-U-Test in R

R führt den Mann-Whitney-U-Test mit der Funktion wilcox.test() aus. Ich verwende dasselbe Beispiel mit Prüfungsscores wie zuvor.

class_a <- c(72, 85, 90, 65, 78, 88, 95, 70, 83, 76)
class_b <- c(60, 55, 74, 68, 80, 58, 63, 71, 66, 59)

wilcox.test(class_a, class_b, alternative = "two.sided")

Mann-Whitney u test in R

Mann-Whitney-U-Test in R

Die W-Statistik ist identisch zur U-Statistik – R bezeichnet sie nur anders. Die Interpretation ist wie in Python: Ein p-Value von 0,0029 liegt unter 0,05, also besteht ein statistisch signifikanter Unterschied zwischen den Gruppen.

Eventuell siehst du auch eine Warnung zu Bindungen (Ties) in deinen Daten.

Das passiert, wenn zwei oder mehr Werte in beiden Gruppen identisch sind, was die Rangzuweisung beeinflusst. R handhabt das für dich; bei vielen Ties lohnt es sich jedoch zu prüfen, ob deine Daten die Testannahmen erfüllen.

Mann-Whitney-U-Test: Ergebnisse interpretieren

Die Nullhypothese des Mann-Whitney-U-Tests lautet, dass beide Gruppen aus derselben Verteilung stammen – sprich, dass es keinen Unterschied gibt. Deine Aufgabe ist es, dagegen Evidenz zu finden.

Das p-Value ist der Weg dorthin:

  • p < 0,05: Du verwirfst die Nullhypothese. Die Gruppen sind unterschiedlich verteilt, und der Unterschied ist statistisch signifikant
  • p >= 0,05: Es gibt nicht genügend Evidenz, die Nullhypothese zu verwerfen. Das heißt nicht, dass die Gruppen identisch sind, nur dass die Daten keinen klaren Unterschied zeigen

Denke daran: Der Mann-Whitney-U-Test vergleicht Verteilungen. Ein signifikanter Befund sagt, dass Werte in einer Gruppe tendenziell höher gerankt sind als in der anderen – nicht, dass der Durchschnitt höher ist. Wenn du die Richtung des Unterschieds beschreiben willst, schau dir die Mediane beider Gruppen an, nicht die Mittelwerte.

Mann-Whitney-U-Test vs. t-Test

Beide Tests lösen dasselbe Problem (Vergleich zweier Gruppen), gehen aber unterschiedlich vor – und die falsche Wahl beeinflusst deine Ergebnisse.

t-Test

Der t-Test vergleicht die Mittelwerte zweier Gruppen. Er basiert auf der Annahme einer Normalverteilung – wenn die erfüllt ist, ist es ein guter Test.

Das Problem ist genau diese Annahme. Sind deine Daten schief oder stammt die Stichprobe aus einer kleinen Grundgesamtheit, in der Normalität schwer zu bestätigen ist, werden die Ergebnisse des t-Tests unzuverlässig. Der Mittelwert wird von Extremwerten gezogen – das schlägt sich im p-Value nieder.

Verwende den t-Test, wenn:

  • Deine Daten normalverteilt sind
  • Du eine ausreichend große Stichprobe hast
  • Du mit kontinuierlichen Daten ohne starke Schiefe oder Ausreißer arbeitest

Mann-Whitney-U-Test

Der Mann-Whitney-U-Test vergleicht Verteilungen statt Mittelwerte. Er rangiert alle Werte beider Gruppen gemeinsam und prüft, ob eine Gruppe durchgängig höher rangiert. Weil er mit Rängen arbeitet, verzerren Ausreißer und Schiefe das Ergebnis nicht in gleicher Weise.

Sind deine Daten tatsächlich normalverteilt, erkennt der t-Test Unterschiede zuverlässiger. Der Mann-Whitney-U-Test ist flexibler, aber etwas weniger sensitiv.

Verwende den Mann-Whitney-U-Test, wenn:

  • Deine Daten nicht normalverteilt sind
  • Du mit ordinalen Daten arbeitest
  • Du eine kleine Stichprobe hast und Normalität nicht bestätigen kannst
  • Ausreißer vorhanden sind und du sie nicht entfernen kannst

Hier ein schneller Vergleich der beiden:

t-test compared to Mann-Whitney U test

t-Test im Vergleich zum Mann-Whitney-U-Test

Im Zweifel prüfe zuerst die Verteilung. Ist sie einigermaßen normal, nimm den t-Test. Wenn nicht, ist der Mann-Whitney-U-Test die sicherere Wahl.

Häufige Fehler beim Mann-Whitney-U-Test

Die meisten Fehler entstehen, weil nicht klar ist, was der Test tatsächlich misst. Hier sind die häufigsten Stolperfallen.

Annehmen, er vergleicht Mittelwerte

Das ist der Klassiker. Der Mann-Whitney-U-Test vergleicht Verteilungen, nicht Mittelwerte. Ein signifikanter Befund sagt, dass Werte in einer Gruppe tendenziell höher gerankt sind – nicht, dass der Durchschnitt höher ist. Wenn du den Unterschied beschreiben willst, gib die Mediane an, nicht die Mittelwerte.

Unterschiedliche Verteilungsformen ignorieren

Wenn die Gruppen unterschiedlich geformte Verteilungen haben – eine rechtsschief, die andere symmetrisch –, kannst du das Ergebnis nicht als Medianvergleich interpretieren. Der Test läuft zwar, aber das Ergebnis zeigt einen Unterschied der Gesamtverteilungen, keinen Shift im Zentrum. Prüfe die Verteilungen, bevor du Aussagen zu Medianen triffst.

p-Values falsch deuten

Ein p-Value unter 0,05 bedeutet statistische Signifikanz. Es sagt nichts darüber aus, wie groß der Unterschied ist oder ob er praktisch relevant ist. Sehr große Stichproben können ein signifikantes p-Value liefern, obwohl der tatsächliche Unterschied winzig ist. Wenn die Effektgröße wichtig ist, berechne sie separat.

Einsatz bei gepaarten Daten

Der Mann-Whitney-U-Test ist für zwei unabhängige Gruppen. Bei gepaarten Daten – dieselben Personen zweimal gemessen oder gematchte Paare – brauchst du stattdessen den Wilcoxon-Vorzeichen-Rang-Test.

Wann du den Mann-Whitney-U-Test nicht verwenden solltest

Der Mann-Whitney-U-Test ist nicht immer das richtige Werkzeug. In diesen Fällen solltest du zu etwas anderem greifen.

Deine Daten sind gepaart

Wenn dieselben Personen in beiden Gruppen vorkommen – Vorher-/Nachher-Messungen oder gematchte Paare –, sind die Stichproben nicht unabhängig. Der Mann-Whitney-U-Test setzt Unabhängigkeit voraus; ignorierst du die Beziehung zwischen Beobachtungen, erhältst du unzuverlässige Ergebnisse. Nutze stattdessen den Wilcoxon-Vorzeichen-Rang-Test.

Du hast mehr als zwei Gruppen

Der Mann-Whitney-U-Test vergleicht immer nur zwei Gruppen. Für drei oder mehr Gruppen nutze den Kruskal-Wallis-Test – das nichtparametrische Pendant zur einfaktoriellen ANOVA, das mehrere Gruppen handhaben kann.

Große Stichprobe mit normalen Daten

Der Hauptvorteil des Mann-Whitney-U-Tests ist, dass er keine Normalität annimmt. Wenn deine Daten normalverteilt sind und die Stichprobe groß genug ist, um das zu bestätigen, ist der t-Test die bessere Wahl. Er hat in diesem Fall mehr Teststärke und erkennt echte Unterschiede eher.

Fazit

Der Mann-Whitney-U-Test ist eine starke Lösung, wenn deine Daten nicht normalverteilt sind und der t-Test nicht passt.

Er arbeitet mit Rängen statt mit Rohwerten und umgeht damit Annahmen, die parametrische Tests bei schiefen oder kleinen Stichproben unzuverlässig machen. Damit eignet er sich gut für Analysen in der Praxis, wo Daten selten so sauber sind, wie man es gern hätte.

Die größere Lektion ist die Testauswahl. Kein einzelner Test passt für jedes Dataset. Prüfe deine Daten zuerst – Verteilung, Struktur und Stichprobengröße – und lass diese Eigenschaften deine Wahl leiten. Richtig ist, was zu deinen Daten passt.

Wenn du neu in Statistik bist oder tiefer einsteigen willst, bringt dich unser Statistician in R-Lernpfad mit 52 Stunden Material jobfit.


Dario Radečić's photo
Author
Dario Radečić
LinkedIn
Senior Data Scientist mit Sitz in Kroatien. Top Tech Writer mit über 700 veröffentlichten Artikeln, die mehr als 10 Millionen Mal aufgerufen wurden. Buchautor von Machine Learning Automation with TPOT.

FAQs

Wofür wird der Mann-Whitney-U-Test verwendet?

Der Mann-Whitney-U-Test wird verwendet, um zwei unabhängige Gruppen zu vergleichen, wenn du keine Normalverteilung annehmen kannst. Er rangiert alle Werte beider Gruppen gemeinsam und prüft, ob eine Gruppe durchgängig höher rangiert als die andere. Er funktioniert mit ordinalen und kontinuierlichen Daten.

Worin unterscheidet sich der Mann-Whitney-U-Test vom t-Test?

Der t-Test vergleicht die Mittelwerte zweier Gruppen und setzt Normalverteilung voraus. Der Mann-Whitney-U-Test vergleicht Verteilungen anhand von Rängen und macht diese Annahme nicht. Bei schiefen Daten oder kleinen Stichproben ist der Mann-Whitney-U-Test die sicherere Wahl.

Wann sollte ich den Mann-Whitney-U-Test verwenden?

Verwende ihn, wenn du zwei unabhängige Gruppen hast, deine Daten ordinal oder kontinuierlich sind und du Normalität nicht bestätigen kannst. Er passt auch gut bei kleinen Stichproben und vorhandenen Ausreißern. Sind deine Daten normalverteilt und die Stichprobe groß, liefert der t-Test in der Regel bessere Ergebnisse.

Was sagt das p-Value beim Mann-Whitney-U-Test aus?

Ein p-Value unter 0,05 bedeutet, dass es einen statistisch signifikanten Unterschied zwischen den Verteilungen der beiden Gruppen gibt. Es sagt nicht, wie groß dieser Unterschied ist oder ob er praktisch relevant ist. Dafür musst du die Effektgröße separat berechnen und dir die Mediane der Gruppen ansehen.

Kann ich den Mann-Whitney-U-Test für gepaarte Daten verwenden?

Nein. Der Mann-Whitney-U-Test setzt unabhängige Gruppen voraus, d. h. die Werte der einen Gruppe beeinflussen die der anderen nicht. Bei gepaarten Daten – etwa Vorher-/Nachher-Messungen bei denselben Personen – verwende den Wilcoxon-Vorzeichen-Rang-Test. Der Mann-Whitney-U-Test bei gepaarten Daten ignoriert die Beziehung zwischen Beobachtungen und führt zu unzuverlässigen Ergebnissen.

Themen

Lerne mit DataCamp

Lernpfad

Datenanalyst in R

36 Std.
Von der explorativen Datenanalyse mit dplyr bis hin zur Datenvisualisierung mit ggplot2 - erwerbe die karrierefördernden R-Kenntnisse, die du für deinen Erfolg als Datenanalyst/in brauchst!
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Tutorial

Python Datenstrukturen Tutorial

Mach dich mit Python-Datenstrukturen vertraut: Lerne mehr über Datentypen und primitive sowie nicht-primitive Datenstrukturen wie Strings, Listen, Stapel usw.
Sejal Jaiswal's photo

Sejal Jaiswal

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Tutorial

Python NaN: 4 Möglichkeiten, um in Python nach fehlenden Werten zu suchen

Schau dir 4 Möglichkeiten an, wie du NaN-Werte in Python mit NumPy und Pandas erkennen kannst. Lerne die wichtigsten Unterschiede zwischen NaN und None kennen, um Daten effizient zu bereinigen und zu analysieren.
Adel Nehme's photo

Adel Nehme

Tutorial

Python-Tutorial zum Verknüpfen von Zeichenfolgen

Lerne verschiedene Methoden zum Verknüpfen von Zeichenfolgen in Python kennen, mit Beispielen, die jede Technik zeigen.
DataCamp Team's photo

DataCamp Team

Tutorial

So kürzt man eine Zeichenfolge in Python: Drei verschiedene Methoden

Lerne die Grundlagen zum Entfernen von führenden und nachfolgenden Zeichen aus einer Zeichenfolge in Python.
Adel Nehme's photo

Adel Nehme

Tutorial

Wie sortiert man ein Wörterbuch in Python nach Werten?

Lerne effiziente Methoden, um ein Wörterbuch in Python nach Werten zu sortieren. Lerne, wie du Sachen aufsteigend oder absteigend sortieren kannst, und hol dir ein paar coole Tipps zum Sortieren von Schlüsseln.
Neetika Khandelwal's photo

Neetika Khandelwal

Mehr anzeigenMehr anzeigen