Kurs
Mittelwert vs. Mittelwert: Den Unterschied kennen
Bei der Interpretation von Daten kann die Wahl des richtigen Maßes für die zentrale Tendenz über Erfolg oder Misserfolg deiner Analyse entscheiden. Zu den gebräuchlichsten Metriken gehören der Mittelwert und der Median, zwei scheinbar einfache Konzepte, die jedoch tiefgreifende Auswirkungen auf die Datenauswertung haben. Während der Mittelwert das arithmetische Mittel darstellt, ist der Median der zentrale Punkt in einer sortierten Menge von Werten, so dass die Hälfte der Beobachtungen auf beiden Seiten liegt. Aber welche ist zuverlässiger? Die Antwort hängt oft von der Verteilung deiner Daten, dem Vorhandensein von Ausreißern und der Geschichte ab, die du erzählen willst.
In diesem Artikel gehe ich auf die Unterschiede zwischen Mittelwert und Median ein, auf ihre Stärken und Schwächen und darauf, wie du den richtigen Wert für verschiedene Szenarien wählst. Ich werde auch darauf eingehen, wie sich schiefe Verteilungen und Ausreißer auf diese Maße auswirken, und dir anhand von praktischen Beispielen und Anschauungsmaterial helfen, diese grundlegenden Konzepte zu verstehen. Wir werden auch einen Zeh in fortgeschrittenere Ideen stecken.
Definitionen von Mittelwert und Median
Um die Unterschiede zwischen dem Mittelwert und dem Median vollständig zu verstehen, schauen wir uns jede dieser Größen an und beleuchten ihre wichtigsten Eigenschaften.
Was ist der Mittelwert?
Der Mittelwert kann als "Gleichgewichtspunkt" (oder Massenschwerpunkt) der Daten betrachtet werden. Sie berücksichtigt alle Datenpunkte in einem Datensatz und liefert einen einzigen Wert, der den Durchschnitt darstellt. Genauer gesagt, ter Mittelwert wird berechnet, indem alle Werte in einem Datensatz summiert und dann durch die Anzahl der Werte geteilt werden.
Was ist der Median?
Der Median ist der mittlere Wert, wenn die Daten sortiert werden. Anders als der Mittelwert ist er robuster gegenüber Ausreißern und bietet ein besseres Maß für die zentrale Tendenz bei schiefen Daten.
Was ist mit dem Modus?
Der Modus ist ein weiteres Maß für die zentrale Tendenz und stellt den am häufigsten vorkommenden Wert in einem Datensatz dar. Zum Beispiel in dieser Serie:
1, 3, 3, 6, 8, 9
der Modus ist 3 weil er zweimal erscheint.
So berechnest du den Mittelwert und den Median
Eine Definition zu lesen ist eine Sache, aber zu berechnen eine andere. In diesem Abschnitt werde ich die Schritte zur Berechnung der einzelnen Maßnahmen aufschlüsseln und ihre rechnerischen Unterschiede hervorheben.
Wie man den Mittelwert findet
Der Mittelwert ist das arithmetische Mittel eines Datensatzes und wird wie folgt berechnet:
- Addiere die Werte: Zähle alle Zahlen in deinem Datensatz zusammen.
- Dividiere durch die Gesamtzahl der Werte: Nimm die Gesamtsumme und teile sie durch die Anzahl der Werte.
Hier ist der Prozess in Form einer allgemeinen Gleichung dargestellt:
So findest du den Mittelwert. Bild vom Autor
Nehmen wir zum Beispiel einen Datensatz mit Prüfungsergebnissen:
78, 85, 92, 88, 70
- Schritt 1 (Summe): 78 + 85 + 92 + 88 + 70 = 413
- Schritt 2 (Aufteilen): 413 ÷ 5 = 82.6
Die durchschnittliche Punktzahl beträgt 82.6.
Wie man den Median findet
Der Median ist der mittlere Wert eines Datensatzes, wenn er in aufsteigender Reihenfolge angeordnet ist. Hier erfährst du, wie du sie findest:
- Sortiere die Daten: Ordne die Werte vom kleinsten zum größten Wert.
- Identifiziere den mittleren Wert: Wenn der Datensatz eine ungerade Anzahl von Werten enthält, ist der Median der Wert in der Mitte; wenn der Datensatz eine gerade Anzahl von Werten enthält, ist der Median der Durchschnitt der beiden mittleren Werte.
Und hier sind diese Schritte als Gleichungen dargestellt:
Median-Formel. Bild vom Autor
Ich habe auch ein Bild erstellt, um den Prozess zu verdeutlichen.
So findest du den Median. Bild vom Autor
Hier ist ein Beispieldatensatz mit einer ungeraden Anzahl von Werten:
70, 78, 85, 88, 92
- Schritt 1 (Sortieren): Schon erledigt.
- Schritt 2 (mittlerer Wert): Der dritte Wert ist 85.
Der Median liegt bei 85.
Hier ist ein weiteres Beispiel, aber mit einer geraden Anzahl von Werten:
70, 78, 85, 88
- Schritt 1 (Sortieren): Schon erledigt.
- Schritt 2 (Durchschnitt der mittleren Werte): (78 + 85) ÷ 2 = 81.5
Der Median liegt bei 81.5.
Warum der Unterschied wichtig ist: Ausreißer und Schiefe
Während sowohl der Mittelwert als auch der Median den Mittelpunkt eines Datensatzes beschreiben, weicht ihr Verhalten beim Vorhandensein von Ausreißern und schiefen Verteilungen erheblich ab. Diesen Unterschied zu verstehen, ist sehr wichtig, um Daten richtig zu interpretieren und irreführende Schlussfolgerungen zu vermeiden.
Auswirkungen von Ausreißern
Ausreißer sind Werte, die deutlich höher oder niedriger sind als der Rest der Daten. Sie können den Mittelwert stark beeinflussen, haben aber wenig bis keinen Einfluss auf den Median.
Betrachten wir einen Datensatz mit monatlichen Einkommen (in Tausend):
3, 3.5, 4, 4.5, 5, 6, 50
Das durchschnittliche Einkommen beträgt hier 10.85kund wird durch den Extremwert von 50k.
Der Medianwert beträgt hingegen 4.5kwas meiner Meinung nach eine viel typischere Darstellung des Einkommens für diese Gruppe ist.
Schiefe Verteilungen
Der Mittelwert und der Median unterscheiden sich auch in ihrer Darstellung von Daten in schiefen Verteilungen (Datensätze, die nicht symmetrisch sind).
Zum Beispiel in rechtsschiefen Verteilungen (z. B. Einkommen oder Immobilienpreise) sind die meisten Werte am unteren Ende angesiedelt, wobei einige Extremwerte den Schwanz nach rechts ziehen.
- Mittelwert: Verschiebt sich zum Ende hin, so dass der Wert höher als der Median ist.
- Mittelwert: Bleibt näher an der Gruppe der typischen Werte, was den "typischen" Fall besser widerspiegelt.
Berücksichtige das Einkommen:
30k, 35k, 40k, 45k, 50k, 100k, 200k
- Mittelwert: 71,4k (nach oben gezogen durch 100k und 200k).
- Mittelwert: 45k (näher an der Mehrheit der Einkommen).
Warum das wichtig ist
- Bei schiefen Daten: Der Median ist oft repräsentativer für einen "typischen" Datenpunkt, weil er nicht von Extremwerten beeinflusst wird.
- Bei symmetrischen Daten: Der Mittelwert und der Median sind nahezu identisch, sodass beide als Maß für die zentrale Tendenz verwendet werden können.
Eine Sache, die du daraus mitnehmen solltest, ist, dass es wichtig ist, immer die Verteilung deiner Daten zu untersuchen, bevor du entscheidest, ob du den Mittelwert oder den Median verwendest. Werkzeuge wie Histogramme und Boxplots können helfen, Schieflage zu visualisieren und Ausreißer zu identifizieren. Wir werden diese später behandeln. Außerdem möchte ich sagen, dass die Untersuchung der Differenz zwischen Mittelwert und Median eine Möglichkeit ist, die Schiefe zu beurteilen.
Wahl von Mittelwert oder Median in verschiedenen Szenarien
Bei der Datenanalyse hängt die Entscheidung, ob du den Mittelwert oder den Median verwendest, von den Eigenschaften deines Datensatzes und den Erkenntnissen ab, die du gewinnen willst. Im Folgenden findest du eine Tabelle, die dir bei der Auswahl helfen soll:
Verwende den Mittelwert, wenn | Verwende den Median, wenn |
---|---|
Die Datenverteilung ist annähernd normal (symmetrisch). | Die Daten sind stark verzerrt (z. B. Einkommen, Immobilienwerte). |
Ausreißer sind minimal oder für die Analyse irrelevant. | Ausreißer sind vorhanden und könnten die Ergebnisse verzerren, wenn sie einbezogen werden. |
Du brauchst eine Kennzahl, die auf jeden Datenpunkt reagiert, z. B. bei der prädiktiven Modellierung oder bei der Berechnung von Gesamtwerten. | Du willst den "typischen" Wert widerspiegeln und nicht den "mathematischen Mittelpunkt" des Datensatzes. |
Hier ist ein praktischer Tipp, der dir wirklich helfen wird: Beginne immer mit einer visuellen Analyse deiner Daten (z. B. ein Histogramm oder ein Boxplot), um zu prüfen, ob sie symmetrisch und schief sind und ob es Ausreißer gibt. So kannst du entscheiden, ob der Mittelwert oder der Median für dein Szenario besser geeignet ist.
Visualisierung des Mittelwerts vs. Median
Visualisierungen sind leistungsstarke Werkzeuge, um das Verhalten von Mittelwert und Median in verschiedenen Datensätzen zu verstehen. Sie können klar aufzeigen, wie diese Kennzahlen auf Ausreißer und schiefe Verteilungen reagieren, und so zu besseren datengestützten Entscheidungen beitragen.
Balkendiagramm-Beispiel
Stell dir einen kleinen Datensatz mit Tausender-Einkommen vor:
30, 35, 40, 45, 50, 55, 1000
Das folgende Balkendiagramm zeigt, wie ein einziger Extremwert den Mittelwert drastisch beeinflussen kann, während der Median relativ stabil bleibt. In diesem Fall liegen die meisten Datenpunkte zwischen 30 und 55, aber das Vorhandensein eines Ausreißers (1000) treibt den Mittelwert nach oben.
Das Balkendiagramm zeigt die Auswirkungen eines Ausreißers auf den Mittelwert im Vergleich zum Median. Bild vom Autor
Histogramm-Beispiel
Bei einer rechtsschiefen Verteilung (z. B. bei Einkommen oder Immobilienpreisen) wird der Mittelwert oft zum langen Schwanz mit hohen Werten gezogen, während der Median näher am "typischen" Datenpunkt bleibt. Deshalb ist der Median in solchen Fällen ein besseres Maß für die zentrale Tendenz.
Das Histogramm unten zeigt eine simulierte Einkommensverteilung, bei der der Mittelwert (rote gestrichelte Linie) aufgrund der Schiefe deutlich größer ist als der Median (grüne gestrichelte Linie).
Das Histogramm zeigt eine rechtsschiefe Verteilung. Bild vom Autor
Du kannst sehen, wie die rechte Schräge den Schwanz streckt und einen deutlichen Unterschied zwischen dem Mittelwert und dem Median schafft.
Boxplot-Beispiel
Ein Boxplot ist eine hervorragende Methode, um die Auswirkungen von Ausreißern auf den Median zu veranschaulichen. Im Folgenden vergleichen wir zwei Gruppen: eine mit Ausreißern und eine ohne. Der Median (vertikale Linie innerhalb des Kastens) bleibt auch bei Vorhandensein von Extremwerten stabil, aber die Gesamtspanne der Daten wird durch den Ausreißer stark beeinträchtigt.
Boxplot, der die Auswirkungen von Ausreißern auf den Median zeigt. Bild vom Autor
Diese Visualisierungen verdeutlichen, wie Mittelwert und Median auf verschiedene Datenmerkmale reagieren, und geben Klarheit darüber, wann die beiden Maße verwendet werden sollten. Ob bei der Analyse von schiefen Daten, ausreißeranfälligen Datensätzen oder beim Vergleich von Gruppen - mit visuellen Hilfsmitteln wie diesen lassen sich komplexe Zusammenhänge viel leichter erfassen.
Einige weiterführende Ideen
Wenn du neugierig bist, schauen wir uns jetzt ein paar fortgeschrittenere Ideen an.
Mittelwert- vs. Median-Imputation
Wenn du ein Datenwissenschaftler bist und Lücken in deinen Daten füllen musst, musst du vielleicht eine Imputationsmethode wählen. Du fragst dich jetzt vielleicht, was der praktische Unterschied zwischen Mittelwert- und Median-Imputation ist?
Wie du dir vielleicht denken kannst, werden bei der Mittelwert-Imputation fehlende Werte durch den Durchschnitt der verfügbaren Daten ersetzt, der, wie wir bereits gesagt haben, durch Extremwerte verzerrt sein kann. Bei der Median-Imputation hingegen werden fehlende Werte durch den mittleren Wert des Datensatzes ersetzt.
Eine nützliche Faustregel ist, dass du dir die Verteilung deiner Daten ansehen solltest. Wenn die Verteilung deiner Daten schief ist und viele Werte fehlen, und du die Mittelwert-Imputation benutzt hast, dann hast du die Verteilung deiner Daten möglicherweise verändert!
Mittelwert vs. Median: parametrisch oder nicht-parametrisch?
Bei vielen parametrischen Methoden sind der Mittelwert (und die Varianz) zentrale Parameter. Ein einfaches lineares Regressionsmodell geht zum Beispiel davon aus, dass die Fehler normal um einen Mittelwert verteilt sind. Wenn deine Daten die Normalitätsannahme erfüllen, ist der Stichprobenmittelwert ein natürlicher Schätzer und passt gut in parametrische Rahmen.
Der Median hat eine nicht-prametrische Ausrichtung und ist sozusagen die Quintessenz der nicht-parametrischen Messung der zentralen Tendenz. Viele rangbasierte Tests wie der Mann-Whitney-Test vergleichen tatsächlich Mediane (oder Verteilungen) und nicht Mittelwerte. Wenn deine Daten also stark verzerrt sind oder Ausreißer enthalten, entspricht die Konzentration auf den Median eher der nicht-parametrischen Statistik.
Der Unterschied zwischen Mittelwert und Median ist nicht nur wichtig, um Daten korrekt zu beschreiben, sondern auch für Hypothesentests.
Mittelwert vs. Median der Stabilitätsprüfung
Bei der Entscheidung, ob ein Mittelwert oder ein Median verwendet werden soll, ist eine wichtige Frage, wie stabil unsere Statistiken für einen bestimmten Datensatz sind. Bootstrapping ist eine Option, mit der wir die Stichprobenverteilung des Mittelwerts und des Medians empirisch schätzen können, indem wir wiederholt (mit Ersetzung) aus den ursprünglichen Daten eine Stichprobe ziehen.
Du könntest die Unterschiede in der Stabilität von Mittelwert und Median empirisch aufzeigen. Du könntest ein paar Ausreißer in einen Datensatz einfügen und dann ein Bootstrap-Verfahren durchführen, um visuell zu zeigen, wie sich die Verteilung des Mittelwerts dramatischer verschiebt als die des Medians. Außerdem kann das Bootstrapping die Sache konkretisieren, indem es zeigt, wie groß oder klein deine Konfidenzintervalle in realistischen Szenarien sein könnten. Lies unser Tutorial zur Anwendung von Bootstrap-Methoden, um mehr zu erfahren.
Mittelwert vs. Median als Optimierungsproblem
Lassen Sie mich nun eine alternative, aber ebenso wahre Definition geben: Der Mittelwert ist der Wert, der die Summe der quadratischen Abweichungen von den Daten minimiert, während der Median der Wert ist, der die Summe der absoluten Abweichungen minimiert.
Sieh dir diese Gleichung an:
Wenn du die Ableitung dieser Gleichung nach mableitest, sie auf Null setzt und löst, wirst du feststellen, dass der minimierende Wert einfach das arithmetische Mittel ist. Das ist wichtig, weil wir bei vielen statistischen Methoden, wie z. B. der ols-Regression, die quadrierten Fehler aus mathematischen Gründen minimieren und um die Annahme normalverteilter Fehler zu erfüllen.
Betrachte nun eine andere Idee: Anstatt jede Abweichung zu quadrieren, messen wir den absoluten Fehler zwischen m und jedem Datenpunkt:
Hier wollen wir m finden, das diese absolute Gesamtabweichung minimiert. Es stellt sich heraus (durch Analyse der Ableitung des absoluten Verlusts oder durch ein geometrisches Argument), dass die Lösung der Median des Datensatzes ist.
Intuitiv, wenn m links vom Median liegt, gibt es mehr Datenpunkte auf der rechten Seite, über die er sich bewegen kann. Nur in der Mitte halten sich die Anziehungskräfte von links und rechts die Waage, sodass die absolute Gesamtdistanz minimiert wird.
Mittlere vs. mediane Rechenkomplexität
Abschließend möchte ich noch sagen, dass der Mittelwert auf der Skala einfacher zu berechnen ist. Das bedeutet, dass du sie inkrementell berechnen kannst, während die Daten hereinströmen, ohne dass du sie sortieren musst.
Der Median erfordert oft eine Sortierung. Das Sortieren eines großen Datensatzes kann sehr rechenintensiv sein, besonders bei Millionen von Werten. Bei sehr großen Datensätzen können Näherungsalgorithmen (wie Streaming- oder Quantil-basierte Algorithmen) verwendet werden, um den Median effizienter zu schätzen. Unser neuer Kurs "Konzepte der Informatik" ist eine großartige Ressource, um diese Dinge zu lernen.
Nächste Schritte
Wie du gesehen hast, ist der Mittelwert das arithmetische Mittel eines Datensatzes, was ihn empfindlich gegenüber Extremwerten macht, während der Median den mittleren Wert in einem geordneten Datensatz darstellt. Die richtige Wahl kann den Unterschied ausmachen, aber in realen Analysen ist es oft am besten, sowohl den Mittelwert als auch den Median zusammen mit zusätzlichen Statistiken wie Modus, Standardabweichung und Perzentilen anzugeben. Das ist die beste Methode, weil sie ein umfassendes Bild liefert.
Wenn du tiefer in statistische Konzepte einsteigen willst, gibt es einige Bereiche, auf die du dich konzentrieren solltest. Informiere dich zunächst über fortgeschrittenere Varianten des Mittelwerts, wie das getrimmte Mittel, das geometrische Mittel und das gewichtete Mittel, die alle ihren Zweck haben. Ich würde auch unseren technologie-agnostischen Kurs Einführung in die Statistik belegen.
Um dann wirklich ein Experte zu werden, musst du ein Werkzeug auswählen und beherrschen. Unser Kurs "Einführung in die Statistik in R" und unser Lernpfad "Statistiker/in in R" sind beides sehr informative Einstiegsmöglichkeiten, wenn du R, eine beliebte Sprache für Data Science und Statistik, nutzen möchtest. Wenn du lieber mit Tabellenkalkulationen und einer Programmiersprache wie Python arbeitest, bietet dir unser Kurs "Einführung in die Statistik in Google Sheets " und "Einführung in die Statistik in Python " einen praktischen Zugang zur statistischen Analyse mit Formeln und leistungsstarken Bibliotheken.
Erfahrene Datenexpertin und Autorin, die sich leidenschaftlich dafür einsetzt, aufstrebende Datenexperten zu fördern.
Mittelwert vs. Median FAQs
Was ist der Hauptunterschied zwischen dem Mittelwert und dem Median?
Der Mittelwert ist das arithmetische Mittel aller Datenpunkte, während der Median der mittlere Wert ist, wenn die Daten sortiert werden.
Wann sollte ich den Median anstelle des Mittelwerts verwenden?
Verwende den Median, wenn deine Daten schief sind oder Ausreißer enthalten, die den Mittelwert verzerren könnten.
Können der Mittelwert und der Median identisch sein?
Ja, sie können bei einer vollkommen symmetrischen Verteilung, wie der Normalverteilung, gleich sein.
Gibt es Situationen, in denen weder Mittelwert noch Median ausreichend sind?
Ja, bei multimodalen Verteilungen oder Datensätzen mit mehreren Peaks sind beide nicht unbedingt repräsentativ. In solchen Fällen sind zusätzliche Maße wie Modi oder Perzentile möglicherweise besser geeignet.
Warum ist der Mittelwert stärker von Ausreißern betroffen als der Median?
Um diese Frage zu beantworten, überlege, wie der Mittelwert berechnet wird: Der Mittelwert ist die Summe aller Datenwerte geteilt durch die Anzahl der Beobachtungen. Ein Ausreißer (ein extrem hoher oder niedriger Wert) beeinflusst diese Summe stark und zieht den Mittelwert von dem ab, was als typischer Wert angesehen werden könnte.
Betrachte nun, wie der Median berechnet wird: Der Median ist der mittlere Wert in einem sortierten Datensatz. Sie hängt nur von der Anordnung der Daten ab - nicht davon, wie groß oder klein die einzelnen Punkte sind. Ein einzelner Ausreißer verschiebt die Position des mittleren Wertes in der sortierten Liste nicht und beeinflusst daher den Median kaum.
Wie denkst du über die Wahl zwischen Mittelwert und Median?
Schauen wir uns einige wichtige Überlegungen an:
- Wenn Präzision entscheidend ist: Der Mittelwert berücksichtigt alle Datenpunkte und ist daher ideal für Berechnungen, bei denen jeder Wert benötigt wird (z. B. der durchschnittliche Kraftstoffverbrauch aller Fahrzeuge).
- Wenn Robustheit gefragt ist: Der Median bietet mehr Zuverlässigkeit bei schiefen Datensätzen oder wenn Extremwerte den Mittelwert verzerren könnten. Zum Beispiel wird bei der Angabe des Haushaltseinkommens oft der Medianwert bevorzugt, um eine falsche Darstellung aufgrund einiger weniger Spitzenverdiener zu vermeiden.
Lernen mit DataCamp
Kurs
Trend Analysis in Power BI
Kurs
Exploratory Data Analysis in R

Der Blog
Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn
Der Blog
Die 32 besten AWS-Interview-Fragen und Antworten für 2024
Der Blog
Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Nisha Arya Ahmed
20 Min.
Der Blog
Q2 2023 DataCamp Donates Digest
Der Blog
2022-2023 DataCamp Classrooms Jahresbericht
Der Blog
Top 30 Generative KI Interview Fragen und Antworten für 2024

Hesam Sheikh Hassani
15 Min.