Direkt zum Inhalt

Maße für die zentrale Tendenz: Ein umfassender Überblick

Lerne das Konzept der zentralen Tendenz in der Statistik kennen, einschließlich spezieller Maße wie Mittelwert, Median und Modus. Lerne, wie du die beste Methode für deine Daten und deren Verteilung findest.
Aktualisierte 18. Aug. 2025  · 11 Min. Lesezeit

Die zentrale Tendenz ist eines der wichtigsten Konzepte in der Statistik und beschreibt den typischen Wert, um den sich Daten normalerweise gruppieren. Es gibt eine einzige, aussagekräftige Zahl, die einen ganzen Datensatz zusammenfasst, sodass man viele Infos besser verstehen und vergleichen kann.

Historisch gesehen hat sich die Idee eines „zentralen Wertes“ über Jahrhunderte hinweg entwickelt. Alte Gelehrte wie die Griechen haben einfache Durchschnittswerte genommen, während Matheprofis im 17. und 18. Jahrhundert Mittelwert, Median und Modus als statistische Werkzeuge eingeführt haben. Im 20. Jahrhundert wurde das Ganze noch besser und es kamen spezielle Methoden für den Umgang mit schief verteilten oder Ausreißer-anfälligen Daten dazu. Heutzutage ist die zentrale Tendenz in vielen Bereichen super wichtig, von den Sozialwissenschaften und der Wirtschaft bis hin zum Ingenieurwesen und maschinellem Lernen.

Grundlegende Konzepte der zentralen Tendenz

Bevor ich auf die Varianten eingehe, lass uns erst mal ein paar Begriffe klären. Wenn du mehr darüber erfahren willst, schreib dich in unseren Kurs „Einführung in die Statistik“ ein.

Was ist das und wozu ist es gut?

Die zentrale Tendenz ist ein statistisches Maß, das einen Mittelpunkt in einem Datensatz findet. Es ist wie eine Zusammenfassung, die zeigt, wo die meisten Werte in der Verteilung liegen. Durch die Angabe eines einzigen, repräsentativen Werts wird die komplexe Variabilität der Rohdaten vereinfacht.

Ein wichtiger Grund für die zentrale Tendenz ist, dass man Datensätze miteinander vergleichen kann. Mit zentralen Messgrößen können wir zum Beispiel die Durchschnittseinkommen verschiedener Städte vergleichen und schnell sozioökonomische Muster erkennen. Wichtig ist, dass sich die zentrale Tendenz von Streuungsmaßen unterscheidet, die beschreiben, wie sich Daten um den Mittelpunkt verteilen. Während der Mittelwert oder Median zeigt, wo das Rechenzentrum liegt, zeigen Sachen wie Varianz und Standardabweichung, wie eng oder weit die Daten um diesen Punkt verteilt sind.

Rolle in der deskriptiven Statistik

In der deskriptiven Statistik wird die zentrale Tendenz verwendet, um große Datensätze effektiv zusammenzufassen. Egal, ob du Prüfungsergebnisse, Produktionszeiten oder Kundenbewertungen checkst – den typischen Wert zu kennen, ist super wichtig, um Trends zu verstehen.

Die zentrale Tendenz hängt eng mit den Variabilitätsmaßen zusammen. Beispielsweise können zwei Datensätze denselben Mittelwert haben, sich jedoch in ihrer Streuung stark unterscheiden, was die Zuverlässigkeit dieses Mittelwerts als zusammenfassende Statistik beeinflusst. 

In der Praxis hilft die zentrale Tendenz Politikern, Unternehmenschefs und Forschern, Entscheidungen auf der Grundlage repräsentativer Werte zu treffen. Ein Einzelhändler kann die durchschnittlichen Verkaufszahlen checken, um seine Lagerbestände zu planen, während ein Gesundheitsforscher vielleicht die durchschnittliche Überlebenszeit anschaut, um zu sehen, wie gut eine Behandlung wirkt.

Arten von Daten und zentrale Tendenz

Die Wahl eines passenden Maßes für die zentrale Tendenz hängt stark vom Datentyp ab. Daten lassen sich in vier große Kategorien einteilen:

  • Nominale Daten sind Kategorien ohne bestimmte Reihenfolge (z. B. Blutgruppen, Farben).
  • Ordinaldaten zeigen eine Rangfolge an, aber ohne feste Abstände (z. B. Bewertungen in Umfragen wie schlecht, befriedigend, gut).
  • Intervalldaten haben Werte, die in gleichen Abständen angeordnet sind, aber keinen echten Nullpunkt haben (z. B. Temperaturen in Celsius).
  • Verhältnisdaten haben gleiche Abstände und einen absoluten Nullpunkt (z. B. Gewicht, Größe, Einkommen).

Hier sind die besten Mittelwerte für jede Art von Daten:

  • Für nominale Datenist der Modus gut, weil es keinen Sinn macht, Kategorien wie „rot“, „blau“ und „grün“ zu mitteln.
  • Für Ordinaldatenist der Median oft die beste Wahl, da er die Rangfolge berücksichtigt, ohne dass man davon ausgeht, dass die Unterschiede zwischen den Rängen gleich groß sind.
  • Für Intervall- und Verhältnismessungenkönnen der Mittelwert, der Median oder der Modus gut sein, je nachdem, wie die Daten verteilt sind und ob es Ausreißer gibt.

Zum Beispiel wird oft das mittlere Haushaltseinkommen angegeben, weil die Einkommensdaten durch extrem hohe Verdiener verzerrt sind, während die durchschnittliche Körpergröße für normal verteilte Körpergrößen sinnvoll ist.

Primäre Maße der zentralen Tendenz

Es gibt drei Hauptmaße für die zentrale Tendenz: den arithmetischen Mittelwert, den Median und den Modus. Schauen wir uns die einzelnen Punkte genauer an und achten dabei besonders auf ihre Stärken und Schwächen.

Arithmetischer Mittelwert

Der arithmetische Mittelwert, oft einfachals Durchschnitt oder Mittelwert bezeichnet, wird berechnet, indem alle Werte in einem Datensatz addiert und durch die Anzahl der Beobachtungen geteilt werden:

Formel für den Mittelwert

Der Hauptvorteil dieser Maßnahme liegt in ihren mathematischen Eigenschaften: Sie lässt sich algebraisch manipulieren und ermöglicht so elegante Formulierungen in der inferentiellen Statistik, Hypothesentests und Regressionsanalysen. Zum Beispiel lässt es sich super in Varianz- und Standardabweichungsberechnungen einbauen.

Der Mittelwert ist allerdings ziemlich empfindlich gegenüber Ausreißern: Ein paar extreme Werte können ihn stark verzerren, sodass er für schiefe Verteilungen nicht mehr repräsentativ ist. Zum Beispiel können bei den Einkommensdaten ein paar Milliardäre den Durchschnitt weit über das hinausziehen, was die meisten Leute verdienen.

Wenn wir über den Mittelwert reden, ist es wichtig, zwischen dem Populationsmittelwert (μ) unddem Stichprobenmittelwert Mittelwert einer Stichprobe (x̄). Der erste beschreibt die ganze Population, während der zweite sie anhand einer Teilmenge schätzt. Um aus einer Stichprobe von Daten Rückschlüsse auf die ganze Population zu ziehen, verwenden wir einen Prozess, der statistische Inferenz genannt wird.

Szenarien, in denen der Mittelwert nicht verwendet werden sollte, sind stark verzerrte Verteilungen, Daten mit deutlichen Ausreißern oder ordinale Daten, bei denen eine Mittelwertbildung keine praktische Bedeutung hat.

Median

Der Median ist der mittlere Wert einer geordneten Datenreihe. Bei einer ungeraden Anzahl von Werten ist es der mittlere Wert. Bei einem Datensatz mit gerader Anzahl ist es der Durchschnitt der beiden mittleren Werte.

Um den Median zu berechnen, brauchen wir:

  1. Die Daten von klein nach groß sortieren.
  2. Den Mittelwert ermitteln.

Die größte Stärke des Medians ist, dass er sich nicht von Ausreißern beeinflussen lässt: Extreme Werte an den Enden der Verteilung haben keinen Einfluss auf seinen Wert, was ihn super für schiefe Daten wie Einkommen oder Immobilienpreise macht.

Der Median ist aber mathematisch nicht so einfach zu handhaben wie der Mittelwert. Es ist weniger nützlich in komplizierten statistischen Formeln oder Modellen und lässt sich nicht so einfach in algebraische Berechnungen einbauen.

Modus

Der Modus ist der Wert, der in einem Datensatz am häufigsten vorkommt. Anders als der Median und der Medianwert kann der Unl-chmit nominalen Daten verwendet werden, sodass er für verschiedene Datentypen geeignet ist.

Der Modus hilft dabei, häufig vorkommende Kategorien zu erkennen, wie zum Beispiel die beliebteste Produktfarbe oder die häufigste Kundenbeschwerde. Allerdings gibt's ein paar Einschränkungen:

  • Bei gleichmäßigen Verteilungen gibt es vielleicht keinen Modus.
  • Bei multimodalen Verteilungen kann es mehrere Modi geben, was die Interpretation kompliziert macht.
  • Bei Zahlen kann der Modus weniger aussagekräftig sein oder sogar ganz bedeutungslos, wenn alle Werte einzigartig sind.

Eine Häufigkeitsverteilungstabelle hilft oft dabei, den Modus zu bestimmen. In der folgenden Tabelle mit der Häufigkeitsverteilung der Apfelfarben ist beispielsweise „grün“ der mode:

Apfel-Farbe

Häufigkeit

Rot

5

Grün

8

Gelb

3

Vergleichende Analyse der wichtigsten Maßnahmen

In der Statistik ist es echt wichtig zu wissen, wie sich Mittelwert, Median und Modus in ihrer Leistung und Eignung unterscheiden. Vergleichen wir sie mal:

Empfindlichkeit gegenüber Ausreißern und Schiefe

Von den drei Maßen ist der Mittelwert am empfindlichsten gegenüber Ausreißern: Ein einziger extremer Wert kann den Mittelwert stark verzerren. Der Median bleibt dagegen stabil, es sei denn, es sammeln sich so viele extreme Werte an, dass sich der Mittelwert verschiebt. Der Modus ist total unempfindlich gegenüber Ausreißern, weil er nur von der Häufigkeit abhängt.

Die Schiefe beeinflusst auch diese Maße. Bei rechts verschobenen Verteilungen (z. B. Einkommensdaten) ist der Mittelwert normalerweise höher als der Median, der wiederum höher ist als der Modus.(Mit Modus meine ich hier den Modus in einer kontinuierlichen Verteilung, wo der Modus der Höhepunkt der Wahrscheinlichkeitsdichtekurve ist, vorausgesetzt, dass es einen gibt.)

Umgekehrt liegt bei links verschobenen Verteilungen (z. B. bei Testnoten, bei denen die meisten Schüler gute Noten haben) der Mittelwert unter dem Median und dem Modus:

Symmetrische Verteilungen, wiedie Normalverteilung,zeigen im Idealfall Gleichheit zwischen allen drei Maßen:

In der Praxis kann es aber bei symmetrischen Verteilungen wegenAbweichungen bei der Stichprobenahme zu kleinen Abweichungen kommen.

Zusammenhänge zwischen Mittelwert, Median und Modus

Im letzten Abschnitt haben wir schon die allgemeinen Beziehungen zwischen Mittelwert, Median und Modus in normalen und verzerrten Verteilungen gesehen. Im Allgemeinen helfen die Beziehungen zwischen den drei Messungen dabei, Schiefe zu erkennen. In empirischen Studien verwenden Statistiker oft den zweiten Schiefe-Koeffizienten von Pearson:

Schiefe-Gleichung

Bei der Verteilung der Gehälter zeigt zum Beispiel ein großer Unterschied zwischen dem Durchschnitts- und dem Medianwert, dass es Einkommensunterschiede gibt. Ähnlich ist es auf dem Wohnungsmarkt: Der Medianpreis für Häuser zeigt oft besser die typischen Kosten als der Durchschnittspreis, der durch ein paar extrem teure Immobilien verzerrt sein kann.

Anwendbarkeit nach Datentyp

Verschiedene Maße für die zentrale Tendenz passen zu unterschiedlichen Datentypen. Die Tabelle unten zeigt die besten Anwendungsfälle und Einschränkungen für jede Maßnahme.

Datentyp

Beste Maßnahme

Kommentare

Nominal

Modus

Mittelwert und Median sind nicht aussagekräftig.

Ordnungszahl

Median, Modus

Durchschnitt oft unpassend wegen ungleicher Intervalle

Interval/Ratio

Mittelwert, Median, Modus

Die Wahl hängt von der Form der Verteilung und den Ausreißern ab.

Wie wir sehen, ist es wichtig, die statistische Messung an die Art der Daten anzupassen.

Spezielle Maße für die zentrale Tendenz

Neben den gängigen Maßen für die zentrale Tendenz gibt's auch spezielle Alternativen, die sich mit bestimmten Datenproblemen wie Schiefe, Ausreißern und Datenskalierung beschäftigen.

Getrimmt und winsorisiert bedeutet

Ein getrimmter Mittelwert, schmeißt einen festen Prozentsatz der Extremwerte von beiden Enden des Datensatzes raus, bevor er den Durchschnitt berechnet. Zum Beispiel werden bei einer Trimmung von 10 % die niedrigsten 10 % und die höchsten 10 % der Werte rausgenommen.

Ein winsorisierter Mittelwert löscht extreme Werte nicht, sondern ersetzt sie durch die nächstgelegenen Werte, die noch da sind. Diese Maßnahme ist nützlich in Bereichen wie Finanzen, Fertigung und Umfrageauswertung, wo Daten seltene, aber wichtige Extremwerte enthalten können.

Beide Techniken reduzieren den Einfluss von Ausreißern und schaffen so ein Gleichgewicht zwischen Robustheit und Datenerhaltung, indem sie die Sensitivität des Mittelwerts mit der Widerstandsfähigkeit des Medians kombinieren.

Geometrische und harmonische Mittelwerte

Der geometrische Mittelwert multipliziert alle Datenpunkte und zieht die n-te Wurzel (wobei n die Anzahl der Datenpunkte ist). Das ist besonders praktisch bei multiplizierenden Prozessen, wie zum Beispiel Wachstumsraten, Investitionsrenditen und biologischen Messungen. Die Formel für die Berechnung der geometrischen Mittelwerte lautet wie folgt:

Formel für den geometrischen Mittelwert

Zum Beispiel lässt sich das durchschnittliche Wachstum über mehrere Jahre besser mit einem geometrischen Mittelwert als mit einem arithmetischen Mittelwert zusammenfassen.

Der harmonische Mittelwert wirdso berechnet:

harmonische Mittelwertformel

Das ist super, wenn du Durchschnittswerte berechnen willst, wie zum Beispiel Geschwindigkeiten oder Finanzkennzahlen. Wenn man zum Beispiel die Durchschnittsgeschwindigkeit über verschiedene Strecken berechnet, gibt der harmonische Mittelwert den richtigen Gesamtwert.

Gewichtete und Trimean-Maße

Ein gewichteter Mittelwert, gibt den Datenpunkten unterschiedliche Gewichte. Zum Beispiel kann die Endnote eines Schülers aus Prüfungsergebnissen und Kursarbeiten mit unterschiedlichen Gewichtungen bestehen. Diese Maßnahme gleicht Verzerrungen aus und sorgt dafür, dass wichtigere Beobachtungen mehr Einfluss haben.

Die Trimean ist der Mittelwert aus Median und Quartilen:

Trimean-Formel

Es liefert eine stabile und aussagekräftige Schätzung der zentralen Tendenz, indem es die Robustheit des Medians mit Infos zur Datenverteilung kombiniert.

Um deine statistischen Denkfähigkeiten zu verbessern, melde dichfür die folgenden Kurse an

Robustheit bei Maßen der zentralen Tendenz

Robustheit ist wie die Widerstandsfähigkeit eines Maßes für die zentrale Tendenz gegenüber Verzerrungen durch Ausreißer oder nicht normale Verteilungen. In diesem Kapitel schauen wir uns das Konzept genauer an.

Analyse der Bruchstellen

Der Breakdown-Punkt zeigt an, wie viel Verfälschung eine Statistik verkraften kann, bevor sie extrem ungenaue Ergebnisse liefert. Zum Beispiel:

  • Der Mittelwert hat einen Breakdown-Punkt von 0 %, weil ein extremer Ausreißer ihn verzerren kann.
  • Der Median hat einen Bruchpunkt von 50 %, was bedeutet, dass bis zur Hälfte der Daten verzerrt sein können, bevor der Median komplett versagt.
  • Getrimmte Mittelwerte haben Zwischenbruchstellen, weil sie die Robustheit verbessern und gleichzeitig die Dateneffizienz erhalten.

Das Verständnis von Bruchstellen hilft Datenanalysten dabei, die richtigen Statistiken zu wählen, wenn sie mit möglichen Datenverfälschungen zu tun haben.

Abwägung zwischen Robustheit und Empfindlichkeit

Robuste Messgrößen wie der Median opfern ein bisschen statistische Effizienz, was bedeutet, dass sie möglicherweise größere Stichproben erfordern, um die gleiche Genauigkeit wie weniger robuste Messgrößen wie der Mittelwert zu erreichen.

Zum Beispiel ist der Median zwar robust, aber bei Normalverteilungen nicht so gut. Umgekehrt ist der Mittelwert gut für normale Verteilungen, aber nicht so toll bei schief verteilten Daten. Datenanalysten müssen je nach den Eigenschaften der Daten ein Gleichgewicht zwischen Robustheit und Effizienz finden.

In der Praxis ist Robustheit wichtiger als Effizienz, zum Beispiel in der Finanzbranche oder in der biomedizinischen Forschung, wo Datenanomalien häufig vorkommen und die Risiken ziemlich hoch sind.

Weitere Überlegungen

Die Herausforderungen moderner Daten bringen die Zentralwertanalyse über ihre traditionellen Methoden hinaus. Schauen wir uns ein paar fortgeschrittene Themen genauer an.

Schiefe Wechselwirkungen

Die Schiefe beeinflusst die Interpretation von Maßen der zentralen Tendenz ziemlich stark. Wenn man bei einem schief verteilten Datensatz nur den Mittelwert angibt, kann das irreführend sein. Um die Ungleichmäßigkeit der Daten besser zu zeigen, ist es besser, sowohl den Durchschnitt als auch den Median anzugeben. In Einkommensstudien zum Beispiel gibt der Median oft ein klareres Bild von „typischen“ Verdiensten als der Durchschnitt.

Multimodale Verteilungen

Multimodale Verteilungen haben mehrere Spitzen, die jede für sich eine andere Untergruppe darstellen können. Wenn man sich nur auf eine einzige Messung wie den Durchschnitt verlässt, kann man wichtige Erkenntnisse übersehen.

Bei den Prüfungsergebnissen einer Uni könnten zwei Modi zum Beispiel zwei Gruppen von Studierenden zeigen: die, die den Stoff gut verstanden haben, und die, die Probleme hatten. In solchen Fällen helfen die Angabe mehrerer Modi oder clusterspezifischer Mediane dabei, diese Muster aufzudecken.

Kategoriale Datenansätze

Nominale und ordinale Daten machen es oft schwierig, traditionelle numerische Zusammenfassungen zu erstellen. Bei nominalen Daten ist der Modus immer noch das wichtigste Werkzeug. Aber, fortgeschrittene Methoden wie die modale Kategorieentropie checken die Vielfalt und Sicherheit von Daten innerhalb von Kategorien und zeigen, wie konzentriert oder verteilt die Antworten über die Kategorien verteilt sind.

Bei Ordinaldaten helfen Techniken wie kumulative Prozentsätze oder Medianränge dabei, die zentrale Tendenz besser zu verstehen, ohne dass man gleiche Intervalle annehmen muss.

Fazit

Neue Computer-Methoden und Datenwissenschaftstechniken helfen uns immer besser, die zentrale Tendenz zu verstehen. Neue Ansätze ermöglichen selbst bei komplexen, hochdimensionalen Datensätzen differenziertere Analysen. Zukünftige Forschung und Entwicklung im Bereich der zentralen Tendenz könnten sich auf adaptive Maßnahmen konzentrieren, die automatisch Verzerrungen oder Datenverfälschungen ausgleichen und so für noch mehr Robustheit und Interpretierbarkeit sorgen.

Wenn du deine Datenkenntnisse verbessern möchtest und dir gründlichere Grundlagen in Statistik mit Python und R aneignen möchtest, empfehle ich dir unsere Lernpfade, die ich sehr empfehlen kann:


Elena Kosourova's photo
Author
Elena Kosourova
LinkedIn

IBM Certified Data Scientist (2020), zuvor Erdölgeologe/Geomodellierer von Öl- und Gasfeldern weltweit mit über 12 Jahren internationaler Berufserfahrung. Beherrschung von Python, R und SQL. Fachgebiete: Datenbereinigung, Datenmanipulation, Datenvisualisierung, Datenanalyse, Datenmodellierung, Statistik, Storytelling, maschinelles Lernen. Umfassende Erfahrung in der Verwaltung von Data Science Communities und im Schreiben/Reviewen von Artikeln und Tutorials zu Data Science und Karrierethemen.

Themen

Lerne mit DataCamp

Kurs

Statistical Thinking in Python (Part 1)

3 Std.
184.3K
Build the foundation you need to think statistically and to speak the language of your data.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.
Vinod Chugani's photo

Vinod Chugani

14 Min.

Lernprogramm

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Lernprogramm

Wie man in Python auf 2 Dezimalstellen rundet

Lerne, wie du in Python eine Zahl auf zwei Dezimalstellen rundest, um die Genauigkeit zu verbessern, indem du Techniken wie round(), format() und String-Formatierungstechniken verwendest.
Allan Ouko's photo

Allan Ouko

Lernprogramm

Python .append() und .extend() Methoden Tutorial

Lerne, wie du mit den Methoden .append() und .extend() Elemente zu einer Liste hinzufügst.
DataCamp Team's photo

DataCamp Team

Lernprogramm

So kürzt man eine Zeichenfolge in Python: Drei verschiedene Methoden

Lerne die Grundlagen zum Entfernen von führenden und nachfolgenden Zeichen aus einer Zeichenfolge in Python.
Adel Nehme's photo

Adel Nehme

Mehr anzeigenMehr anzeigen