Direkt zum Inhalt
HeimAnleitungenDatenanalyse

Gaußsche Verteilung: Ein umfassender Leitfaden

Entdecke die Bedeutung der Gauß-Verteilung, ihre Beziehung zum zentralen Grenzwertsatz und ihre realen Anwendungen beim maschinellen Lernen und bei Hypothesentests.
Aktualisierte 1. Okt. 2024  · 8 Min. lesen

Nur wenige Konzepte sind in der Statistik und Datenwissenschaft so grundlegend und weit verbreitet wie die Gauß-Verteilung. Dieses mathematische Modell, das auch als Normalverteilung bekannt ist, bildet die Grundlage für zahlreiche statistische Methoden und Datenanalysetechniken.

Dieses umfassende Handbuch erklärt das Konzept der Gaußschen Verteilungen und untersucht ihre Eigenschaften, Anwendungen und Bedeutung für die moderne Datenanalyse. Wir werden untersuchen, warum sie in der Natur so häufig vorkommen und wie sie in verschiedenen Bereichen eingesetzt werden, von der Finanzwelt bis zur Produktion.

Wenn du neu in der Statistik bist oder die Grundlagen auffrischen möchtest, bietet dir unser Kurs Einführung in die Statistik eine hervorragende Grundlage. Wenn du bereit bist, diese Konzepte in bestimmten Programmiersprachen anzuwenden, helfen dir unsere Kurse Statistical Thinking in Python (Teil 1) und Statistics Fundamentals with R dabei, die vielen Möglichkeiten zu verstehen, wie die Gauß-Verteilung in der deskriptiven und inferentiellen Statistik auftritt. 

Was ist eine Gaußsche Verteilung?

Die Gauß-Verteilung, die auch als Normalverteilung bezeichnet wird, ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die sich durch ihre glockenförmige Kurve auszeichnet. Sie wird durch zwei Parameter definiert:

  1. μ (mu): Der Mittelwert oder Erwartungswert der Verteilung
  2. σ (sigma): Die Standardabweichung, die die Streuung der Verteilung misst

Die Wahrscheinlichkeitsdichtefunktion (PDF) einer Gaußschen Verteilung ist gegeben durch:

Wo:

  • x ist die Variable
  • e ist die Eulersche Zahl (ungefähr 2,71828)
  • π (pi) ist die mathematische Konstante pi (ungefähr 3,14159)

Visualisierung der Gauß-Verteilung

Um das Konzept einer Gauß-Verteilung zu veranschaulichen, betrachte die Verteilung des Geburtsgewichts von Vollgeborenen in einer großen Population:

Einige wichtige Beobachtungen aus dieser Grafik sind:

  • Das Geburtsgewicht der meisten Babys gruppiert sich um einen Durchschnittswert (die Spitze der Kurve).
  • Weniger Babys haben ein Geburtsgewicht, das deutlich von diesem Durchschnitt abweicht.
  • Nur sehr wenige Babys haben ein extremes Geburtsgewicht (sehr hoch oder sehr niedrig).

Das zentrale Grenzwertsatztheorem

Die weite Verbreitung von Gauß-Verteilungen in der Natur und in der Statistik lässt sich durch den zentralen Grenzwertsatz (CLT) erklären. Die CLT besagt, dass sich die Verteilung der Stichprobenmittelwerte mit zunehmender Stichprobengröße (z. B. n ≥ 30) einer Normalverteilung annähert, unabhängig von der Verteilung der Grundgesamtheit.

Ein wichtiger Aspekt der CLT ist, dass die Konvergenz zur Normalverteilung relativ schnell erfolgt, wenn der Stichprobenumfang zunimmt. Für die meisten praktischen Zwecke reichen schon mittelgroße Stichproben (z. B. n ≥ 30) aus, damit sich die Stichprobenmittelwerte einer Normalverteilung annähern. Das gilt auch dann, wenn die Bevölkerung selbst verzerrt ist.

Die Gaußsche Standardverteilung

Innerhalb der Klasse der Gauß-Verteilungen gibt es einen Spezialfall, der als Standard-Gauß-Verteilung bekannt ist, die auch als Standard-Normalverteilung bezeichnet wird. Dies ist eine Gaußsche Verteilung, bei der:

  • Der Mittelwert (μ) ist genau 0.
  • Die Standardabweichung (σ) ist genau 1.

Die Wahrscheinlichkeitsdichtefunktion einer Gaußschen Standardverteilung wird durch die folgende Formel beschrieben. 

Beachte, dass die Formel für die Gaußsche Standard-Wahrscheinlichkeitsdichtefunktion aufgrund der spezifischen Werte, die dem Mittelwert und der Standardabweichung zugewiesen werden, einfacher ist als die allgemeine Form. Jetzt wollen wir uns die Gaußsche Standardverteilung ansehen.

Standard-Gauß-VerteilungStandard-Gauß-Verteilung. Bild vom Autor

Die Gaußsche Standardverteilung, die in unserer Visualisierung gezeigt wird, dient als Referenzpunkt in der Statistik. In unserer Grafik kannst du sehen, dass der Standard-Gauß eine standardisierte Version einer Gauß-Verteilung ist. Der Prozess der Standardisierung verschiebt den Mittelwert auf 0 und skaliert die Standardabweichung auf 1, wobei die grundlegenden Eigenschaften der Verteilung erhalten bleiben.

Eigenschaften von Gauß'schen Verteilungen

Schauen wir uns nun einige Eigenschaften der Gaußschen Verteilungen an.

Symmetrie und die Glockenkurve

Das Markenzeichen einer Gauß-Verteilung ist ihre symmetrische Glockenform. Diese Symmetrie bedeutet, dass die Daten mit gleicher Wahrscheinlichkeit über oder unter den Mittelwert fallen, was besonders nützlich ist, um Wahrscheinlichkeiten vorherzusagen und Rückschlüsse auf Daten zu ziehen. Wie die folgende Visualisierung zeigt, behalten alle Gaußverteilungen diese charakteristische Glockenform bei, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung.

Grafik von drei Gaußverteilungen mit unterschiedlichen Mittelwerten (μ) und Standardabweichungen (σ)Gaußverteilungen visualisiert. Bild vom Autor

Ausrichtung von Mittelwert, Median und Modus

Bei einer perfekten Gauß-Verteilung sind der Mittelwert (Durchschnitt), der Median (Mittelwert) und der Modus (häufigster Wert) alle gleich groß. Diese Ausrichtung gibt einen klaren Hinweis auf die zentrale Tendenz der Daten, was für die Zusammenfassung von Datensätzen wertvoll ist. In unserer Visualisierung kannst du sehen, wie die Spitze jeder Kurve diesen zentralen Punkt darstellt.

Standardabweichung und Datenverteilung

Die Standardabweichung einer Gauß-Verteilung sagt uns, wie weit die Daten vom Mittelwert entfernt sind. Sie folgt einem vorhersehbaren Muster:

  • Etwa 68 % der Daten liegen innerhalb einer Standardabweichung vom Mittelwert.
  • Etwa 95% liegen innerhalb von zwei Standardabweichungen.
  • Etwa 99,7 % liegen innerhalb von drei Standardabweichungen.

Diese Regel, bekannt als die 68-95-99,7-Regelgilt für alle Gaußschen Verteilungen, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung.

Praktische Anwendungen der Gaußschen Verteilungen

Gaußsche Verteilungen sind mehr als nur ein theoretisches Konzept - sie haben weitreichende Anwendungen in verschiedenen Bereichen. 

Statistische Inferenz und Hypothesentests

Viele statistische Tests, wie t-Tests und ANOVA, gehen davon aus, dass die Daten normal verteilt sind. Diese Tests helfen den Forschern festzustellen, ob es signifikante Unterschiede zwischen den Gruppen gibt oder ob die beobachteten Effekte wahrscheinlich auf Zufall zurückzuführen sind. Die Normalitätsannahme ermöglicht es den Forschern, p-Werte und Konfidenzintervalle zu berechnen und so einen Rahmen für Schlussfolgerungen aus den Daten und fundierte Entscheidungen zu schaffen. 

Die Normalitätsannahme ist so wichtig, dass Wiederholungsstichprobenverfahren wie das Bootstrapping entwickelt wurden, um aus nicht-normalen Daten normalverteilte Wiederholungsstichprobenverteilungen zu erzeugen, die die Konstruktion von Konfidenzintervallen und andere statistische Analysen erleichtern. Unser Tutorium über Hypothesentests zeigt, wie man diese Tests in verschiedenen Szenarien durchführt, einschließlich Situationen, in denen die Daten normal verteilt sind.

Algorithmen für maschinelles Lernen

Viele Verfahren des maschinellen Lernens beruhen auf der Annahme der Normalität, so dass Gaußverteilungen für ihre Funktionsweise und Interpretation grundlegend sind. Bei der linearen Regression wollen wir zum Beispiel sehen, dass die y-Werte (abhängige Variable) einer Normalverteilung folgen, um Vertrauen in unsere Schätzungen zu haben. Außerdem streben wir an, dass die Residuen (die Differenzen zwischen beobachteten und vorhergesagten Werten) eine Normalverteilung aufweisen. Diese Normalitätsannahmen liegen den statistischen Tests zugrunde, mit denen die Zuverlässigkeit des Modells und die Konfidenzintervalle für seine Vorhersagen bewertet werden.

Außerdem arbeiten Wissenschaftler/innen, die mit maschinellem Lernen arbeiten, aus Gründen der Recheneffizienz lieber mit Daten, die einer Gauß-Verteilung folgen. Eine Gauß-Verteilung kann bei bestimmten Algorithmen indirekt zur Recheneffizienz beitragen, insbesondere bei solchen, die eine Normalverteilung der Daten voraussetzen oder sich darauf verlassen.

  • Effiziente Parameter-Schätzung: Bei einer Gauß-Verteilung sind der Mittelwert und die Varianz hinreichende Statistiken, d. h. sie beschreiben die Verteilung vollständig. Dies reduziert die Notwendigkeit einer komplexen Modellierung höherer Momente und beschleunigt die Parameterschätzung.
  • Algorithmus Konvergenz: Algorithmen wie der Gradientenabstieg, die zur Optimierung beim maschinellen Lernen eingesetzt werden, konvergieren schneller, wenn die Daten normal verteilt sind. 
  • Reduzierte Rechenkomplexität in einigen Algorithmen: Algorithmen wie Gaussian Naive Bayes sind speziell für normalverteilte Daten entwickelt worden und können rechnerisch effizient sein, wenn die Annahme zutrifft. 

Werde ein ML-Wissenschaftler

Bilde dich in Python weiter, um ein/e Wissenschaftler/in für maschinelles Lernen zu werden.

Kostenloses Lernen Beginnen

Was bei Gauß-Verteilungen zu beachten ist

Obwohl Gaußverteilungen unglaublich nützlich sind, ist es wichtig, sich über einige häufige Missverständnisse im Klaren zu sein. 

Nicht alle Daten sind normal verteilt

Viele natürliche und soziale Phänomene folgen anderen Verteilungen. Überprüfe deine Daten immer, bevor du davon ausgehst, dass sie normalverteilt sind. Zum Beispiel sind Einkommensverteilungen oft rechtsschief und folgen eher einer Lognormalverteilung als einer Normalverteilung. Auch die Wartezeiten und der Artenreichtum in der Ökologie folgen oft einer Exponential- oder Potenzgesetz-Verteilung. 

Selbst einige Verteilungen, von denen du erwartest, dass sie normal sind, sind nicht unbedingt normal. Das Alter aller Menschen in einer Nachbarschaft ist zum Beispiel nicht normal verteilt, weil einige Generationen mehr Kinder haben. Abschließend sollten wir sagen, dass manche Verteilungen normal aussehen, es aber nicht sind. Die Pareto-Verteilung hat zum Beispiel einen Potenzgesetz-Schwanz und die Cauchy-Verteilung hat keinen definierten Mittelwert oder Varianz. 

Ausreißer und Extremwerte

In einer Gaußschen Verteilung sind Extremwerte selten, aber nicht unmöglich. Verwirf nicht automatisch ungewöhnliche Datenpunkte - sie könnten wertvolle Informationen enthalten. Die 68-95-99,7-Regel besagt, dass etwa 0,3 % der Daten in einer Normalverteilung mehr als drei Standardabweichungen vom Mittelwert abweichen. Bei einem Datensatz von 1000 Punkten bedeutet dies, dass etwa 3 Punkte sehr extrem sein können, ohne die Normalitätsannahme zu verletzen. 

Die Stichprobengröße ist wichtig

Der zentrale Grenzwertsatz erfordert einen ausreichend großen Stichprobenumfang, um effektiv zu funktionieren. Sei vorsichtig, wenn du Normalverteilungsannahmen auf kleine Datensätze anwendest. Es gibt zwar keinen allgemeingültigen Grenzwert, aber viele Statistiker empfehlen eine Mindeststichprobengröße von 30, damit das zentrale Grenzwertsyndrom einigermaßen gut funktioniert. Dies kann jedoch je nach der zugrunde liegenden Verteilung der Bevölkerung variieren. Bei stark schiefen Verteilungen brauchst du möglicherweise noch größere Stichproben. 

Andere zu berücksichtigende Ausschüttungen

Gaußsche Verteilungen sind zwar weit verbreitet, aber manchmal sind andere Verteilungen besser geeignet. 

Student's t-Distribution

Die Student's t-Verteilung ähnelt der Normalverteilung, hat aber stärkere Schwänze, was bedeutet, dass sie Extremwerten, die weit vom Mittelwert entfernt sind, eine höhere Wahrscheinlichkeit beimisst. Diese Eigenschaft macht sie in den folgenden Szenarien besonders nützlich:

  • Kleine Stichprobengrößen: Bei kleinen Datensätzen (in der Regel weniger als 30 Beobachtungen) wird die Schätzung der Standardabweichung der Grundgesamtheit weniger zuverlässig. Die t-Verteilung trägt dieser erhöhten Unsicherheit Rechnung.
  • Unbekannte Population Standardabweichung: Wenn die Standardabweichung der Grundgesamtheit nicht bekannt ist - was häufig der Fall ist - bietet die t-Verteilung ein genaueres Modell für die Stichprobenverteilung des Stichprobenmittelwerts.
  • Ausreißer und starke Schwänze: Daten, die für Extremwerte oder Ausreißer anfällig sind, profitieren von den schwereren Schwänzen der t-Verteilung, die eine bessere Anpassung als die Normalverteilung bietet.

Mit zunehmender Stichprobengröße konvergiert die t-Verteilung gegen die Normalverteilung. Das liegt am zentralen Grenzwertsatz, der besagt, dass sich die Stichprobenverteilung des Stichprobenmittelwerts unabhängig von der Verteilung der Grundgesamtheit der Normalität annähert, wenn der Stichprobenumfang wächst.

Log-Normal-Verteilung

Die Log-Normal-Verteilung eignet sich für die Modellierung von Daten, die positiv schief sind und keine negativen Werte annehmen können. Sie zeichnet sich durch Folgendes aus:

  • Multiplikative Prozesse: Wenn sich die Daten aus der Multiplikation vieler unabhängiger, positiver Faktoren ergeben (z. B. bei Zinseszinsen), ist die Log-Normal-Verteilung oft geeignet.
  • Schiefe Daten: Variablen wie Einkommen, Aktienkurse und bestimmte biologische Messwerte (z. B. die Länge von Organismen oder Reaktionszeiten) sind in der Regel rechtsschief, sodass die Lognormalverteilung besser passt.
  • Nicht-negative Werte: Da die Exponentialfunktion niemals negative Ergebnisse liefert, sind lognormalverteilte Variablen streng positiv, was gut zu realen Szenarien passt, in denen negative Werte unmöglich oder unsinnig sind.

Mathematisch gesehen ist eine Variable X lognormalverteilt, wenn ln(X) normalverteilt ist. Diese Eigenschaft ermöglicht die Anwendung von Normalverteilungsmethoden auf logarithmisch transformierte Daten, was die Analyse und Interpretation vereinfacht.

Multivariate Gaußsche Verteilung

Die multivariate Gaußverteilung, auch bekannt als multivariate Normalverteilung, ist eine Erweiterung der univariaten Normalverteilung auf höhere Dimensionen. Es zeichnet sich aus durch:

  • Mehrere korrelierte Variablen: Sie beschreibt die gemeinsame Verteilung von zwei oder mehr normalverteilten Zufallsvariablen, die korreliert sein können.
  • Elliptische Konturen: In zwei Dimensionen bilden die Wahrscheinlichkeitsdichtekonturen Ellipsen. In höheren Dimensionen werden diese zu Ellipsoiden.
  • Definiert durch Mittelwertvektor und Kovarianzmatrix: Anstelle eines einzelnen Mittelwerts und einer Varianz werden ein Mittelwertvektor und eine Kovarianzmatrix verwendet, um die Beziehungen zwischen den Variablen zu erfassen.

Die multivariate Gauß-Verteilung wird in Algorithmen des maschinellen Lernens, wie z. B. Gauß-Mischungsmodellen, häufig für Clustering- und Dichte-Schätzungsaufgaben verwendet. Sie wird auch häufig in der Finanzmodellierung eingesetzt, wo sie dabei hilft, das gemeinsame Verhalten mehrerer Vermögenserträge zu verstehen und vorherzusagen.

Fazit

Gaußsche Verteilungen spielen eine zentrale Rolle in der statistischen Analyse und in der Datenwissenschaft. Ihre breite Anwendbarkeit und ihre gut verstandenen Eigenschaften machen sie zu einem unverzichtbaren Instrument in verschiedenen Bereichen, von der Qualitätskontrolle in der Produktion bis zur Risikobewertung im Finanzwesen.

Es ist jedoch wichtig zu wissen, dass die Gauß-Verteilung zwar weit verbreitet ist, aber keine Universallösung darstellt. Um die Genauigkeit und Zuverlässigkeit deiner Analysen zu verbessern, ist es wichtig zu wissen, wann du alternative Verteilungen wie die Student's t-Verteilung oder die Log-Normal-Verteilung verwenden solltest. Indem du deine Verteilungswahl mit den inhärenten Eigenschaften deiner Daten in Einklang bringst, stellst du sicher, dass du validere Schlussfolgerungen ziehen und bessere Entscheidungen treffen kannst.

Für alle, die ihr Verständnis von Wahrscheinlichkeit und ihren Anwendungen in der Datenwissenschaft vertiefen möchten, bietet unser Kurs Grundlagen der Wahrscheinlichkeit in Python einen umfassenden Einblick in diese Konzepte. Wenn du dich mit R besser auskennst, bietet der Kurs Einführung in die Statistik in R eine solide Grundlage für statistische Konzepte mit Hilfe der R-Programmierung.


Photo of Vinod Chugani
Author
Vinod Chugani
LinkedIn

Als erfahrener Experte für Data Science, maschinelles Lernen und generative KI widmet sich Vinod der Weitergabe von Wissen und der Befähigung angehender Data Scientists, in diesem dynamischen Bereich erfolgreich zu sein.

Fragen zur Gaußschen Verteilung

Was ist eine Gaußsche (normale) Verteilung?

Eine Gauß-Verteilung, auch bekannt als Normalverteilung, ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die durch eine symmetrische Glockenkurve gekennzeichnet ist. Sie wird durch zwei Parameter definiert: den Mittelwert (Durchschnitt) und die Standardabweichung (Streuung oder Variabilität). Der Mittelwert bestimmt den Mittelpunkt der Verteilung, während die Standardabweichung die Breite der Kurve bestimmt.

Was ist die Standard-Normalverteilung?

Die Standardnormalverteilung ist ein Spezialfall der Gauß-Verteilung mit einem Mittelwert von Null und einer Standardabweichung von Eins. Sie wird verwendet, um Berechnungen zu vereinfachen und ermöglicht die Verwendung von Standard-Z-Tabellen, um Wahrscheinlichkeiten und kritische Werte zu ermitteln. Jede Normalverteilung kann mithilfe von z-Scores in eine Standardnormalverteilung umgewandelt werden.

Warum nennt man sie "Glockenkurve"?

Die Gaußsche Verteilung wird wegen ihrer charakteristischen Form oft auch als Glockenkurve bezeichnet. Aufgetragen bildet sie eine symmetrische, glockenförmige Kurve, die ihren Höhepunkt im Mittelwert hat. Die Seiten der Kurve verjüngen sich, wenn sich die Werte in beide Richtungen vom Mittelwert entfernen.

Wann sollte die Gaußsche Verteilung nicht verwendet werden?

Er sollte nicht verwendet werden, wenn die Daten stark verzerrt sind, starke Schwänze haben (Kurtosis) oder begrenzt sind (z. B. keine negativen Werte annehmen können, obwohl der Gauß sie zulässt). Bei kleinen Stichprobengrößen, Ausreißern oder wenn der zugrunde liegende Prozess der Datenerzeugung nicht mit den Annahmen der Normalität übereinstimmt, können alternative Verteilungen geeigneter sein. Beurteile immer die Datenmerkmale, bevor du Normalität annimmst.

Was ist der zentrale Grenzwertsatz und wie bezieht er sich auf Gaußsche Verteilungen?

Der zentrale Grenzwertsatz besagt, dass sich die Verteilung der Stichprobenmittelwerte mit zunehmendem Stichprobenumfang einer Normalverteilung annähert. Das gilt unabhängig von der zugrunde liegenden Verteilung der Bevölkerung. Das Theorem erklärt, warum viele Naturphänomene dazu neigen, einer Gauß'schen Verteilung zu folgen, und ermöglicht eine breitere Anwendung von auf der Normalverteilung basierenden Techniken.

Was ist eine multivariate Gaußsche Verteilung?

Eine multivariate Gaußverteilung ist eine Erweiterung der univariaten Normalverteilung auf höhere Dimensionen und beschreibt die gemeinsame Verteilung von zwei oder mehr korrelierten, normalverteilten Zufallsvariablen. Sie ist durch einen Mittelwertvektor und eine Kovarianzmatrix gekennzeichnet und nicht durch einen einzelnen Mittelwert und eine Varianz.

Was ist die Schiefe und Kurtosis einer Gauß-Verteilung?

Eine perfekte Gaußsche Verteilung hat eine Schiefe von Null. Das bedeutet, dass sie vollkommen symmetrisch ist, d. h. die linke und die rechte Seite der Verteilung spiegeln sich um den Mittelwert herum. Die Kurtosis einer Gauß-Verteilung beträgt 3, was oft als Referenzwert verwendet wird. Die exzessive Kurtosis (Kurtosis minus 3) ist 0 für eine Gaußsche Verteilung.

Themen

Lernen mit DataCamp

Zertifizierung verfügbar

Course

Mischungsmodelle in R

4 hr
4.8K
Mixture-Modelle lernen: ein praktischer und formaler statistischer Rahmen für probabilistisches Clustering und Klassifizierung.
See DetailsRight Arrow
Start Course
Zertifizierung verfügbar

Course

Sampling in Python

4 hr
32.4K
Lerne, mit Python und Statistik aus begrenzten Daten Schlussfolgerungen zu ziehen. Dieser Kurs deckt alles ab, von Zufallsstichproben bis hin zu geschichteten und Cluster-Stichproben.
Mehr anzeigenRight Arrow