Cursus
Weinig concepten zijn zo fundamenteel en breed toepasbaar in statistiek en data science als de Gaussische verdeling. Ook wel de normale verdeling genoemd, vormt dit wiskundige model de basis van talloze statistische methoden en data-analysetechnieken.
Deze uitgebreide gids ontrafelt het concept van Gaussische verdelingen, met aandacht voor hun eigenschappen, toepassingen en betekenis in moderne data-analyse. We bekijken waarom ze zo vaak voorkomen in natuurlijke verschijnselen en hoe ze worden gebruikt in uiteenlopende domeinen, van financiën tot productie.
Als je nieuw bent in statistiek of de basis wilt opfrissen, biedt onze cursus Introduction to Statistics een uitstekende basis. Voor wie deze concepten wil toepassen in specifieke programmeertalen, helpen onze cursussen Statistical Thinking in Python (Part 1) en Statistics Fundamentals with R je de vele manieren te waarderen waarop de Gaussische verdeling voorkomt in beschrijvende en inferentiële statistiek.
Wat is een Gaussische verdeling?
Een Gaussische verdeling, ook wel normale verdeling, is een continue kansverdeling met een klokvormige curve. Ze wordt bepaald door twee parameters:
- μ (mu): het gemiddelde of de verwachtingswaarde van de verdeling
- σ (sigma): de standaardafwijking, die de spreiding van de verdeling meet
De kansdichtheidsfunctie (PDF) van een Gaussische verdeling is als volgt gegeven:

Waarbij:
- x de variabele is
- e het getal van Euler is (ongeveer 2,71828)
- π (pi) de wiskundige constante pi is (ongeveer 3,14159)
De Gaussische verdeling visualiseren
Om het concept van een Gaussische verdeling te illustreren, kun je denken aan de verdeling van geboortegewichten van voldragen baby’s in een grote populatie:

Enkele belangrijke observaties uit deze grafiek zijn:
- De meeste geboortegewichten clusteren rond een gemiddelde waarde (de top van de curve).
- Minder baby’s hebben geboortegewichten die sterk afwijken van dit gemiddelde.
- Zeer weinig baby’s hebben extreme geboortegewichten (zeer hoog of zeer laag).
De centrale limietstelling
De alomtegenwoordigheid van Gaussische verdelingen in de natuur en de statistiek kan worden verklaard door de centrale limietstelling (CLT). De CLT stelt dat de verdeling van steekproefgemiddelden naar een normale verdeling convergeert naarmate de steekproefgrootte toeneemt (bijv. n ≥ 30), ongeacht de verdeling van de onderliggende populatie.
Een belangrijk aspect van de CLT is dat deze convergentie naar een normale verdeling relatief snel optreedt naarmate de steekproef groter wordt. Voor de meeste praktische doeleinden zijn zelfs middelgrote steekproeven (bijv. n ≥ 30) voldoende om de steekproefgemiddelden een normale verdeling te laten benaderen. Dit geldt zelfs als de populatie zelf scheef verdeeld is.
De standaard Gaussische verdeling
Binnen de klasse van Gaussische verdelingen is er een speciaal geval, bekend als de standaard Gaussische verdeling, ook wel de standaardnormale verdeling. Dit is een Gaussische verdeling waarbij:
- Het gemiddelde (μ) precies 0 is.
- De standaardafwijking (σ) precies 1 is.
De kansdichtheidsfunctie van een standaard Gaussische verdeling wordt gegeven door de volgende formule.

Merk op dat de formule voor de standaard Gaussische kansdichtheid vereenvoudigt ten opzichte van de algemene vorm vanwege de specifieke waarden van het gemiddelde en de standaardafwijking. Laten we nu de standaard Gaussische verdeling visualiseren.
Standaard Gaussische verdeling. Afbeelding door de auteur
De standaard Gaussische verdeling, getoond in onze visualisatie, dient als referentiepunt in de statistiek. In onze visual zie je hoe de standaard Gaussische een gestandaardiseerde versie is van elke Gaussische verdeling. Het standaardiseringsproces verschuift het gemiddelde naar 0 en schaalt de standaardafwijking naar 1, terwijl de fundamentele eigenschappen van de verdeling behouden blijven.
Eigenschappen van Gaussische verdelingen
Laten we nu enkele eigenschappen van Gaussische verdelingen bekijken.
Symmetrie en de klokcurve
Het kenmerk van een Gaussische verdeling is de symmetrische klokvorm. Deze symmetrie betekent dat data even waarschijnlijk boven als onder het gemiddelde vallen, wat bijzonder nuttig is bij het voorspellen van kansen en het trekken van conclusies over data. Zoals in de volgende visualisatie te zien is, behouden alle Gaussische verdelingen deze karakteristieke klokvorm, ongeacht hun gemiddelde of standaardafwijking.
Gaussische verdelingen gevisualiseerd. Afbeelding door de auteur
Uitlijning van gemiddelde, mediaan en modus
In een perfecte Gaussische verdeling vallen het gemiddelde (gemiddelde), de mediaan (middenwaarde) en de modus (meest frequente waarde) samen. Deze uitlijning geeft een duidelijk beeld van de centrale tendens van de data, wat waardevol is voor het samenvatten van datasets. In onze visualisatie zie je hoe de top van elke curve dit centrale punt weergeeft.
Standaardafwijking en dataverspreiding
De standaardafwijking in een Gaussische verdeling vertelt ons hoe ver de data van het gemiddelde afliggen. Er is een voorspelbaar patroon:
- Ongeveer 68% van de data valt binnen één standaardafwijking van het gemiddelde.
- Ongeveer 95% valt binnen twee standaardafwijkingen.
- Ongeveer 99,7% valt binnen drie standaardafwijkingen.
Deze regel, bekend als de 68-95-99,7-regel, geldt voor alle Gaussische verdelingen, ongeacht hun gemiddelde of standaardafwijking.
Praktische toepassingen van Gaussische verdelingen
Gaussische verdelingen zijn meer dan een theoretisch concept – ze hebben een breed scala aan toepassingen in verschillende vakgebieden.
Statistische inferentie en hypothesetoetsing
Veel statistische toetsen, zoals t-toetsen en ANOVA, veronderstellen dat data normaal verdeeld zijn. Deze toetsen helpen onderzoekers te bepalen of er significante verschillen tussen groepen zijn of dat waargenomen effecten waarschijnlijk aan toeval te wijten zijn. De aanname van normaliteit stelt onderzoekers in staat p-waarden en betrouwbaarheidsintervallen te berekenen, wat een kader biedt om conclusies uit data te trekken en geïnformeerde beslissingen te nemen.
De aanname van normaliteit is zo belangrijk dat hersteekproeftechnieken zoals bootstrapping zijn ontwikkeld om normaal verdeelde hersteekproefverdelingen te genereren uit niet-normale data, wat het eenvoudiger maakt om betrouwbaarheidsintervallen te construeren en andere statistische analyses uit te voeren. Onze tutorial over hypothesetoetsing laat zien hoe je deze toetsen uitvoert in diverse scenario’s, inclusief situaties waarin data normaal verdeeld zijn.
Machine-learningalgoritmen
Veel machine-learningtechnieken steunen op aannames van normaliteit, waardoor Gaussische verdelingen fundamenteel zijn voor hun werking en interpretatie. In lineaire regressie willen we bijvoorbeeld doorgaans dat de y-waarden (afhankelijke variabele) een normale verdeling volgen om vertrouwen te hebben in onze schattingen. Daarnaast streven we ernaar dat de residuen (de verschillen tussen geobserveerde en voorspelde waarden) normaal verdeeld zijn. Deze normaliteitsaannames liggen ten grondslag aan de statistische toetsen die worden gebruikt om de betrouwbaarheid van het model te beoordelen en de betrouwbaarheidsintervallen voor de voorspellingen.
Ook kunnen machine-learningspecialisten de voorkeur geven aan data die een Gaussische verdeling volgen om redenen van rekenefficiëntie. Een Gaussische verdeling kan indirect bijdragen aan rekenefficiëntie in bepaalde algoritmen, vooral die welke uitgaan van of berusten op normaal verdeelde data.
- Efficiënte parameterschatting: In een Gaussische verdeling zijn het gemiddelde en de variantie voldoende statistieken, wat betekent dat ze de verdeling volledig beschrijven. Dit vermindert de noodzaak om hogere momenten complex te modelleren en versnelt de parameterschatting.
- Convergentie van algoritmen: Algoritmen zoals gradient descent, gebruikt voor optimalisatie in machine learning, convergeren sneller als de data normaal verdeeld zijn.
- Lagere rekencomplexiteit in sommige algoritmen: Algoritmen zoals Gaussiaanse naive Bayes zijn speciaal ontworpen voor normaal verdeelde data en kunnen rekenefficiënt zijn wanneer de aanname klopt.
Dingen om rekening mee te houden bij Gaussische verdelingen
Hoewel Gaussische verdelingen enorm nuttig zijn, is het belangrijk om je bewust te zijn van enkele veelvoorkomende misvattingen.
Niet alle data zijn normaal verdeeld
Veel natuurlijke en sociale fenomenen volgen andere verdelingen. Controleer je data altijd voordat je aanneemt dat ze normaal verdeeld zijn. Inkomensverdelingen zijn bijvoorbeeld vaak rechts-scheef en volgen eerder een lognormale verdeling dan een normale. Evenzo volgen wachttijden en soortenrijkdom in de ecologie vaak exponentiële of machtswetverdelingen.
Zelfs sommige verdelingen waarvan je normaliteit verwacht, zijn niet per se normaal. De leeftijden van iedereen in een wijk zijn bijvoorbeeld niet normaal verdeeld, onder meer omdat sommige generaties meer kinderen hebben. Ten slotte zijn er verdelingen die er normaal uitzien maar dat niet zijn. De Paretoverdeling heeft bijvoorbeeld een machtswetstaart en de Cauchy-verdeling heeft geen gedefinieerd gemiddelde of variantie.
Uitschieters en extreme waarden
In een Gaussische verdeling zijn extreme waarden zeldzaam maar niet onmogelijk. Gooi ongebruikelijke datapunten niet automatisch weg – ze kunnen waardevolle informatie bevatten. De 68-95-99,7-regel vertelt ons dat ongeveer 0,3% van de data in een normale verdeling verder dan drie standaardafwijkingen van het gemiddelde zal liggen. In een dataset van 1000 punten betekent dit dat ongeveer 3 punten zeer extreem kunnen zijn zonder de normaliteitsaannames te schenden.
Steekproefgrootte is belangrijk
De centrale limietstelling vereist een voldoende grote steekproef om effectief te werken. Wees voorzichtig met het toepassen van aannames van de normale verdeling op kleine datasets. Hoewel er geen universele grens is, suggereren veel statistici een minimale steekproefgrootte van 30 zodat de centrale limietstelling redelijk goed geldt. Dit kan echter variëren afhankelijk van de onderliggende verdeling van de populatie. Voor sterk scheve verdelingen heb je mogelijk nog grotere steekproeven nodig.
Andere verdelingen om te overwegen
Hoewel Gaussische verdelingen veel toepasbaar zijn, zijn soms andere verdelingen geschikter.
Student-t-verdeling
De Student-t-verdeling lijkt op de normale verdeling maar heeft zwaardere staarten, wat betekent dat er meer kansmassa ligt op extreme waarden ver van het gemiddelde. Dit kenmerk maakt haar bijzonder nuttig in de volgende situaties:
- Kleine steekproeven: Bij kleine datasets (meestal minder dan 30 observaties) wordt de schatting van de populatiestandaardafwijking minder betrouwbaar. De t-verdeling houdt rekening met deze grotere onzekerheid.
- Onbekende populatiestandaardafwijking: Als de populatiestandaardafwijking onbekend is — wat vaak het geval is — biedt de t-verdeling een nauwkeuriger model voor de steekproefgemiddeldeverdeling.
- Uitschieters en zware staarten: Data die gevoelig zijn voor extreme waarden of uitschieters profiteren van de zwaardere staarten van de t-verdeling, wat een betere fit geeft dan de normale verdeling.
Naarmate de steekproefgrootte toeneemt, convergeert de t-verdeling naar de normale verdeling. Dit komt door de centrale limietstelling, die stelt dat de verdeling van het steekproefgemiddelde naar normaliteit neigt naarmate de steekproef groter wordt, ongeacht de populatieverdeling.
Lognormale verdeling
De lognormale verdeling is geschikt voor het modelleren van data die positief scheef zijn en geen negatieve waarden kunnen aannemen. Ze wordt gekenmerkt door het volgende:
- Multiplicatieve processen: Wanneer data voortkomen uit de vermenigvuldiging van vele onafhankelijke, positieve factoren (bijv. samengestelde rente), is de lognormale verdeling vaak passend.
- Scheve data: Variabelen zoals inkomen, aandelenkoersen en bepaalde biologische metingen (zoals de lengte van organismen of reactietijden) zijn typisch rechts-scheef, waardoor de lognormale verdeling beter past.
- Niet-negatieve waarden: Omdat de exponentiële functie nooit negatieve resultaten oplevert, zijn lognormaal verdeelde variabelen strikt positief, wat goed aansluit bij situaties waarin negatieve waarden onmogelijk of onzinnig zijn.
Wiskundig geldt dat een variabele X lognormaal verdeeld is als ln(X) normaal verdeeld is. Deze eigenschap maakt het mogelijk technieken voor de normale verdeling toe te passen op logaritmisch getransformeerde data, wat analyse en interpretatie vereenvoudigt.
Multivariate Gaussische verdeling
De multivariate Gaussische verdeling, ook wel multivariate normale verdeling, is een uitbreiding van de univariate normale verdeling naar hogere dimensies. Ze wordt gekenmerkt door:
- Meerdere gecorreleerde variabelen: Ze beschrijft de gezamenlijke verdeling van twee of meer normaal verdeelde, mogelijk gecorreleerde willekeurige variabelen.
- Elliptische contouren: In twee dimensies vormen de kansdichtheidscontouren ellipsen. In hogere dimensies worden dit ellipsoïden.
- Bepaald door middelvector en covariantiematrix: In plaats van één gemiddeld en één variantie worden een middelvector en een covariantiematrix gebruikt om de relaties tussen variabelen vast te leggen.
De multivariate Gaussische verdeling wordt veel gebruikt in machine-learningalgoritmen, zoals Gaussiaanse mengmodellen, voor clustering- en dichtheidsschattingstaken. Ze wordt ook vaak toegepast in financiële modellering, waar ze helpt bij het begrijpen en voorspellen van het gezamenlijke gedrag van meerdere rendementen op activa.
Conclusie
Gaussische verdelingen spelen een cruciale rol in statistische analyse en data science. Hun brede toepasbaarheid en goed begrepen eigenschappen maken ze onmisbaar in uiteenlopende vakgebieden, van kwaliteitscontrole in de productie tot risicobeoordeling in de financiële sector.
Het is echter belangrijk te onthouden dat, hoewel de Gaussische verdeling veel wordt gebruikt, het geen universele oplossing is. Herkennen wanneer je alternatieve verdelingen, zoals de Student-t-verdeling of de lognormale verdeling, moet inzetten, is essentieel om de nauwkeurigheid en betrouwbaarheid van je analyses te vergroten. Door je keuze van verdeling af te stemmen op de inherente eigenschappen van je data, zorg je voor valide conclusies en betere besluitvorming.
Voor wie zijn begrip van kansrekening en de toepassingen in data science wil verdiepen, biedt onze cursus Foundations of Probability in Python een grondige verkenning van deze concepten. Ben je meer thuis in R, dan biedt de cursus Introduction to Statistics in R een stevige basis in statistische concepten met R-programmering.
Vinod Chugani begon zijn carrière in Tokio als JPMorgans jongste Head van de Hedge Fund Sales Desk en vestigde later een individueel verkooprecord bij Lehman Brothers, bouwde daarna een elektronicadistributiebedrijf in 30 landen uit tot voorbij SG$100 miljoen omzet en maakte vervolgens de overstap naar data. Als afgestudeerde Economie aan Duke en alumnus van de NYC Data Science Academy was hij een van de drie beursontvangers uit meer dan 100 aanmeldingen voor Hugo Bowne-Andersons Building AI Applications-cursus op Maven. Tegenwoordig schrijft hij voor DataCamp, KDnuggets, Machine Learning Mastery en Statology over onderwerpen van statistiek tot agentische AI, en coacht hij dataprofessionals bij de NYC Data Science Academy met meer dan 1.000 één-op-één-sessies op zijn naam.
Vragen over de Gaussische verdeling
Wat is een Gaussische (normale) verdeling?
Een Gaussische verdeling, ook wel normale verdeling genoemd, is een continue kansverdeling met een symmetrische klokvormige curve. Ze wordt gedefinieerd door twee parameters: het gemiddelde (gemiddelde) en de standaardafwijking (spreiding of variabiliteit). Het gemiddelde bepaalt het midden van de verdeling, terwijl de standaardafwijking de breedte van de curve bepaalt.
Wat is de standaardnormale verdeling?
De standaardnormale verdeling is een speciaal geval van de Gaussische verdeling met een gemiddelde van nul en een standaardafwijking van één. Ze wordt gebruikt om berekeningen te vereenvoudigen en maakt het mogelijk om standaard z-tabellen te gebruiken om kansen en kritieke waarden te vinden. Elke normale verdeling kan met z-scores worden getransformeerd naar een standaardnormale verdeling.
Waarom wordt het een "klokcurve" genoemd?
De Gaussische verdeling wordt vaak een klokcurve genoemd vanwege de karakteristieke vorm. Bij het plotten ontstaat een symmetrische, klokvormige curve met een piek bij het gemiddelde. De zijkanten van de curve lopen af naarmate waarden in beide richtingen verder van het gemiddelde afwijken.
Wanneer moet de Gaussische verdeling niet worden gebruikt?
Ze moet niet worden gebruikt wanneer de data sterk scheef verdeeld zijn, zware staarten (kurtosis) hebben of begrensd zijn (bijv. geen negatieve waarden kunnen aannemen terwijl de Gaussische dat wel toelaat). In gevallen met kleine steekproeven, uitschieters of wanneer het onderliggende gegevensgenererende proces niet strookt met de aannames van normaliteit, kunnen alternatieve verdelingen geschikter zijn. Beoordeel altijd de datakenmerken voordat je normaliteit aanneemt.
Wat is de centrale limietstelling en hoe hangt die samen met Gaussische verdelingen?
De centrale limietstelling stelt dat de verdeling van steekproefgemiddelden een normale verdeling benadert naarmate de steekproefgrootte toeneemt. Dit geldt ongeacht de onderliggende verdeling van de populatie. De stelling verklaart waarom veel natuurlijke fenomenen de Gaussische verdeling volgen en maakt een bredere toepassing van technieken op basis van de normale verdeling mogelijk.
Wat is een multivariate Gaussische verdeling?
Een multivariate Gaussische verdeling is een uitbreiding van de univariate normale verdeling naar hogere dimensies en beschrijft de gezamenlijke verdeling van twee of meer gecorreleerde, normaal verdeelde willekeurige variabelen. Ze wordt gekarakteriseerd door een middelvector en een covariantiematrix, in plaats van één gemiddeld en variantie.
Wat zijn de scheefheid en kurtosis van een Gaussische verdeling?
Een perfect Gaussische verdeling heeft een scheefheid (skewness) van nul. Dit betekent dat ze perfect symmetrisch is, waarbij de linker- en rechterkant van de verdeling elkaars spiegelbeeld zijn rond het gemiddelde. De kurtosis van een Gaussische verdeling is 3, wat vaak als referentiepunt wordt gebruikt. De exceskurtosis (kurtosis min 3) is 0 voor een Gaussische verdeling.

