Kursus
Hanya sedikit konsep yang sama mendasarnya dan seluas penerapannya dalam statistika dan sains data seperti distribusi Gaussian. Juga dikenal sebagai distribusi normal, model matematis ini menjadi dasar bagi tak terhitung metode statistik dan teknik analisis data.
Panduan komprehensif ini membedah konsep distribusi Gaussian, mengeksplorasi sifat, aplikasi, dan signifikansinya dalam analisis data modern. Kita akan menelaah mengapa distribusi ini begitu lazim pada fenomena alam dan bagaimana distribusi ini digunakan di berbagai bidang, dari keuangan hingga manufaktur.
Jika Anda baru memulai statistika atau ingin menyegarkan dasar-dasarnya, kursus Introduction to Statistics kami menyediakan fondasi yang sangat baik. Bagi yang siap menerapkan konsep ini dalam bahasa pemrograman tertentu, kursus Statistical Thinking in Python (Part 1) dan Statistics Fundamentals with R akan membantu Anda memahami banyak cara distribusi Gaussian muncul dalam statistika deskriptif dan inferensial.
Apa itu Distribusi Gaussian?
Distribusi Gaussian, juga dikenal sebagai distribusi normal, adalah distribusi probabilitas kontinu yang ditandai oleh kurva berbentuk lonceng. Distribusi ini didefinisikan oleh dua parameter:
- μ (mu): Rata-rata atau nilai harapan dari distribusi
- σ (sigma): Simpangan baku, yang mengukur sebaran distribusi
Fungsi kerapatan probabilitas (PDF) dari distribusi Gaussian diberikan oleh:

Dengan:
- x adalah variabel
- e adalah bilangan Euler (sekitar 2,71828)
- π (pi) adalah konstanta matematika pi (sekitar 3,14159)
Memvisualisasikan distribusi Gaussian
Untuk menggambarkan konsep distribusi Gaussian, pertimbangkan distribusi berat lahir bayi cukup bulan dalam populasi besar:

Beberapa pengamatan kunci dari grafik ini meliputi:
- Sebagian besar berat lahir bayi mengelompok di sekitar nilai rata-rata (puncak kurva).
- Lebih sedikit bayi yang memiliki berat lahir yang menyimpang jauh dari rata-rata ini.
- Sangat sedikit bayi yang memiliki berat lahir ekstrem (sangat tinggi atau sangat rendah).
Teorema limit pusat
Kejadian luasnya distribusi Gaussian di alam dan statistika dapat dijelaskan oleh teorema limit pusat (CLT). CLT menyatakan bahwa distribusi rata-rata sampel mendekati distribusi normal seiring bertambahnya ukuran sampel (misalnya, n ≥ 30) terlepas dari distribusi populasi dasarnya.
Satu aspek kunci CLT adalah konvergensi menuju distribusi normal ini terjadi relatif cepat seiring bertambahnya ukuran sampel. Untuk sebagian besar kebutuhan praktis, bahkan sampel berukuran sedang (misalnya, n ≥ 30) sudah cukup agar rata-rata sampel mendekati distribusi normal. Hal ini benar meskipun populasi itu sendiri menceng (skewed).
Distribusi Gaussian baku
Di dalam kelas distribusi Gaussian, ada kasus khusus yang dikenal sebagai distribusi Gaussian baku, atau lebih umum sebagai distribusi normal baku. Ini adalah distribusi Gaussian di mana:
- Rata-rata (μ) tepat 0.
- Simpangan baku (σ) tepat 1.
Fungsi kerapatan probabilitas dari distribusi Gaussian baku diberikan oleh rumus berikut.

Perhatikan bahwa rumus fungsi kerapatan probabilitas Gaussian baku menjadi lebih sederhana dari bentuk umum karena nilai khusus yang diberikan pada rata-rata dan simpangan baku. Sekarang, mari kita visualisasikan distribusi Gaussian baku.
Distribusi Gaussian baku. Gambar oleh Penulis
Distribusi Gaussian baku, seperti yang ditampilkan pada visualisasi kita, berfungsi sebagai titik acuan dalam statistika. Pada visual, Anda dapat melihat bagaimana Gaussian baku merupakan versi terstandarkan dari distribusi Gaussian mana pun. Proses standardisasi menggeser rata-rata ke 0 dan menskalakan simpangan baku menjadi 1 sambil mempertahankan sifat-sifat fundamental distribusi.
Sifat-Sifat Distribusi Gaussian
Sekarang mari kita lihat beberapa sifat dari distribusi Gaussian.
Simetri dan kurva lonceng
Ciri khas distribusi Gaussian adalah bentuk loncengnya yang simetris. Simetri ini berarti data memiliki kemungkinan yang sama untuk berada di atas atau di bawah rata-rata, yang sangat berguna untuk memprediksi probabilitas dan membuat inferensi tentang data. Seperti terlihat pada visualisasi berikut, semua distribusi Gaussian mempertahankan bentuk lonceng yang khas ini, terlepas dari rata-rata atau simpangan bakunya.
Distribusi Gaussian divisualisasikan. Gambar oleh Penulis
Keselarasan mean, median, dan modus
Dalam distribusi Gaussian yang sempurna, mean (rata-rata), median (nilai tengah), dan modus (nilai yang paling sering muncul) semuanya sama. Keselarasan ini memberikan indikasi yang jelas tentang tendensi sentral data, yang berguna untuk merangkum kumpulan data. Pada visualisasi kita, Anda dapat melihat bagaimana puncak setiap kurva merepresentasikan titik pusat ini.
Simpangan baku dan sebaran data
Simpangan baku dalam distribusi Gaussian memberi tahu kita seberapa menyebar data dari rata-ratanya. Ini mengikuti pola yang dapat diprediksi:
- Sekitar 68% data berada dalam satu simpangan baku dari rata-rata.
- Sekitar 95% berada dalam dua simpangan baku.
- Sekitar 99,7% berada dalam tiga simpangan baku.
Aturan ini, dikenal sebagai aturan 68-95-99,7, berlaku untuk semua distribusi Gaussian, terlepas dari rata-rata atau simpangan bakunya.
Aplikasi Praktis Distribusi Gaussian
Distribusi Gaussian bukan sekadar konsep teoretis – distribusi ini memiliki aplikasi luas di berbagai bidang.
Inferensi statistik dan pengujian hipotesis
Banyak uji statistik, seperti uji t dan ANOVA, mengasumsikan bahwa data berdistribusi normal. Uji-uji ini membantu peneliti menentukan apakah ada perbedaan signifikan antar kelompok atau apakah efek yang diamati kemungkinan disebabkan oleh kebetulan. Asumsi kenormalan memungkinkan peneliti menghitung p-value dan interval kepercayaan, menyediakan kerangka untuk menarik kesimpulan dari data dan membuat keputusan yang tepat.
Asumsi kenormalan begitu penting sehingga teknik pengambilan sampel ulang seperti bootstrapping dikembangkan untuk menghasilkan distribusi pengambilan sampel yang berdistribusi normal dari data yang tidak normal, sehingga lebih mudah membangun interval kepercayaan dan melakukan analisis statistik lain. Tutorial kami tentang pengujian hipotesis menunjukkan cara melakukan uji tersebut dalam berbagai skenario termasuk situasi ketika data berdistribusi normal.
Algoritme machine learning
Banyak teknik machine learning bergantung pada asumsi kenormalan, sehingga distribusi Gaussian menjadi fundamental bagi operasional dan interpretasinya. Dalam regresi linear, misalnya, kita biasanya ingin melihat nilai y (variabel dependen) mengikuti distribusi normal untuk meningkatkan keyakinan pada estimasi. Selain itu, kita mengharapkan residual (selisih antara nilai teramati dan terprediksi) berdistribusi normal. Asumsi-asumsi kenormalan ini menjadi dasar uji statistik yang digunakan untuk menilai keandalan model dan interval kepercayaan bagi prediksinya.
Selain itu, ilmuwan machine learning mungkin lebih suka bekerja dengan data yang mengikuti distribusi Gaussian karena alasan efisiensi komputasi. Distribusi Gaussian dapat berkontribusi secara tidak langsung terhadap efisiensi komputasi pada algoritme tertentu, terutama yang mengasumsikan atau bergantung pada data yang berdistribusi normal.
- Estimasi Parameter yang Efisien: Dalam distribusi Gaussian, mean dan varians adalah statistik cukup, artinya keduanya sepenuhnya mendeskripsikan distribusi. Ini mengurangi kebutuhan pemodelan momen orde lebih tinggi yang kompleks, sehingga mempercepat estimasi parameter.
- Konvergensi Algoritme: Algoritme seperti gradient descent, yang digunakan untuk optimasi dalam machine learning, dapat lebih cepat konvergen jika data berdistribusi normal.
- Kompleksitas Komputasi yang Berkurang pada Beberapa Algoritme: Algoritme seperti Gaussian naive Bayes dirancang khusus untuk data yang berdistribusi normal dan bisa efisien secara komputasi ketika asumsi tersebut terpenuhi.
Hal-Hal yang Perlu Dipertimbangkan terkait Distribusi Gaussian
Walau distribusi Gaussian sangat berguna, penting untuk menyadari beberapa kesalahpahaman umum.
Tidak semua data berdistribusi normal
Banyak fenomena alam dan sosial mengikuti distribusi lain. Selalu periksa data Anda sebelum berasumsi bahwa data berdistribusi normal. Misalnya, distribusi pendapatan seringkali menceng ke kanan, mengikuti distribusi log-normal alih-alih normal. Demikian pula, waktu tunggu dan kelimpahan spesies dalam ekologi sering mengikuti distribusi eksponensial atau hukum pangkat (power-law).
Bahkan beberapa distribusi yang Anda kira normal belum tentu normal. Misalnya, usia semua orang di suatu lingkungan tidak akan berdistribusi normal karena beberapa generasi memiliki lebih banyak anak, dan alasan lainnya. Terakhir, perlu dikatakan bahwa beberapa distribusi tampak normal tetapi sebenarnya bukan. Distribusi Pareto, misalnya, memiliki ekor hukum pangkat, dan distribusi Cauchy tidak memiliki mean atau varians yang terdefinisi.
Pencilan dan nilai ekstrem
Dalam distribusi Gaussian, nilai ekstrem jarang tetapi bukan tidak mungkin. Jangan langsung membuang titik data yang tidak biasa – bisa jadi titik tersebut mengandung informasi berharga. Aturan 68-95-99,7 memberi tahu kita bahwa sekitar 0,3% data dalam distribusi normal akan berada di luar tiga simpangan baku dari rata-rata. Dalam kumpulan data berisi 1000 titik, ini berarti sekitar 3 titik bisa sangat ekstrem tanpa melanggar asumsi kenormalan.
Ukuran sampel itu penting
Teorema limit pusat memerlukan ukuran sampel yang cukup besar agar bekerja efektif. Berhati-hatilah saat menerapkan asumsi distribusi normal pada kumpulan data kecil. Meskipun tidak ada batas universal, banyak ahli statistik menyarankan ukuran sampel minimum 30 agar teorema limit pusat berlaku cukup baik. Namun, ini dapat bervariasi tergantung distribusi dasar populasi. Untuk distribusi yang sangat menceng, Anda mungkin membutuhkan sampel yang lebih besar lagi.
Distribusi Lain yang Perlu Dipertimbangkan
Walau distribusi Gaussian sangat luas penerapannya, terkadang distribusi lain lebih tepat digunakan.
Distribusi t-Student
Distribusi t-Student mirip dengan distribusi normal tetapi memiliki ekor yang lebih berat, artinya memberikan probabilitas lebih besar pada nilai-nilai ekstrem yang jauh dari rata-rata. Karakteristik ini membuatnya sangat berguna pada skenario berikut:
- Ukuran Sampel Kecil: Saat berurusan dengan kumpulan data kecil (biasanya kurang dari 30 observasi), estimasi simpangan baku populasi menjadi kurang andal. Distribusi t memperhitungkan ketidakpastian yang meningkat ini.
- Simpangan Baku Populasi Tidak Diketahui: Jika simpangan baku populasi tidak diketahui—yang sering terjadi—distribusi t menyediakan model yang lebih akurat untuk distribusi pengambilan sampel dari rata-rata sampel.
- Pencilan dan Ekor Berat: Data yang rentan terhadap nilai ekstrem atau pencilan mendapat manfaat dari ekor distribusi t yang lebih berat, memberikan kecocokan yang lebih baik daripada distribusi normal.
Seiring bertambahnya ukuran sampel, distribusi t akan konvergen ke distribusi normal. Ini karena teorema limit pusat, yang menyatakan bahwa distribusi pengambilan sampel dari rata-rata sampel mendekati kenormalan saat ukuran sampel bertambah, terlepas dari distribusi populasi.
Distribusi log-normal
Distribusi log-normal berlaku untuk memodelkan data yang menceng positif dan tidak dapat bernilai negatif. Ini ditandai oleh hal-hal berikut:
- Proses Multiplikatif: Ketika data merupakan hasil perkalian banyak faktor independen dan positif (misalnya, bunga majemuk), distribusi log-normal sering kali tepat.
- Data Menceng: Variabel seperti pendapatan, harga saham, dan ukuran biologis tertentu (seperti panjang organisme atau waktu reaksi) biasanya menceng ke kanan, sehingga distribusi log-normal lebih cocok.
- Nilai Non-Negatif: Karena fungsi eksponensial tidak pernah menghasilkan nilai negatif, variabel yang berdistribusi log-normal selalu positif, selaras dengan skenario dunia nyata di mana nilai negatif tidak mungkin atau tidak masuk akal.
Secara matematis, sebuah variabel X berdistribusi log-normal jika ln(X) berdistribusi normal. Sifat ini memungkinkan penggunaan teknik distribusi normal pada data yang ditransformasikan secara logaritmik, menyederhanakan analisis dan interpretasi.
Distribusi Gaussian multivariat
Distribusi Gaussian multivariat, juga dikenal sebagai distribusi normal multivariat, adalah perluasan dari distribusi normal univariat ke dimensi yang lebih tinggi. Ini ditandai oleh:
- Banyak Variabel Berkorelasi: Mendeskripsikan distribusi bersama dari dua atau lebih variabel acak yang berdistribusi normal dan mungkin berkorelasi.
- Kontur Elips: Dalam dua dimensi, kontur kerapatan probabilitasnya membentuk elips. Pada dimensi lebih tinggi, menjadi elipsoid.
- Didefinisikan oleh Vektor Mean dan Matriks Kovarians: Alih-alih satu mean dan varians, digunakan vektor mean dan matriks kovarians untuk menangkap hubungan antar variabel.
Distribusi Gaussian multivariat banyak digunakan dalam algoritme machine learning, seperti Gaussian mixture models, untuk tugas klastering dan estimasi kerapatan. Distribusi ini juga sering digunakan dalam pemodelan keuangan, membantu memahami dan memprediksi perilaku bersama dari banyak imbal hasil aset.
Kesimpulan
Distribusi Gaussian memainkan peran penting dalam analisis statistik dan sains data. Daya terapan yang luas dan sifat-sifatnya yang telah dipahami dengan baik menjadikannya alat yang tak tergantikan di berbagai bidang, dari pengendalian mutu dalam manufaktur hingga penilaian risiko di keuangan.
Namun, penting untuk diingat bahwa meskipun distribusi Gaussian banyak digunakan, ini bukan solusi universal. Mengenali kapan harus menggunakan distribusi alternatif, seperti distribusi t-Student atau distribusi log-normal, adalah kunci untuk meningkatkan akurasi dan keandalan analisis Anda. Dengan menyelaraskan pilihan distribusi dengan sifat bawaan data Anda, Anda memastikan inferensi yang lebih valid dan pengambilan keputusan yang lebih baik.
Bagi Anda yang ingin memperdalam pemahaman tentang probabilitas dan penerapannya dalam sains data, kursus Foundations of Probability in Python kami menawarkan pembahasan mendalam tentang konsep-konsep ini. Jika Anda lebih nyaman dengan R, kursus Introduction to Statistics in R menyediakan fondasi yang kuat dalam konsep statistik menggunakan pemrograman R.
Vinod Chugani memulai kariernya di Tokyo sebagai Kepala Meja Penjualan Hedge Fund termuda di JPMorgan dan kemudian mencetak rekor penjualan individu di Lehman Brothers, lalu membangun bisnis distribusi elektronik di 30 negara dengan pendapatan melampaui SG$100 juta sebelum beralih ke data. Lulusan Ekonomi Duke dan alumni NYC Data Science Academy, ia menjadi salah satu dari tiga penerima beasiswa dari lebih dari 100 pelamar untuk kursus Building AI Applications oleh Hugo Bowne-Anderson di Maven. Saat ini, ia menulis untuk DataCamp, KDnuggets, Machine Learning Mastery, dan Statology tentang topik mulai dari statistika hingga AI agensial, dan membimbing para profesional data di NYC Data Science Academy dengan lebih dari 1.000 sesi tatap muka atas namanya.
Pertanyaan seputar Distribusi Gaussian
Apa itu distribusi Gaussian (normal)?
Distribusi Gaussian, juga dikenal sebagai distribusi normal, adalah distribusi probabilitas kontinu yang ditandai oleh kurva berbentuk lonceng yang simetris. Distribusi ini didefinisikan oleh dua parameter: mean (rata-rata) dan simpangan baku (sebaran atau variabilitas). Mean menentukan pusat distribusi, sedangkan simpangan baku mengatur lebar kurva.
Apa itu distribusi normal baku?
Distribusi normal baku adalah kasus khusus dari distribusi Gaussian dengan mean nol dan simpangan baku satu. Ini digunakan untuk menyederhanakan perhitungan dan memungkinkan penggunaan tabel z baku untuk menemukan probabilitas dan nilai kritis. Setiap distribusi normal dapat ditransformasikan menjadi distribusi normal baku menggunakan skor z.
Mengapa disebut "kurva lonceng"?
Distribusi Gaussian sering disebut kurva lonceng karena bentuknya yang khas. Saat digambarkan, distribusi ini membentuk kurva berbentuk lonceng yang simetris dan memuncak pada mean. Sisi-sisi kurva menipis saat nilai bergerak menjauh dari mean ke kedua arah.
Kapan distribusi Gaussian tidak boleh digunakan?
Distribusi ini sebaiknya tidak digunakan ketika data sangat menceng, memiliki ekor berat (kurtosis), atau dibatasi (misalnya, tidak dapat bernilai negatif sementara Gaussian mengizinkannya). Dalam kasus ukuran sampel kecil, adanya pencilan, atau ketika proses pembangkitan data yang mendasari tidak selaras dengan asumsi kenormalan, distribusi alternatif mungkin lebih tepat. Selalu nilai karakteristik data sebelum mengasumsikan kenormalan.
Apa itu teorema limit pusat, dan bagaimana kaitannya dengan distribusi Gaussian?
Teorema limit pusat menyatakan bahwa distribusi rata-rata sampel mendekati distribusi normal seiring bertambahnya ukuran sampel. Hal ini berlaku terlepas dari distribusi dasar populasi. Teorema ini menjelaskan mengapa banyak fenomena alam cenderung mengikuti Distribusi Gaussian dan memungkinkan penerapan teknik berbasis distribusi normal secara lebih luas.
Apa itu distribusi Gaussian multivariat?
Distribusi Gaussian multivariat adalah perluasan dari distribusi normal univariat ke dimensi yang lebih tinggi, yang menggambarkan distribusi bersama dari dua atau lebih variabel acak berdistribusi normal yang dapat berkorelasi. Ini ditandai oleh vektor mean dan matriks kovarians, bukan satu mean dan varians.
Berapa skewness dan kurtosis dari distribusi Gaussian?
Distribusi Gaussian yang sempurna memiliki skewness nol. Artinya, distribusi tersebut benar-benar simetris, dengan sisi kiri dan kanan mencerminkan satu sama lain di sekitar mean. Kurtosis dari distribusi Gaussian adalah 3, yang sering digunakan sebagai titik acuan. Excess kurtosis (kurtosis dikurangi 3) adalah 0 untuk distribusi Gaussian.

