Kursus
Dalam analitik data, kita selalu berusaha memahami bagaimana variabel saling berkaitan. Anda mungkin pernah menemui dua ukuran statistik yang umum digunakan untuk tujuan ini: kovarians dan korelasi. Kedua ukuran ini terdengar mirip dan sering tertukar. Lalu apa perbedaan di antara keduanya, dan bagaimana seharusnya digunakan?
Keduanya menggambarkan bagaimana variabel bergerak bersama. Namun, meskipun serupa, kovarians dan korelasi menjawab pertanyaan yang sedikit berbeda dan karenanya berperan berbeda dalam alur kerja data. Kovarians menangkap variabilitas gabungan mentah antar fitur, sedangkan korelasi menstandarkan hubungan tersebut agar lebih mudah dibandingkan.
Mari kita telusuri bagaimana perbedaan halus ini memengaruhi ukuran mana yang kita gunakan dalam berbagai kondisi.
Apa itu Kovarians?
Kovarians mengukur bagaimana dua variabel bergerak bersama. Ini memberi tahu kita apakah kenaikan pada satu variabel cenderung berbarengan dengan kenaikan atau penurunan pada variabel lain. Ada tiga jenis kovarians:
- Kovarians positif: Ketika satu variabel meningkat saat variabel lainnya meningkat.
- Kovarians negatif: Ketika satu variabel meningkat sementara variabel lainnya menurun.
- Kovarians mendekati nol: Ketika tidak ada hubungan arah yang konsisten.


Hal ini membuat kovarians berguna untuk mendeteksi bagaimana variabel bergerak satu sama lain.
Namun, meskipun arah hubungan berguna, menafsirkan besaran kovarians tidaklah sederhana. Besaran tersebut bergantung pada satuan pengukuran serta skala variabel. Mengonversi satuan, misalnya dari sentimeter ke meter, dapat secara drastis mengubah besaran kovarians tanpa memengaruhi hubungan dasarnya.
Karena alasan ini, kovarians lebih sering digunakan sebagai blok bangunan komputasi internal daripada sebagai statistik ringkasan yang berdiri sendiri.
Apa itu Korelasi?
Korelasi mengukur kekuatan sekaligus arah hubungan antara dua variabel. Ini dibangun di atas kovarians dengan menstandarkan besaran sehingga satuan tidak lagi memengaruhinya.
Nilai korelasi berada dalam rentang tetap antara +1 (hubungan positif sempurna) dan -1 (hubungan negatif sempurna). Nilai korelasi 0 memberi tahu kita bahwa tidak ada hubungan linear.


Skala yang terstandardisasi ini membuat korelasi lebih mudah ditafsirkan daripada kovarians. Jika kita melihat nilai 0,8, kita dapat segera mengetahui bahwa ada hubungan yang kuat antara variabel, terlepas dari satuan yang digunakan dalam pengukuran awal.
Standardisasi ini juga memungkinkan perbandingan yang bermakna di seluruh dataset, fitur, dan domain. Inilah mengapa korelasi sangat umum digunakan dalam analisis data eksploratori dan penelaahan fitur.
Kovarians vs. Korelasi: Perbedaan Utama
Kovarians dan korelasi menggambarkan sifat yang saling terkait dari hubungan variabel, tetapi keduanya memiliki tujuan analitis yang berbeda.
Secara praktis, kovarians mencerminkan ko-variabilitas mentah, sedangkan korelasi mencerminkan hubungan yang sama dalam bentuk terstandardisasi. Memahami perbedaan ini membantu menentukan ukuran mana yang lebih cocok untuk tugas analitis tertentu.
|
Kovarians |
Korelasi |
|
|
Mengukur |
Hubungan linear (tidak terstandardisasi) |
Hubungan linear (terstandardisasi) |
|
Sensitivitas skala |
Skala ditentukan oleh satuan |
Rentang tetap (−1 hingga +1) |
|
Satuan |
Memiliki satuan |
Tanpa satuan |
|
Keterbacaan |
Besaran sulit ditafsirkan |
Arah dan besaran mudah ditafsirkan |
|
Komparabilitas |
Komparabilitas terbatas antar dataset |
Langsung dapat dibandingkan antar dataset |
|
Penggunaan umum |
Pemodelan dan konstruksi matriks |
Eksplorasi dan komunikasi |
|
Keunggulan |
Mempertahankan skala asli |
Menstandarkan untuk perbandingan |
Contoh Kovarians vs. Korelasi
Misalkan kita mengumpulkan data pada dua variabel: tinggi dan berat. Kita memperkirakan keduanya saling berkaitan, karena secara umum orang yang lebih tinggi cenderung lebih berat. Ketika kita memplot tinggi dalam sentimeter terhadap berat dalam kilogram, kita melihat tren naik yang jelas. Saat tinggi meningkat, berat cenderung meningkat juga.
Saat kita menghitung kovarians, kita memperoleh nilai positif: 48,08. Fakta bahwa nilainya positif memberi tahu kita bahwa kedua variabel bergerak ke arah yang sama. Ketika tinggi di atas rata-rata, berat biasanya juga di atas rata-rata.
Sekarang bagian menariknya. Mari kita ambil data yang sama persis dan ubah satuannya. Kita akan mengonversi tinggi dari sentimeter ke meter, dan berat dari kilogram ke pon. Orang-orangnya tidak berubah. Hubungannya tidak berubah. Pola pada plot sebar terlihat sama. Tetapi ketika kita menghitung ulang kovarians, angkanya berbeda: 1,06. Masih positif, tetapi besarannya sangat berbeda. Dan satu-satunya hal yang kita ubah adalah satuannya.


Ini menunjukkan sifat penting dari kovarians: ia menangkap arah, tetapi besarannya bergantung pada skala. Jika kita meregangkan atau menyusutkan salah satu variabel dengan mengubah satuan, kovarians ikut meregang atau menyusut.
Sekarang, mari kita lihat korelasi menggunakan data yang sama sebelum dan sesudah konversi satuan. Korelasi menggunakan sentimeter dan kilogram adalah 0,76. Setelah dikonversi ke meter dan pon, nilainya tetap 0,76.
Berbeda dengan kovarians, korelasi menyesuaikan variabilitas pada setiap variabel sebelum mengukur hubungan di antara keduanya. Karena penyesuaian itu, nilainya tidak berubah saat kita mengganti satuan. Ia hanya berfokus pada seberapa rapat titik-titik mengikuti pola linear dan apakah pola tersebut menanjak atau menurun.
Contoh sederhana ini menyoroti perbedaan utama antara metrik ini: kovarians mencerminkan arah dan skala, sedangkan korelasi mencerminkan kekuatan hubungan yang independen dari skala. Dalam praktiknya, ini berarti korelasi lebih andal untuk membandingkan hubungan antar variabel yang diukur pada skala berbeda, sementara kovarians lebih relevan dalam konteks di mana besaran variabilitas penting, seperti pemodelan.
Kovarians Sulit Ditafsirkan
Seperti yang telah kita bahas, kovarians memberi tahu kita apakah dua variabel bergerak ke arah yang sama, tetapi besarannya sulit ditafsirkan.
Masalah utamanya adalah kovarians bergantung pada skala variabel, bukan hanya pada hubungannya. Jika nilai salah satu atau kedua variabel lebih besar atau lebih tersebar, kovarians juga cenderung lebih besar.
Sensitivitas ini berasal dari dua sumber. Pertama adalah satuan data. Mengubah satuan mengubah kovarians. Mengukur pendapatan dalam dolar versus ribuan dolar menghasilkan nilai kovarians yang sangat berbeda, meskipun hubungannya identik.
Sumber kedua adalah banyaknya variabilitas pada variabel. Bahkan ketika satuan tetap sama, sebuah dataset dengan rentang lebih lebar atau sebaran lebih besar biasanya menghasilkan kovarians yang lebih besar dibanding dataset yang lebih rapat dengan hubungan dasar yang sama. Kovarians yang besar tidak serta-merta menunjukkan hubungan yang kuat. Ini mungkin hanya mencerminkan skala yang lebih besar atau variabilitas yang lebih tinggi dalam data.
Karena sensitivitas terhadap skala ini, kovarians sering digunakan secara internal, misalnya untuk fitting model, alih-alih dilaporkan secara langsung.
Mengapa Korelasi Lebih Sering Digunakan
Korelasi mengatasi banyak tantangan keterbacaan kovarians dengan menstandarkan hubungan antar variabel. Karena nilai korelasi selalu antara −1 dan +1, besarannya langsung bermakna: nilai yang mendekati 1 atau −1 menunjukkan hubungan linear yang kuat, sedangkan nilai yang mendekati 0 menunjukkan hubungan linear yang lemah atau tidak ada. Standardisasi ini juga memungkinkan perbandingan langsung di berbagai variabel atau dataset, sehingga korelasi lebih mudah dikomunikasikan dan ditafsirkan.
Sifat-sifat ini membuat korelasi sangat berguna untuk analisis data eksploratori, menelaah hubungan antar fitur, mendeteksi redundansi atau multikolinearitas, dan melaporkan temuan. Matriks korelasi dan heatmap juga berguna sebagai alat tinjauan awal saat memeriksa dataset.
Namun demikian, korelasi bukan pengganti sempurna untuk kovarians. Karena korelasi menghilangkan pengaruh skala, ia hanya mencerminkan kekuatan hubungan, bukan variabilitas mentah. Dalam konteks pemodelan, seperti analisis komponen utama atau model statistik multivariat, skala asli yang ditangkap oleh kovarians bisa penting untuk memahami struktur varians dan membimbing perilaku algoritma.
Perspektif Aljabar Linear
Sejauh ini, kita melihat kovarians antar variabel sepasang demi sepasang. Aljabar linear menunjukkan cara memperluas gagasan itu ke seluruh dataset sekaligus. Kita dapat melakukannya dengan menyusun data ke dalam sebuah matriks.
Dalam matriks data dasar, setiap baris mewakili sebuah observasi, dan setiap kolom mewakili sebuah variabel. Untuk memahami hubungan antar variabel, kita dapat terlebih dahulu melakukan pemosisian ulang (centering) data dengan mengurangkan nilai rataan kolom dari setiap nilai. Langkah ini memastikan bahwa kita berfokus pada deviasi dari nilai tipikal alih-alih nilai absolut.
Mengalikan matriks data yang sudah dicenter dengan transposenya menghasilkan struktur yang menangkap bagaimana variabel bergerak bersama. Hasil perkalian ini, setelah diskalakan, adalah matriks kovarians. Dari perspektif aljabar linear, matriks kovarians merangkum bagaimana variabilitas terdistribusi di seluruh dimensi dataset.
Memikirkan kovarians dengan cara ini membantu menjelaskan mengapa ia begitu sering muncul dalam ilmu data. Banyak algoritma, termasuk principal component analysis (PCA) dan teknik reduksi dimensi lainnya, bergantung pada representasi matriks ini untuk memahami pola dan struktur dalam data. Secara konseptual, matriks kovarians menyediakan peta tentang bagaimana berbagai dimensi dalam dataset saling berinteraksi.

Di sini kita dapat melihat data untuk empat variabel yang disusun dalam sebuah matriks data. Matriks tersebut kemudian dicenter dan digunakan untuk membuat matriks kovarians.
Jika Anda ingin pendalaman aljabar linear untuk ilmu data, lihat Linear Algebra for Data Science in R course, yang membahas fondasi yang Anda perlukan untuk memahami pendekatan berbasis matriks seperti kovarians.
Matriks kovarians dan korelasi
Matriks kovarians merangkum bagaimana variabel bergerak bersama di seluruh dataset. Dalam praktik, kita sering menelaah hubungan ini menggunakan matriks kovarians atau korelasi, bergantung pada apakah kita ingin mempertahankan skala asli atau menstandarkan hasil.
Matriks kovarians memuat kovarians antara semua pasangan variabel. Angka pada diagonal menunjukkan varians dalam setiap variabel, sementara angka di luar diagonal mencerminkan bagaimana variabel berubah bersama. Karena kovarians mempertahankan skala dan satuan asli data, matriks ini menangkap struktur variabilitas mentah. Ini membuat matriks kovarians sangat berguna dalam alur kerja pemodelan dan analisis multivariat.
Matriks korelasi, sebaliknya, menstandarkan hubungan-hubungan ini. Setiap entri diagonal bernilai 1, karena setiap variabel berkorelasi sempurna dengan dirinya sendiri. Semua nilai di luar diagonal berada antara −1 dan +1, menunjukkan korelasi antar variabel. Dengan menghilangkan efek skala, matriks korelasi lebih mudah ditafsirkan oleh manusia dan memungkinkan perbandingan langsung antar variabel. Matriks ini sangat berguna dalam analisis data eksploratori dan untuk cepat mengidentifikasi hubungan linear yang kuat atau lemah antar fitur.

Pada matriks-matriks ini, kita membandingkan empat variabel satu sama lain. Saya suka menambahkan overlay heatmap saat menyajikan matriks-matriks ini. Warna setiap sel membantu kita melihat sekilas besaran relatif nilai kovarians atau korelasi.
Cara Mengonversi Kovarians ke Korelasi
Secara konseptual, korelasi diturunkan dari kovarians dengan menstandarkan hubungan antar variabel. Anda cukup membagi kovarians dengan simpangan baku masing-masing variabel. Skala ini menghilangkan satuan dan besaran variabel, menghasilkan ukuran terstandardisasi yang selalu berada antara −1 dan +1. Transformasi ini menjelaskan mengapa nilai korelasi dapat langsung dibandingkan di berbagai variabel atau dataset.
Dalam praktiknya, konversi kovarians ke korelasi dilakukan otomatis di sebagian besar perangkat lunak statistik, sehingga analis jarang perlu menghitungnya secara manual. Namun, selalu penting untuk memahami apa yang dilakukan perangkat lunak Anda di balik layar. Misalnya, memahami bagaimana kovarians dikonversi menjadi korelasi menjelaskan mengapa Anda tidak dapat mengonversi ke arah sebaliknya secara langsung (setidaknya tidak tanpa informasi simpangan baku keduanya). Korelasi tidak lagi memuat satuan atau informasi besaran yang diperlukan untuk dikonversi ke kovarians.
Kapan Menggunakan Kovarians dan Korelasi
Kovarians paling berguna ketika skala dan satuan data bermakna atau ketika Anda memerlukan struktur mentah dari variabilitas data Anda. Ini umum digunakan dalam pemodelan multivariat, model probabilistik, dan dalam membangun matriks kovarians untuk metode berbasis aljabar linear. Dalam konteks ini, mempertahankan variabilitas asli memungkinkan algoritma menangkap struktur sebenarnya dari data dan memahami bagaimana dimensi bervariasi bersama.
Korelasi, sebaliknya, lebih cocok untuk interpretasi manusia, perbandingan antar dataset, dan analisis eksploratori. Saya suka menggunakan metrik ini dalam visualisasi, seperti heatmap, sehingga saya dapat melihat dan mengomunikasikan hubungan ini secara sekilas. Karena korelasi menstandarkan hubungan, metrik ini juga membantu dalam menyiapkan data Anda untuk teknik di mana menempatkan semua fitur pada skala yang sebanding bisa penting.
Kovarians vs. korelasi dalam data science dan statistika
Sering kali, kedua ukuran muncul dalam alur kerja yang sama. Matriks kovarians membentuk dasar matematis dari banyak teknik multivariat karena mempertahankan variabilitas asli data. Matriks korelasi, di sisi lain, sering digunakan pada tahap eksplorasi untuk memahami struktur dataset sebelum pemodelan.
Beberapa model dapat menggunakan salah satu statistik, bergantung pada tujuannya. Pertimbangkan principal component analysis (PCA). Ketika PCA dilakukan pada matriks kovarians, variabel dengan varians lebih besar secara alami memiliki pengaruh lebih besar pada komponen yang dihasilkan. Ini terkadang diinginkan jika perbedaan skala mencerminkan perbedaan variabilitas yang bermakna. Misalnya, jika Anda menganalisis return saham harian, saham yang lebih volatil mungkin pantas membentuk komponen utama karena variabilitas tersebut mencerminkan perilaku pasar yang nyata.
Menggunakan matriks korelasi sebagai gantinya menstandarkan variabel sebelum dekomposisi. Setiap fitur ditempatkan pada skala yang sama, sehingga tidak ada variabel yang mendominasi hanya karena memiliki satuan lebih besar atau rentang numerik lebih lebar. Pendekatan ini mungkin lebih tepat ketika variabel diukur dalam satuan yang berbeda, seperti tinggi (cm), berat (kg), tekanan darah (mmHg), dan kolesterol (mg/dL).
Tidak ada pendekatan yang selalu lebih baik. Pilihan yang tepat bergantung pada apakah perbedaan skala mencerminkan struktur yang bermakna atau sekadar artefak pengukuran.
Miskonsepsi Umum tentang Kovarians dan Korelasi
Salah satu miskonsepsi umum adalah bahwa kovarians yang tinggi secara otomatis menunjukkan hubungan yang kuat. Namun, nilai kovarians yang besar mungkin hanya mencerminkan skala atau variabilitas variabel, bukan kekuatan hubungannya. Jika Anda ingin mengetahui kekuatan hubungan, Anda perlu menstandarkannya dengan melihat korelasi.
Anda mungkin sudah mendengar frasa “korelasi tidak menyiratkan kausalitas” berkali-kali! Namun, ini masih menjadi miskonsepsi paling umum yang saya temui. Wajar jika melihat korelasi yang kuat lalu menganggap ada hubungan sebab-akibat. Itu jalan pintas yang digunakan otak kita selama ribuan tahun untuk menjaga nenek moyang kita tetap hidup. Namun, sebagai praktisi data, kita harus menahan jalan pintas ini dan menyadari bahwa korelasi saja tidak cukup untuk membuktikan efek kausal. Korelasi mengukur asosiasi, bukan pengaruh kausal, dan faktor eksternal dapat mendorong kedua variabel secara bersamaan.
Miskonsepsi umum lainnya adalah bahwa kovarians dan korelasi pada dasarnya sama. Namun, keduanya tidak dapat dipertukarkan. Meskipun korelasi diturunkan dari kovarians, ia menstandarkan hubungan tersebut, menjadikannya metrik yang jelas berbeda dan tidak selalu dapat menggantikan kovarians dalam perhitungan.
Terakhir, penting diingat bahwa statistik ini hanya mengevaluasi hubungan linear. Pola nonlinier mungkin ada bahkan ketika korelasi dan kovarians rendah atau mendekati nol, sehingga bergantung hanya pada statistik ini dapat mengabaikan struktur penting dalam data. Saya selalu menyarankan Anda memplot data dan melihatnya sebelum mencoba menafsirkan ukuran statistik. Ini benar-benar dapat menyelamatkan Anda jika ada hubungan nonlinier yang jelas.
Tips Profesional untuk Menafsirkan Hubungan Antar Variabel
Pertama, selalu pertimbangkan skala pengukuran Anda. Perbedaan satuan atau variabilitas dapat memengaruhi ukuran mentah seperti kovarians, jadi penting untuk mengetahui apa yang diwakili angka Anda.
Kedua, tentukan apa yang Anda butuhkan dari data Anda. Kovarians paling berguna ketika mempertahankan variabilitas mentah itu penting. Ini sering terjadi dalam pemodelan atau saat menyusun matriks kovarians untuk analisis multivariat. Dalam konteks ini, besaran variasi memuat informasi yang bermakna. Namun, jika Anda tidak memerlukan variabilitas mentah tersebut, Anda mungkin lebih memilih standardisasi dan keterbacaan dari korelasi.
Ketiga, selalu, selalu, selalu plot data Anda dan lihat! Inspeksi visual dapat membantu memandu analisis Anda dan melengkapi ringkasan statistik. Anda dapat menggunakan scatter plot untuk membantu menemukan pola berpasangan, atau matriks untuk mendapatkan gambaran cepat banyak variabel sekaligus.
Terakhir, pikirkan implikasi hilir dari pilihan pengukuran Anda. Memilih antara ukuran mentah seperti kovarians dan ukuran terstandardisasi seperti korelasi akan memengaruhi hasil pemodelan dan interpretasi Anda. Jadi pastikan pilihan Anda selaras dengan tujuan analitis.
Kesimpulan
Kovarians dan korelasi adalah ukuran yang saling berkaitan yang menggambarkan bagaimana variabel bergerak bersama, namun keduanya memiliki tujuan yang berbeda: kovarians mempertahankan skala asli, sementara korelasi menstandarkan untuk perbandingan.
Jika Anda tertarik mempelajari lebih lanjut tentang eksplorasi data, lihat Tutorial Exploratory Data Analysis Python. Untuk mempelajari cara mengetahui apakah korelasi Anda benar-benar menunjukkan kausalitas, lihat Hypothesis Testing in R.
Saya seorang PhD dengan pengalaman 13 tahun bekerja dengan data di lingkungan riset biologi. Saya membuat perangkat lunak dalam beberapa bahasa pemrograman termasuk Python, MATLAB, dan R. Saya bersemangat membagikan kecintaan saya terhadap pembelajaran kepada dunia.
FAQs
Apa perbedaan antara kovarians dan korelasi?
Meskipun keduanya mengukur bagaimana variabel bergerak bersama, kovarians mempertahankan skala dan satuan, sedangkan korelasi menstandarkannya agar lebih mudah dibandingkan.
Apakah kovarians yang tinggi sama dengan hubungan yang kuat?
Tidak selalu. Besaran kovarians sangat dipengaruhi oleh skala dan sebaran. Untuk menentukan kekuatan hubungan, korelasi adalah statistik yang lebih baik digunakan.
Apakah kovarians atau korelasi dapat digunakan untuk hubungan nonlinier?
Tidak secara andal. Statistik ini dimaksudkan hanya untuk mengevaluasi hubungan linear.
Mengapa korelasi tidak memiliki satuan?
Saat mengonversi kovarians ke korelasi, satuannya terhapus karena dibagi, menyisakan angka tanpa satuan untuk korelasi.
Haruskah saya menggunakan kovarians atau korelasi untuk PCA saya?
PCA dapat dilakukan menggunakan matriks kovarians atau matriks korelasi. Jika perbedaan besaran antar variabel bermakna dan sebanding, matriks kovarians akan menangkap variasi tersebut. Namun, jika satuan variabel tidak langsung sebanding, matriks korelasi menstandarkan hubungan. Pilihan Anda bergantung pada variabel yang digunakan dan tujuan Anda.

