Kurs
Veri analitiğinde değişkenlerin birbirleriyle nasıl ilişkili olduğunu anlamaya çalışırız. Muhtemelen bu amaçla sıkça kullanılan iki istatistiksel ölçüyle karşılaştınız: kovaryans ve korelasyon. Bu ölçüler benzer görünür ve sıklıkla birbiriyle karıştırılır. Peki aralarındaki fark nedir ve nasıl kullanılmalıdır?
Her ikisi de değişkenlerin birlikte nasıl hareket ettiğini açıklar. Ancak benzerliklerine rağmen, kovaryans ve korelasyon biraz farklı sorulara yanıt verir ve bu nedenle veri iş akışlarında farklı roller üstlenir. Kovaryans, özellikler arasındaki ham ortak değişkenliği yakalarken, korelasyon bu ilişkiyi standartlaştırır ve böylece daha kolay karşılaştırılabilir hale getirir.
Bu ince farkın farklı durumlarda hangi ölçüyü kullanacağımızı nasıl etkilediğini inceleyelim.
Kovaryans Nedir?
Kovaryans, iki değişkenin birlikte nasıl hareket ettiğini ölçer. Bir değişkendeki artışların diğerindeki artışlar veya azalışlarla eşzamanlı olup olmadığını gösterir. Üç tür kovaryans vardır:
- Pozitif kovaryans: Bir değişken artarken diğerinin de artması.
- Negatif kovaryans: Bir değişken artarken diğerinin azalması.
- Sıfıra yakın kovaryans: Tutarlı bir yönlü ilişki olmadığında.


Bu, kovaryansı değişkenlerin birbirlerine göre nasıl hareket ettiğini saptamak için kullanışlı kılar.
Ancak, ilişkinin yönü faydalı olsa da, kovaryansın büyüklüğünü yorumlamak o kadar kolay değildir. Büyüklük, ölçüm birimlerine ve değişkenlerin ölçeğine bağlıdır. Örneğin santimetreden metreye birim dönüşümü, alttaki ilişkiyi etkilemeden kovaryansın büyüklüğünü dramatik biçimde değiştirebilir.
Bu nedenle, kovaryans çoğu zaman tek başına bir özet istatistiği olarak değil, dahili bir hesaplama yapıtaşı olarak kullanılır.
Korelasyon Nedir?
Korelasyon, iki değişken arasındaki ilişkinin hem yönünü hem de gücünü ölçer. Büyüklüğü standartlaştırarak birimlerin etkisini ortadan kaldırır ve kovaryansın üzerine inşa edilir.
Korelasyon değerleri +1 (mükemmel pozitif ilişki) ile -1 (mükemmel negatif ilişki) arasında sabit bir aralıktadır. 0 değeri, doğrusal bir ilişki olmadığını gösterir.


Bu standart ölçek, korelasyonu kovaryanstan daha kolay yorumlanır kılar. 0,8 değerini gördüğümüzde, ilk ölçümde hangi birimler kullanılmış olursa olsun değişkenler arasında güçlü bir ilişki olduğunu hemen anlarız.
Bu standardizasyon, veri kümeleri, özellikler ve alanlar arasında anlamlı karşılaştırmalara da olanak tanır. Bu nedenle korelasyon, keşif amaçlı veri analizlerinde ve özellik incelemelerinde yaygın olarak kullanılır.
Kovaryans ve Korelasyon: Temel Farklar
Kovaryans ve korelasyon, değişken ilişkilerinin ilişkili özelliklerini tanımlar, ancak farklı analitik amaçlara hizmet ederler.
Pratikte, kovaryans ham birlikte değişkenliği yansıtırken, korelasyon aynı ilişkiyi standartlaştırılmış biçimde yansıtır. Bu ayrımı anlamak, belirli bir analitik göreve hangi ölçünün daha uygun olduğunu belirlemeye yardımcı olur.
|
Kovaryans |
Korelasyon |
|
|
Ölçtüğü |
Doğrusal ilişki (standartlaştırılmamış) |
Doğrusal ilişki (standartlaştırılmış) |
|
Ölçek duyarlılığı |
Ölçek birimlerce belirlenir |
Sabit aralık (−1 ila +1) |
|
Birimler |
Birimlidir |
Birimsiz |
|
Yorumlanabilirlik |
Büyüklüğü yorumlamak zordur |
Yön ve büyüklük kolay yorumlanır |
|
Karşılaştırılabilirlik |
Veri kümeleri arasında sınırlı karşılaştırılabilirlik |
Veri kümeleri arasında doğrudan karşılaştırılabilir |
|
Yaygın kullanım |
Modelleme ve matris oluşturma |
Keşif ve iletişim |
|
Avantaj |
Orijinal ölçeği korur |
Karşılaştırma için standartlaştırır |
Kovaryans ve Korelasyon Örneği
İki değişken hakkında veri topladığımızı varsayalım: boy ve kilo. Genel olarak daha uzun insanların daha fazla kiloya sahip olma eğiliminde olduklarını bildiğimiz için bunların ilişkili olmasını bekleriz. Boyu santimetre, kiloyu kilogram cinsinden çizdiğimizde belirgin bir yukarı yönlü eğilim görürüz. Boy arttıkça, kilo da artma eğilimindedir.
Kovaryansı hesapladığımızda pozitif bir değer elde ederiz: 48,08. Pozitif olması, iki değişkenin aynı yönde hareket ettiğini gösterir. Boy ortalamanın üzerindeyken, kilo da genellikle ortalamanın üzerindedir.
Şimdi işin ilginç kısmına gelelim. Tamamen aynı veriyi alıp birimleri değiştirelim. Boyu santimetreden metreye, kiloyu kilogramdan pounda çevirelim. İnsanlar değişmedi. İlişki değişmedi. Saçılım grafiğindeki desen aynı görünüyor. Ancak kovaryansı yeniden hesapladığımızda sayı farklı: 1,06. Hâlâ pozitif, fakat büyüklük çok farklı. Ve değiştirdiğimiz tek şey birimlerdi.


Bu, kovaryansın önemli bir özelliğini gösterir: yönü yakalar, ancak büyüklüğü ölçeğe bağlıdır. Birimlerini değiştirerek değişkenlerden birini esnetir veya daraltırsak, kovaryans da esner veya daralır.
Şimdi, birim dönüşümünden önce ve sonra aynı veriyi kullanarak korelasyona bakalım. Santimetre ve kilogram kullanıldığında korelasyon 0,76. Metre ve pounda dönüştürdükten sonra da 0,76.
Kovaryanstan farklı olarak, korelasyon, aradaki ilişkiyi ölçmeden önce her bir değişkendeki değişkenliğe göre ayarlama yapar. Bu ayarlama nedeniyle, birimleri değiştirdiğimizde değer değişmez. Sadece noktaların doğrusal bir deseni ne kadar yakından takip ettiğine ve bu desenin yukarı mı aşağı mı eğimli olduğuna odaklanır.
Bu basit örnek, bu metrikler arasındaki temel farkı vurgular: kovaryans hem yönü hem ölçeği yansıtırken, korelasyon ölçekten bağımsız olarak ilişki gücünü yansıtır. Pratikte bu, farklı ölçeklerde ölçülen değişkenler arasındaki ilişkileri karşılaştırmada korelasyonun daha güvenilir olduğu, kovaryansın ise modelleme gibi değişkenliğin büyüklüğünün önemli olduğu bağlamlarda daha anlamlı olduğu anlamına gelir.
Kovaryansı Yorumlamak Zor Olabilir
Belirttiğimiz gibi, kovaryans iki değişkenin aynı yönde hareket edip etmediğini söyler, ancak büyüklüğünü yorumlamak zordur.
Temel sorun, kovaryansın yalnızca ilişkiye değil, değişkenlerin ölçeğine de bağlı olmasıdır. Değerler daha büyükse veya daha geniş saçılıma sahipse, kovaryans da genellikle daha büyük olacaktır.
Bu duyarlılık iki kaynaktan gelir. İlki veri birimleridir. Birimleri değiştirmek kovaryansı değiştirir. Geliri dolar yerine bin dolar cinsinden ölçmek, ilişki özdeş olsa bile çok farklı kovaryans değerleri üretir.
İkinci kaynak ise değişkendeki değişkenlik miktarıdır. Birimler aynı kalsa bile, daha geniş aralığa veya daha büyük saçılıma sahip bir veri kümesi, aynı altta yatan ilişkiye sahip daha sıkı bir veri kümesine kıyasla tipik olarak daha büyük bir kovaryans üretir. Büyük bir kovaryans mutlaka güçlü bir ilişki göstermez. Yalnızca verideki daha büyük ölçekleri veya daha fazla değişkenliği yansıtıyor olabilir.
Ölçeğe bu duyarlılık nedeniyle, kovaryans çoğunlukla doğrudan raporlanmak yerine, örneğin modelleri uydurmak gibi dahili amaçlarla kullanılır.
Neden Korelasyon Daha Sık Kullanılır
Korelasyon, değişkenler arasındaki ilişkiyi standartlaştırarak kovaryansın yorumlanabilirlik sorunlarının çoğunu giderir. Korelasyon değerleri her zaman −1 ile +1 arasındadır, bu nedenle büyüklük anında anlamlıdır: 1 veya -1’e yakın değerler güçlü doğrusal ilişkileri, 0’a yakın değerler ise zayıf veya olmayan doğrusal ilişkiyi gösterir. Bu standardizasyon, değişkenler veya veri kümeleri arasında doğrudan karşılaştırmaya da olanak tanır; bu da korelasyonu iletmesi ve yorumlaması daha kolay hale getirir.
Bu özellikler, korelasyonu özellikle keşif amaçlı veri analizi, özellikler arasındaki ilişkilerin incelenmesi, fazlalık veya çoklu bağlantının tespiti ve bulguların raporlanması için kullanışlı kılar. Korelasyon matrisleri ve ısı haritaları, veri kümelerini incelerken ilk adım araçları olarak da faydalıdır.
Bununla birlikte, korelasyon kovaryansın tam bir ikamesi değildir. Korelasyon ölçek etkilerini kaldırdığı için yalnızca ilişkinin gücünü yansıtır; ham değişkenliği yansıtmaz. Temel bileşen analizi veya çok değişkenli istatistiksel modeller gibi modelleme bağlamlarında, kovaryansın yakaladığı orijinal ölçek, varyans yapısını anlamak ve algoritmaların davranışını yönlendirmek için önemli olabilir.
Lineer Cebir Perspektifi
Şimdiye dek kovaryansa ikili değişkenler üzerinden baktık. Lineer cebir, bu fikri tüm veri kümesine bir anda ölçeklendirmeyi gösterir. Bunu verilerimizi bir matrise yerleştirerek yapabiliriz.
Temel bir veri matrisinde her satır bir gözlemi, her sütun bir değişkeni temsil eder. Değişkenler arasındaki ilişkileri anlamak için önce her sütunun ortalamasını her bir değerden çıkararak verileri merkezleyebiliriz. Bu adım, mutlak değerler yerine tipik değerlerden sapmalara odaklanmamızı sağlar.
Merkezlenmiş veri matrisini transpozu ile çarpmak, değişkenlerin birlikte nasıl hareket ettiğini yakalayan bir yapı üretir. Bu çarpım, ölçeklendirildikten sonra kovaryans matrisidir. Lineer cebir açısından, kovaryans matrisi, değişkenliğin veri kümesinin boyutları boyunca nasıl dağıldığını özetler.
Kovaryansı bu şekilde düşünmek, veri biliminde neden bu kadar sık karşımıza çıktığını açıklar. Temel bileşen analizi (PCA) ve diğer boyut indirgeme teknikleri de dahil olmak üzere birçok algoritma, verideki desenleri ve yapıyı anlamak için bu matris temsiline dayanır. Kavramsal olarak, kovaryans matrisi, veri kümesinin farklı boyutlarının nasıl etkileştiğine dair bir harita sunar.

Burada dört değişkene ait verileri bir veri matrisinde düzenlenmiş olarak görüyoruz. Ardından merkezleniyor ve bir kovaryans matrisi oluşturmak için kullanılıyor.
Veri bilimi için lineer cebire daha derinlemesine dalmak isterseniz, matris tabanlı yaklaşımları (kovaryans gibi) anlamanız için gereken temelleri kapsayan R ile Veri Bilimi için Lineer Cebir kursumuza göz atın.
Kovaryans ve korelasyon matrisleri
Kovaryans matrisi, tüm bir veri kümesi boyunca değişkenlerin birlikte nasıl hareket ettiğini özetler. Pratikte, bu ilişkileri, orijinal ölçeği korumak mı yoksa sonuçları standartlaştırmak mı istediğimize bağlı olarak, kovaryans veya korelasyon matrisleriyle inceleriz.
Bir kovaryans matrisi, tüm değişken çiftleri arasındaki kovaryansları içerir. Köşegen üzerindeki sayılar her bir değişkendeki varyansı gösterirken, köşegen dışındaki sayılar değişkenlerin birlikte nasıl değiştiğini yansıtır. Kovaryans verinin orijinal ölçeğini ve birimlerini koruduğundan, matris değişkenliğin ham yapısını yakalar. Bu da kovaryans matrislerini özellikle modelleme iş akışlarında ve çok değişkenli analizlerde kullanışlı kılar.
Korelasyon matrisi ise bu ilişkileri standartlaştırır. Her köşegen girdisi 1’e eşittir; zira her değişken kendisiyle tam korelasyon içindedir. Tüm köşegen dışı değerler −1 ile +1 arasındadır ve değişkenler arası korelasyonu gösterir. Ölçek etkilerini kaldırarak korelasyon matrisleri insanlar tarafından daha kolay yorumlanır ve değişkenler arasında doğrudan karşılaştırmaya izin verir. Özellikle keşif amaçlı veri analizinde ve özellikler arasındaki güçlü veya zayıf doğrusal ilişkileri hızla belirlemede kullanışlıdırlar.

Bu matrislerde dört değişkeni birbiriyle karşılaştırıyoruz. Bu matrisleri sunarken bir ısı haritası kaplaması eklemeyi seviyorum. Her hücrenin rengi, bir bakışta, kovaryans veya korelasyon değerlerinin göreli büyüklüğünü görmemize yardımcı olur.
Kovaryanstan Korelasyona Nasıl Dönüştürülür
Kavramsal olarak, korelasyon, değişkenler arasındaki ilişki standartlaştırılarak kovaryanstan türetilir. Basitçe kovaryansı her bir değişkenin standart sapmasına bölersiniz. Bu ölçekleme birimleri ve değişkenlerin büyüklüğünü ortadan kaldırır ve daima −1 ile +1 arasında kalan standartlaştırılmış bir ölçü üretir. Bu dönüşüm, korelasyon değerlerinin farklı değişkenler veya veri kümeleri arasında doğrudan karşılaştırılabilir olmasının nedenidir.
Pratikte, kovaryansı korelasyona dönüştürme işlemi çoğu istatistik yazılımında otomatik olarak yapılır; bu nedenle analistlerin bunu elle hesaplaması nadirdir. Yine de, yazılımınızın arka planda ne yaptığını anlamak her zaman önemlidir. Örneğin, kovaryansın korelasyona nasıl dönüştürüldüğünü anlamak, ters yönde neden dönüştüremeyeceğinizi açıklar direction(en azından her ikisinin standart sapmasına dair bilgi olmadan). Correlation artık kovaryansa dönüştürmek için gerekli olan birimleri veya büyüklük bilgisini içermez.
Kovaryans ve Korelasyonu Ne Zaman Kullanmalı
Kovaryans, verinin ölçeği ve birimlerinin anlamlı olduğu durumlarda veya verinizin değişkenliğinin ham yapısına ihtiyaç duyduğunuzda en kullanışlı olandır. Çok değişkenli modellemede, olasılıksal modellerde ve lineer cebir temelli yöntemler için kovaryans matrisleri oluştururken yaygın olarak kullanılır. Bu bağlamlarda orijinal değişkenliği korumak, algoritmaların verinin gerçek yapısını yakalamasını ve boyutların birlikte nasıl değiştiğini anlamasını sağlar.
Korelasyon ise insan tarafından yorumlama, veri kümeleri arasında karşılaştırma ve keşif amaçlı analizler için daha uygundur. Bu metriği, ilişkileri bir bakışta görüp iletebilmek için ısı haritaları gibi görselleştirmelerde kullanmayı seviyorum. Korelasyon ilişkiyi standartlaştırdığı için, tüm özellikleri karşılaştırılabilir bir ölçekte ele almanın önemli olabildiği tekniklere veriyi hazırlarken de yardımcıdır.
Veri bilimi ve istatistikte kovaryans vs. korelasyon
Çoğu zaman, her iki ölçü de aynı iş akışında yer alır. Kovaryans matrisleri, verinin orijinal değişkenliğini korudukları için birçok çok değişkenli tekniğin matematiksel temelini oluşturur. Korelasyon matrisleri ise modellemeden önce veri kümesinin yapısını anlamak için keşif aşamalarında sıklıkla kullanılır.
Bazı modeller, amaca bağlı olarak her iki istatistiği de kullanabilir. Temel bileşen analizini (PCA) düşünün. PCA bir kovaryans matrisi üzerinde yapıldığında, daha büyük varyansa sahip değişkenler doğal olarak ortaya çıkan bileşenler üzerinde daha fazla etki gösterir. Ölçek farklılıkları, değişkenlikte anlamlı farkları yansıtıyorsa bu bazen arzu edilir olabilir. Örneğin, günlük hisse senedi getirilerini analiz ediyorsanız, daha oynak bir hisse, bu değişkenlik gerçek piyasa davranışını yansıttığı için temel bileşenleri uygun biçimde şekillendirebilir.
Bunun yerine bir korelasyon matrisi kullanmak, ayrıştırmadan önce değişkenleri standartlaştırır. Her özellik aynı ölçeğe yerleştirilir; böylece yalnızca daha büyük birimlere veya daha geniş sayısal aralığa sahip olduğu için hiçbir değişken baskın hale gelmez. Bu yaklaşım, boy (cm), kilo (kg), kan basıncı (mmHg) ve kolesterol (mg/dL) gibi değişkenlerin farklı birimlerle ölçüldüğü durumlarda daha uygun olabilir.
Hiçbir yaklaşım evrensel olarak daha iyi değildir. Uygun seçim, ölçek farklılıklarının anlamlı bir yapıyı mı yansıttığı yoksa yalnızca ölçüm kaynaklı yapaylıklar mı olduğuna bağlıdır.
Kovaryans ve Korelasyon Hakkında Yaygın Yanılgılar
Yaygın bir yanılgı, yüksek kovaryansın otomatik olarak güçlü bir ilişki göstergesidir. Oysa büyük kovaryans değerleri, ilişkinin gücünden ziyade değişkenlerin ölçeğini veya değişkenliğini yansıtıyor olabilir. İlişkinin gücünü bilmek istiyorsanız, korelasyona bakarak standardize etmeniz gerekir.
Muhtemelen “korelasyon nedensellik anlamına gelmez” ifadesini milyon kez duydunuz! Yine de, hâlâ en sık karşılaştığım yanılgı bu. Güçlü bir korelasyona bakıp nedensel bir bağ varsaymak anlaşılabilir bir durumdur. Bu, atalarımızı hayatta tutmak için beynimizin binlerce yıldır kullandığı bir kestirmedir. Ancak veri uygulayıcıları olarak bu beyin kestirmesine direnmeli ve yalnızca korelasyonun nedensel bir etkiyi kanıtlamak için yeterli olmadığını kabul etmeliyiz. Korelasyon ilişkiyi ölçer, nedensel etkiyi değil; dış etkenler her iki değişkeni de eşzamanlı olarak yönlendirebilir.
Bir diğer çok yaygın yanılgı, kovaryans ve korelasyonun temelde aynı şey olduğudur. Oysa birbirlerinin yerine geçebilir değillerdir. Korelasyon kovaryanstan türetilmiş olsa da ilişkiyi standartlaştırır ve böylece, hesaplamalarda her zaman kovaryansın uygun bir ikamesi olmayan belirgin biçimde farklı bir metrik haline gelir.
Son olarak, bu istatistiklerin yalnızca doğrusal ilişkileri değerlendirdiğini hatırlamak önemlidir. Korelasyon ve kovaryans düşük veya sıfıra yakın olsa bile doğrusal olmayan desenler mevcut olabilir; bu nedenle yalnızca bu istatistiklere güvenmek, verideki önemli yapıları gözden kaçırabilir. İstatistiksel ölçüleri yorumlamaya çalışmadan önce verilerinizi grafiğe dökmenizi ve bakmanızı her zaman öneririm. Belirgin bir doğrusal olmayan ilişki varsa bu sizi gerçekten kurtarabilir.
Değişkenler Arası İlişkileri Yorumlamak İçin İpuçları
İlk olarak, ölçüm ölçeğinizi her zaman göz önünde bulundurun. Birimler veya değişkenlikteki farklılıklar, kovaryans gibi ham ölçüleri etkileyebilir; bu yüzden sayılarınızın neyi temsil ettiğini bilmek önemlidir.
İkinci olarak, verinizden neye ihtiyaç duyduğunuzu belirleyin. Kovaryans, ham değişkenliği korumanın önemli olduğu durumlarda en kullanışlıdır. Bu, modellemede veya çok değişkenli analizler için kovaryans matrisleri oluştururken sıklıkla geçerlidir. Bu bağlamlarda, değişkenlik büyüklüğü anlamlı bilgi taşır. Ancak bu ham değişkenliğe ihtiyacınız yoksa, korelasyonun standardizasyonunu ve yorumlanabilirliğini tercih edebilirsiniz.
Üçüncü olarak, her zaman, her zaman, her zaman verinizi görselleştirin ve bakın! Görsel inceleme, analizlerinize yön vermeye yardımcı olur ve istatistiksel özetleri tamamlar. İkili desenleri fark etmeye yardımcı olması için saçılım grafiklerini veya çok sayıda değişkeni bir bakışta görmek için matrisleri kullanabilirsiniz.
Son olarak, ölçüm seçimlerinizin aşağı akıştaki etkilerini düşünün. Kovaryans gibi ham bir ölçü ile korelasyon gibi standartlaştırılmış bir ölçü arasında yapacağınız seçim, modelleme sonuçlarınızı ve yorumlarınızı etkileyecektir. Bu nedenle seçiminizi analitik hedeflerinizle hizaladığınızdan emin olun.
Sonuç
Kovaryans ve korelasyon, değişkenlerin birlikte nasıl hareket ettiğini tanımlayan yakından ilişkili ölçülerdir; ancak farklı amaçlara hizmet ederler: kovaryans orijinal ölçeği korur, korelasyon ise karşılaştırma için standartlaştırır.
Verinizi keşfetme hakkında daha fazla bilgi edinmek isterseniz, Python Keşif Amaçlı Veri Analizi Eğitimine göz atın. Korelasyonunuzun gerçekten nedenselliği gösterip göstermediğini öğrenmek için R ile Hipotez Testine göz atın.

Biyolojik araştırma ortamında verilerle çalışma konusunda 13 yıllık deneyime sahip bir doktora sahibiyim. Python, MATLAB ve R dahil olmak üzere birkaç programlama dilinde yazılım geliştiriyorum. Öğrenme sevgimi dünyayla paylaşma konusunda tutkuluyum.
SSS
Kovaryans ve korelasyon arasındaki fark nedir?
Her ikisi de değişkenlerin birlikte nasıl hareket ettiğini ölçse de, kovaryans ölçeği ve birimleri korur, korelasyon ise bunları daha kolay karşılaştırma için standartlaştırır.
Yüksek kovaryans güçlü bir ilişkiyle aynı şey midir?
Gerekli değil. Kovaryansın büyüklüğü ölçek ve saçılımdan güçlü biçimde etkilenir. İlişkinin gücünü belirlemek için korelasyon daha uygun bir istatistiktir.
Kovaryans veya korelasyon doğrusal olmayan ilişkilerle çalışır mı?
Güvenilir değildir. Bu istatistikler yalnızca doğrusal ilişkileri değerlendirmek için tasarlanmıştır.
Neden korelasyonun birimi yoktur?
Kovaryansı korelasyona dönüştürürken, birimler bölünerek çıkar; geriye korelasyon için birimsiz bir sayı kalır.
PCA için kovaryans mı korelasyon mu kullanmalıyım?
PCA, bir kovaryans matrisi veya bir korelasyon matrisi kullanılarak yapılabilir. Değişkenler arasındaki büyüklük farklılıkları anlamlı ve karşılaştırılabilir ise, bir kovaryans matrisi bu varyasyonu yakalar. Ancak değişken birimleri doğrudan karşılaştırılabilir değilse, bir korelasyon matrisi ilişkileri standartlaştırır. Hangi yöntemi seçeceğiniz, kullandığınız değişkenlere ve amacınıza bağlıdır.