Ana içeriğe atla

R'de PCA: Örneklerle Adım Adım Eğitim

Bu eğitimde R'de PCA uygulamayı öğrenin. Veriyi normalize edin, princomp() ile temel bileşenleri hesaplayın ve sonuçları scree plot ve biplot ile görselleştirin.
Güncel 22 Nis 2026  · 15 dk. oku

R'de PCA Analizi

Temel Bileşen Analizine (PCA) Giriş

Perakende sektöründe bir veri bilimci olarak, aylık harcama, yaş, cinsiyet, satın alma sıklığı ve ürün puanı gibi beş özelliğin yer aldığı bir veri kümesinden müşteriyi mutlu eden şeyin ne olduğunu anlamaya çalıştığınızı hayal edin. Daha iyi analiz yapmak ve uygulanabilir sonuçlar çıkarmak için veri setini anlamamız veya en azından görselleştirmemiz gerekir. İnsanlar üç boyuttan fazlasını kolayca görselleştiremez; dolayısıyla beş özellikli (boyutlu) müşteri verisini görselleştirmek çok da kolay değildir. İşte tam bu noktada temel bileşen analizi (kısaca PCA) devreye girer.

“Peki, temel bileşen analizi nedir?”

Yüksek boyutlu veriyi analiz etmek ve ondan en önemli bilgileri yakalamak için kullanılabilen istatistiksel bir yaklaşımdır. Bu, orijinal veriyi daha düşük boyutlu bir uzaya dönüştürerek ve yüksek korelasyonlu değişkenleri bir araya toplayarak yapılır. Bizim senaryomuzda PCA, aylık harcama, satın alma sıklığı ve ürün puanı gibi üç özelliği seçebilir. Bu da veriyi görselleştirmeyi ve anlamayı kolaylaştırabilir.

Bu eğitimde, temel bileşen analizinin ana kavramlarını ve R'de corrr paketini kullanarak gerçek hayattaki senaryolara nasıl uygulayacağınızı adım adım göstereceğim.

Kursumuzdaki bu videoda R'de Temel Bileşen Analizi hakkında daha fazla bilgi edinin.

TL;DR

  • PCA, yüksek boyutlu veriyi en fazla varyansı koruyarak daha az boyuta indirger
  • PCA çalıştırmadan önce değişkenlerin eşit katkısını sağlamak için verinizi mutlaka scale() ile normalize edin
  • R'de analiz ve görselleştirme için FactoMineR ve factoextra paketleriyle birlikte princomp() veya prcomp() kullanın
  • İlk iki temel bileşen genellikle varyansın %80–90'ını açıklar ve görselleştirme için çoğu zaman yeterlidir
  • Kaç bileşenin tutulacağına karar vermek için scree plot kullanın; değişken ilişkilerini yorumlamak için biplot kullanın

Önkoşullar

Bu eğitimi takip edebilmek için şunlara sahip olmalısınız:

  • Temel R programlama bilgisi — tazeleme gerekiyorsa Tidyverse'e Başlangıç eğitimine bakın
  • R'de veri çerçevelerini yükleme ve alt kümeleme konusunda aşinalık
  • R 4.x veya üzeri kurulu
  • Şu paketler: corrr, ggcorrplot, FactoMineR, factoextra (kurulum eğitimde ele alınıyor)

PCA Nasıl Çalışır? 5 Adımlı Kılavuz

Odak noktamız PCA olsa da, çok değişkenli veriyi özetlemeyi ve görselleştirmeyi amaçlayan aşağıdaki beş temel bileşen yöntemini akılda tutalım. PCA, diğer tekniklerin aksine yalnızca nicel değişkenlerle çalışır. 

Temel bileşen yöntemleri

Temel bileşen yöntemleri

Oldukça karmaşık olabilen matematiksel kavrama girmeyeceğiz. Ancak, aşağıdaki beş adımı anlamak PCA'nın nasıl hesaplandığına dair daha iyi bir fikir verebilir. 

Temel bileşenleri hesaplamanın 5 ana adımı

Temel bileşenleri hesaplamanın beş ana adımı

Adım 1 - Verinin normalize edilmesi

Girişteki örneği dikkate alarak, örneğin belirli bir müşteri için aşağıdaki bilgileri düşünelim. 

  • Aylık harcama: $300
  • Yaş: 27
  • Puan: 4.5

Bu bilgiler farklı ölçeklere sahip ve bu tür verilerle PCA yapmak taraflı sonuçlara yol açar. İşte bu noktada veri normalizasyonu devreye girer. Her özniteliğin aynı düzeyde katkı yapmasını sağlar ve bir değişkenin diğerlerine baskın çıkmasını engeller. Her değişken için normalizasyon, ortalamasının çıkarılıp standart sapmasına bölünmesiyle yapılır.   

Adım 2 - Kovaryans matrisi

Adından da anlaşılacağı gibi bu adım, normalize edilmiş veriden kovaryans matrisinin hesaplanmasıyla ilgilidir. Bu simetrik bir matristir ve her (i, j) elemanı i ve j değişkenleri arasındaki kovaryansa karşılık gelir.

Adım 3 - Özvektörler ve özdeğerler

Geometrik olarak bir özvektör “dikey” veya “90 derece” gibi bir yönü temsil eder. Özdeğer ise belirli bir yönde veride bulunan varyans miktarını temsil eden bir sayıdır. Her özvektörün kendisine karşılık gelen bir özdeğeri vardır. 

Adım 4 - Temel bileşenlerin seçimi

Verideki değişken sayısı kadar özvektör ve özdeğer çifti vardır. Yalnızca aylık harcama, yaş ve puanın olduğu veride üç çift olacaktır. Tüm çiftler ilgili değildir. En yüksek özdeğere sahip özvektör birinci temel bileşene karşılık gelir. İkinci temel bileşen, ikinci en yüksek özdeğere sahip özvektördür; bu şekilde devam eder.

Adım 5 - Verinin yeni bir boyutsal uzaya dönüştürülmesi

Bu adım, orijinal verinin temel bileşenlerce tanımlanan yeni bir alt uzaya yeniden yönlendirilmesini içerir. Bu yeniden yönlendirme, orijinal verinin önceden hesaplanan özvektörlerle çarpılmasıyla yapılır.

Bu dönüşümün orijinal verinin kendisini değiştirmediğini, bunun yerine veriyi daha iyi temsil etmek için yeni bir bakış açısı sunduğunu unutmamak önemlidir. 

Temel Bileşen Analizinin Uygulamaları 

Temel bileşen analizinin günlük hayatımızda finans, görüntü işleme, sağlık ve güvenlik dahil (ama bunlarla sınırlı olmamak üzere) çeşitli uygulamaları vardır.

Finans

Hisse senedi fiyatlarını geçmiş fiyatlardan tahmin etmek, yıllardır araştırmalarda kullanılan bir kavramdır. PCA, boyut indirgeme ve veriyi analiz etme amacıyla uzmanların verideki değişkenliğin çoğunu açıklayan ilgili bileşenleri bulmasına yardımcı olmak için kullanılabilir. R'de boyut indirgeme hakkında daha fazla bilgi için özel kursumuzu inceleyin. 

Görüntü işleme

Bir görüntü çok sayıda özelliğin birleşimidir. PCA, boyut sayısını azaltırken belirli bir görüntünün temel ayrıntılarını korumak için ağırlıkla görüntü sıkıştırmada uygulanır. Ayrıca, görüntü tanıma gibi daha karmaşık görevlerde de kullanılabilir.   

Sağlık

Görüntü sıkıştırmayla aynı mantıkla, PCA manyetik rezonans görüntüleme (MRI) taramalarında, görselleştirme ve tıbbi analiz için görüntülerin boyutunu azaltmak amacıyla kullanılır. Ayrıca, örneğin görüntü taramalarından belirli bir hastalığı tanımak için kullanılan tıbbi teknolojilere entegre edilebilir.

Güvenlik

Parmak izi tanıma için kullanılan biyometrik sistemler, parmak izi dokusu ve ek bilgiler gibi en ilgili özellikleri çıkarmak amacıyla temel bileşen analizinden yararlanan teknolojileri entegre edebilir. 

R'de PCA'ya Gerçek Dünya Örneği

Artık PCA'nın altında yatan teoriyi anladığınıza göre, onu uygulamada görmeye hazırsınız.

Bu bölüm, ilgili paketlerin kurulumundan verinin yüklenmesi ve hazırlanmasına, R'de temel bileşen analizinin uygulanmasına ve sonuçların yorumlanmasına kadar tüm adımları kapsar. 

Kaynak kod DataLab'de mevcuttur.

Ortamın hazırlanması 

Bu eğitimi başarıyla gerçekleştirmek için aşağıdaki kütüphanelere ihtiyacınız olacak ve her biri için verimli kullanıma yönelik iki ana adım var: 

  • Tüm fonksiyonlara erişmek için kütüphaneyi kurun.
  • Fonksiyonları kullanabilmek için kütüphaneyi yükleyin.

R'de corrr paketi

Bu, korelasyon analizi için bir R paketidir. Esasen R veri çerçeveleri oluşturmaya ve bunları işlemeye odaklanır. Aşağıda kütüphaneyi kurma ve yükleme adımları yer alıyor. 

install.packages("corrr")
library('corrr')

R'de ggcorrplot paketi

ggcorrplot paketi, ggplot2 fonksiyonu dahil olmak üzere birçok işlev sağlar ve korelasyon matrisini görselleştirmeyi kolaylaştırır. Yukarıdaki talimatlara benzer şekilde kurulumu basittir.

install.packages("ggcorrplot")
library(ggcorrplot)

R'de FactoMineR paketi

Esasen çok değişkenli keşifsel veri analizi için kullanılır; factoMineR paketi, temel bileşen analizini gerçekleştirmek için PCA modülüne erişim sağlar. 

install.packages("FactoMineR")
library("FactoMineR")

factoextra paketi

Bu son paket, temel bileşen analizi çıktılarının görselleştirilmesi için gerekli tüm fonksiyonları sağlar. Bu fonksiyonlar arasında, ilerleyen bölümlerde ele alınacak iki görselleştirme tekniği olan scree plot ve biplot da bulunur.

install.packages("factoextra")
library(factoextra)

Veriyi keşfetme

Veriyi yüklemeden ve daha ileri keşfe başlamadan önce, üzerinde çalışacağınız veriye ilişkin temel bilgileri anlamak faydalıdır.  

Protein verisi

Protein veri seti, 25 Avrupa ülkesindeki vatandaşların ortalama protein tüketimini açıklayan, gerçek değerli çok değişkenli bir veri setidir. 

Her ülke için on sütun vardır. İlk sekizi farklı protein türlerine karşılık gelir. Sonuncusu ise proteinlerin ortalama değerlerinin toplamına karşılık gelir.

Veriye hızlı bir genel bakış yapalım. 

Önce veriyi read.csv() fonksiyonuyla yüklüyor, ardından aşağıdaki çıktıyı veren str() fonksiyonunu kullanıyoruz. 

protein_data <- read.csv("protein.csv")
str(protein_data)

Veri setinde 25 gözlem ve 11 sütun olduğunu görebiliriz. Country sütunu dışında her değişken sayısaldır; Country karakter dizisidir. 

Protein verisinin açıklaması

Protein verisinin açıklaması

Null değerleri kontrol etme 

Kayıp değerlerin varlığı, PCA'nın sonucunu taraflı hale getirebilir. Bu nedenle, bu değerlerle başa çıkmak için uygun yaklaşımı uygulamak şiddetle tavsiye edilir. Her Veri Bilimcinin Bilmesi Gereken Kayıp Değerleri Ele Alma Teknikleri eğitimimiz doğru seçimi yapmanıza yardımcı olabilir. 

colSums(is.na(protein_data))

colSums() fonksiyonu, is.na() ile birlikte kullanıldığında her sütundaki kayıp değer sayısını döndürür. Aşağıda görüldüğü gibi sütunların hiçbirinde kayıp değer yoktur.

Her sütundaki kayıp değer sayısı

Her sütundaki kayıp değer sayısı

Verinin normalize edilmesi

Makalede daha önce belirtildiği gibi PCA yalnızca sayısal değerlerle çalışır. Bu nedenle Country sütunundan kurtulmamız gerekir. Ayrıca Total sütunu, kalan sayısal değişkenlerin lineer kombinasyonu olduğundan analize uygun değildir.

Aşağıdaki kod yalnızca sayısal sütunlardan oluşan yeni bir veri oluşturur.

numerical_data <- protein_data[,2:10]

head(numerical_data)

Veri normalize edilmeden önce

Veri normalize edilmeden önce (yalnızca ilk beş sütun gösteriliyor)

Şimdi normalizasyonu scale() fonksiyonunu kullanarak uygulayabiliriz.

data_normalized <- scale(numerical_data)
head(data_normalized)

Normalize edilmiş veri

Normalize edilmiş veri (yalnızca ilk beş sütun gösteriliyor)

Korelasyon matrisini görselleştirme

PCA çalıştırmadan önce değişkenler arası korelasyonları görselleştirmek, PCA'nın etkili olacağını teyit eder. Yüksek karşılıklı korelasyonlar, PCA'nın sıkıştırabileceği fazlalığı gösterir. Daha önce kurduğum corrr ve ggcorrplot paketlerini kullanacağım.

corr_matrix <- cor(data_normalized)
ggcorrplot(corr_matrix,
           hc.order = TRUE,
           type = "lower",
           lab = TRUE)

Isı haritası, hayvansal protein kaynakları (kırmızı et, beyaz et, yumurta ve süt) arasında güçlü pozitif korelasyonlar olduğunu gösteriyor; bu da birinci temel bileşenin toplam varyansın yaklaşık %77’sini yakalamasını açıklıyor. Bu korelasyon yapısı, PCA’nın tam da yararlanmak üzere tasarlandığı şeydir.

R'deki PCA fonksiyonlarına not: Bu eğitimde kovaryans matrisi üzerinde spektral ayrıştırma uygulayan princomp() kullanılıyor. Çoğu pratik kullanım için tercih edilen alternatif prcomp()'tur — birçok değişkenli veri setlerinde sayısal olarak daha kararlı olan tekil değer ayrıştırması (SVD) kullanır. Temel çıktı farkı: princomp() yükleri $loadings içinde saklarken, prcomp() $rotation kullanır. Burada kullanılan protein veri seti gibi iyi koşullandırılmış verilerde her ikisi de eşdeğer sonuçlar üretir.

PCA uygulama

Artık PCA analizi yapmak için tüm kaynaklar hazır. Önce princomp() PCA'yı hesaplar ve summary() fonksiyonu sonucu gösterir.

data.pca <- princomp(data_normalized)
summary(data.pca)

r pca özeti

R PCA özeti 

Önceki ekranda, verilerdeki değişken sayısına karşılık gelen dokuz temel bileşen (Comp.1'den Comp.9'a) oluşturulduğunu görüyoruz.

Her bir bileşen, veri setindeki toplam varyansın belirli bir yüzdesini açıklar. Kümülatif Oran bölümünde, birinci temel bileşen toplam varyansın neredeyse %77’sini açıklar. Bu, 9 değişkenli veri setindeki verinin neredeyse üçte ikisinin yalnızca birinci temel bileşenle temsil edilebileceği anlamına gelir. İkincisi ise toplam varyansın %12.08’ini açıklar. 

Comp.1 ve Comp.2'nin kümülatif oranı toplam varyansın neredeyse %89’unu açıklar. Bu, ilk iki temel bileşenin veriyi doğru şekilde temsil edebileceği anlamına gelir. 

İlk iki bileşene sahip olmak harika, ama aslında ne anlama geliyorlar? 

Bu soruyu, her bir temel bileşenin yüklerini kullanarak sütunlarla ilişkilerini keşfederek yanıtlayabiliriz. 

data.pca$loadings[, 1:2]

İlk iki temel bileşenin yükleme matrisi

İlk iki temel bileşenin yükleme matrisi

Yükleme matrisi, birinci temel bileşenin kırmızı et, beyaz et, yumurta ve süt için yüksek pozitif değerlere sahip olduğunu gösteriyor. Buna karşılık, tahıllar, bakliyat, kuruyemiş ve yağlı tohumlar ile meyve-sebzeler için değerler nispeten negatiftir. Bu, hayvansal protein alımı daha yüksek olan ülkelerin fazlalıkta, düşük olanların ise açıkta olduğunu düşündürür.

İkinci temel bileşene gelince, balık, nişastalı gıdalar ve meyve-sebzeler için yüksek negatif değerlere sahiptir. Bu da ülkelerin diyetlerinin balık için kıyı bölgeler, sebze ve patates açısından zengin diyetler için iç bölgeler gibi bulundukları konumdan güçlü biçimde etkilendiğini ima eder.

Temel bileşenlerin görselleştirilmesi 

Önceki yükleme matrisi analizi, ilk iki temel bileşen ile verideki öznitelikler arasındaki ilişkiyi iyi bir şekilde anlamamızı sağladı. Ancak, bu her zaman görsel olarak çekici olmayabilir. 

Kullanıcıya veriden içgörü kazandırabilecek birkaç standart görselleştirme stratejisi vardır; bu bölüm, scree plot ile başlayarak bu yaklaşımlardan bazılarını kapsar.  

Scree Plot

Listemizdeki ilk yaklaşım scree plot’tur. Her bir temel bileşenin önemini görselleştirmek ve tutulacak temel bileşen sayısını belirlemek için kullanılır. Scree plot, fviz_eig() fonksiyonu kullanılarak üretilebilir. 

fviz_eig(data.pca, addlabels = TRUE)

Bileşenlerin scree plot’u

Bileşenlerin scree plot’u

Bu grafik, özdeğerleri en yüksekten en düşüğe doğru azalan bir eğri şeklinde gösterir. İlk iki bileşen, verinin toplam bilgisinin neredeyse %89’unu içerdiği için en anlamlı olanlar olarak kabul edilebilir.

Özniteliklerin biplotu

Biplot ile örnekler arasındaki benzerlikleri ve farklılıkları görselleştirmek mümkündür; ayrıca her özniteliğin her bir temel bileşen üzerindeki etkisini de gösterir.

# Değişkenlerin grafiği
fviz_pca_var(data.pca, col.var = "black")

Değişkenlerin biplotu

Temel bileşenlere göre değişkenlerin biplotu

Önceki grafikten üç ana bilgi gözlemlenebilir. 

  • İlk olarak, birlikte gruplanan tüm değişkenler birbirleriyle pozitif korelasyona sahiptir; örneğin beyaz/kırmızı et, süt ve yumurta birbirleriyle pozitif ilişkilidir. Bu sonuç şaşırtıcı değildir; çünkü birinci temel bileşene göre yükleme matrisinde en yüksek değerlere sahiptirler.
  • Ardından, değişken ile orijin arasındaki mesafe ne kadar yüksekse o değişken o kadar iyi temsil edilir. Biplotta yumurta, süt ve beyaz etin büyüklüğü kırmızı ete kıyasla daha yüksektir; dolayısıyla kırmızı etten daha iyi temsil edilirler.
  • Son olarak, negatif korelasyona sahip değişkenler biplotun orijinine göre zıt taraflarda gösterilir. 

Her değişkenin katkısı 

Üçüncü görselleştirmenin amacı, her bir değişkenin belirli bir bileşende ne kadar temsil edildiğini belirlemektir. Bu temsil kalitesi Cos2 olarak adlandırılır, kare kosinusa karşılık gelir ve fviz_cos2() fonksiyonu kullanılarak hesaplanır.

  • Düşük değer, değişkenin o bileşen tarafından mükemmel temsil edilmediği anlamına gelir. 
  • Yüksek değer ise o değişkenin o bileşende iyi temsil edildiği anlamına gelir.
fviz_cos2(data.pca, choice = "var", axes = 1:2)

Yukarıdaki kod, ilk iki temel bileşene göre her değişken için kare kosinüs değerini hesapladı. 

Aşağıdaki görselde, tahıllar, bakliyat–yağlı tohumlar, yumurta ve süt en yüksek cos2'ye sahip ilk dört değişkendir; dolayısıyla PC1 ve PC2'ye en çok katkı yapanlardır.

Temel bileşenlere değişkenlerin katkısı

Değişkenlerin temel bileşenlere katkısı

cos2 ile birleştirilmiş biplot 

Son iki görselleştirme yaklaşımı — biplot ve öznitelik önemi — tek bir biplotta birleştirilebilir; benzer cos2 puanlarına sahip öznitelikler benzer renklerde olur. Bu, fviz_pca_var fonksiyonu ince ayarlanarak şu şekilde yapılır:  

fviz_pca_var(data.pca, col.var = "cos2",
            gradient.cols = c("black", "orange", "green"),
            repel = TRUE)

Aşağıdaki biplottan:

  • Yüksek cos2 öznitelikler yeşil renkte: Tahıllar, bakliyat, yağlı tohumlar, yumurta ve süt.  
  • Orta cos2 öznitelikler turuncu renkte: beyaz et, nişastalı gıdalar, balık ve kırmızı et.
  • Son olarak, düşük cos2 öznitelikler siyah renkte: meyve ve sebzeler, 

Biplot ve cos2 skorunun kombinasyonu

Biplot ve cos2 skorunun kombinasyonu

Bileşen sayısı nasıl seçilir

Kaç temel bileşenin tutulacağına karar vermek için iki pratik kural yardımcı olur:

  • Dirsek kuralı: Scree plot'a bakın ve eğrinin keskin büküldüğü yeri bulun. Dirseğin sağındaki bileşenler ek varyansa çok az katkı yapar.
  • Varyans eşiği: Toplam varyansın %80 ila %90’ını açıklayacak kadar bileşeni tutun. Bu veri setinde ilk iki bileşen zaten yaklaşık %89’u açıklar.

 Sonuç

Bu eğitimde, temel bileşen analizinin ne olduğunu ve veri analizindeki önemini ele aldım. Matematiksel temellerden başlayıp uygulamalı R koduna kadar, protein veri seti üzerinde baştan sona bir PCA akışını — normalizasyon ve princomp() uygulamasından, scree plot, biplot ve cos2 görselleştirmelerini yorumlamaya kadar — birlikte yürüttük ve temel bileşenler ile orijinal değişkenler arasındaki ilişkiyi anladık.

Bu teknikleri, boyut indirgemek, gizli yapıları ortaya çıkarmak ve kendi veri setlerinizle daha temiz makine öğrenimi iş akışları kurmak için uygulayın.

Daha ileri gitmek için şu ilgili kaynakları keşfedin:

RCA (PCA) Analizi SSS

PCA özellik çıkarımı mıdır yoksa seçim midir?

PCA, özellik çıkarımı ve boyut indirgeme için gözetimsiz bir doğrusal dönüşümden yararlanır.

PCA analizini ne zaman kullanmalısınız?

Güçlü şekilde korele değişkenlerle çalışırken PCA kullanmanız önerilir. Korelasyon zayıfsa, PCA veriyi iyi azaltamayabilir.

PCA'nın sınırlamaları nelerdir?

Öncelikle, PCA yalnızca sayısal değişkenlerle çalışır. Ardından, değişkenler güçlü şekilde korele değilse iyi sonuç vermez. Ayrıca PCA, özelliklerin ölçeğine duyarlıdır ve aykırı değerlerden etkilenir.

PCA'nın başlıca avantajı nedir?

PCA birçok fayda içerir ve bunlarla sınırlı değildir: 

  • Gürültülü değişkenleri çıkararak veri içindeki değişken sayısını azaltır; bu da aşırı uyum riskini azaltabilir. 
  • Yalnızca ilgili özelliklere odaklanarak algoritmaların performansını iyileştirir.
  • Veriyi daha iyi anlamak için görselleştirmeyi iyileştirir.

Temel bileşen analizinde PC1 ve PC2 nedir?

PC1 ekseni, verinin en büyük değişimi sergilediği ilk ana yönü ifade eder. PC2 ekseni ise verinin en büyük değişimi sergilediği ikinci önemli yönü ifade eder. Ayrıca PC1, her zaman PC2'ye diktir (ortogonaldir).

Temel bileşen analizinin varsayımları nelerdir?

Temel bileşen analizinin yaptığı varsayımlar şunlardır:

  • Değişkenler arasında doğrusal bir birleşim vardır.
  • En yüksek varyansa sahip temel bileşenlerin daha önemli olduğunu ve sahip olmayanların veride gürültü içerdiğini varsayar.
  • Verideki daha fazla aykırı değer, deneysel hataları içerir.
  • PCA'dan elde edilen veri seti, orijinal verinin iyi bir temsilini verir.

R'de PCA nasıl yapılır?

R'de PCA yapmak için verinizi scale() ile normalize edin, ardından ya sayısal kararlılığı nedeniyle önerilen prcomp()'u ya da base R'deki princomp()'u veya FactoMineR paketindeki PCA() fonksiyonunu kullanın. Sonuçları görselleştirmek için factoextra paketindeki fviz_eig() ile scree plot, fviz_pca_var() ile biplot oluşturun.

R'de prcomp() ve princomp() arasındaki fark nedir?

prcomp(), sayısal olarak daha kararlı olan tekil değer ayrıştırmasını (SVD) kullanır ve genellikle tercih edilir. princomp() ise kovaryans matrisi üzerinde spektral ayrıştırma kullanır. İyi koşullandırılmış veriler için her ikisi de eşdeğer sonuçlar üretir, ancak çoğu pratik kullanımda prcomp() önerilir. Ana çıktı farkı: prcomp() için yükler $rotation içinde, princomp() için $loadings içinde saklanır.

R'de PCA makine öğrenimi ön işleminde kullanılabilir mi?

Evet. PCA, makine öğrenimi iş akışlarında yaygın olarak bir ön işleme adımı olarak kullanılır; giriş özelliklerinin sayısını azaltmak, yordayıcılar arasındaki çoklu doğrusal bağlantıyı gidermek ve model eğitimini hızlandırmak için. R'de, prcomp()'dan ana bileşen skorlarını $x üzerinden çıkarıp aşağı akıştaki modellere girdi olarak kullanabilirsiniz. caret ve tidymodels paketleri sırasıyla preProcess(method = "pca") ve step_pca() ile PCA'yı bir ön işleme adımı olarak destekler.

Kaç temel bileşenin tutulacağına nasıl karar veririm?

Bileşen sayısına karar vermeye yardımcı olan üç yaygın yaklaşım:

  • Dirsek kuralı: Scree plot'a bakın ve eğrinin büküldüğü yeri bulun — dirseğin sağındaki bileşenler giderek azalan varyans açıklar.
  • Varyans eşiği: Toplam varyansın %80–90'ını açıklayacak kadar bileşeni tutun.
  • Kaiser ölçütü: Özdeğeri 1'den büyük bileşenleri tutun (daha büyük veri setlerinde daha güvenilirdir).

R'de, her bileşenin açıkladığı varyansı görselleştirmek için factoextra paketindeki fviz_eig()'i kullanın.

Konular

R için Kurslar

Kurs

R’ye Giriş

4 sa
3M
Vektörler, listeler ve veri çerçeveleri de dahil olmak üzere R'da veri analizinin temellerini öğrenin ve gerçek veri setleriyle R pratiği yapın.
Ayrıntıları GörRight Arrow
Kursa Başla
Devamını GörRight Arrow