Kurs
Veri etiketleme pahalı, yavaş, alana özgüdür ve çoğu ekibin elinde yeterince etiketli veri yoktur.
Bir modeli eğitmek için her zaman etiketli veriye ihtiyaç vardır, ancak doğru şekilde etiketlemek zaman alır ve çoğu zaman alan uzmanı gerektirir. Örneğin, tıbbi görüntüler için radyologlara, hukuki belgeler için avukatlara ihtiyaç duyulur. Duygu analizi gibi basit görünen görevlerde bile birinin oturup her örneği tek tek etiketlemesi gerekir. Sonuç olarak, çoğu ML ekibi çok küçük bir etiketli veri kümesi ve kullanamadıkları çok büyük miktarda etiketsiz veriyle baş başa kalır.
Yarı denetimli öğrenme bunu her ikisiyle de eğiterek çözer. Küçük etiketli veri kümenizi büyük etiketsiz kümenizle birleştirir ve modelin örüntüleri öğrenmesini sağlar.
Bu makalede yarı denetimli öğrenmenin nasıl çalıştığını açıklayacak, en yaygın teknikleri ele alacak ve ne zaman kullanmanın mantıklı olduğunu göstereceğim.
Peki tam olarak Denetimli Makine Öğrenimi nedir? Temel denetimli öğrenme algoritmalarının nasıl çalıştığını öğrenmek için blog yazımızı okuyun.
Yarı Denetimli Öğrenme Nedir?
Yarı denetimli öğrenme, etiketli ve etiketsiz verilerin karışımıyla eğitim yapan bir makine öğrenimi yaklaşımıdır.
İsminin de ima ettiği gibi denetimli ve denetimsiz öğrenmenin arasında yer alır. Denetimli öğrenme her örneğin etiketli olmasını ister. Denetimsiz öğrenme ise hiç etiket olmadan çalışır. Yarı denetimli öğrenme, az sayıda etiketli örneği çok daha büyük bir etiketsiz örnek koleksiyonuyla birlikte kullanır.
Etiketli veriler modele neye bakması gerektiğini söyler. Etiketsiz veriler ise verinin nasıl yapılandığını gösterir. Birleştirildiklerinde, modelin tek başına herhangi bir türden daha fazlasını öğrenmesini sağlarlar.
Yarı Denetimli Öğrenme Nasıl Çalışır
Süreç, küçük bir etiketli veri kümesiyle başlar - doğru çıktıyı bildiğiniz birkaç yüz örnek olabilir.
Ardından çok daha büyük bir etiketsiz veri kümesini devreye alırsınız. Bu, üzerinde etiket bulunmayan binlerce hatta milyonlarca örnek olabilir. Model bu etiketsiz veriyi, veri noktaları arasındaki temel örüntüleri ve ilişkileri öğrenmek için kullanır.
Etiketli örnekler de bu yapıyı doğru yanıtlara yönlendirir. Model, etiketsiz örneklerden verinin nasıl organize olduğunu zaten öğrenmiştir. Etiketler, bu yapının hangi bölgelerinin hangi çıktılara karşılık geldiğini söyler.
İşte hızlı bir örnek.
Diyelim ki e-postaları spam veya spam değil diye sınıflandırıyorsunuz. 100 etiketli e-postanız ve 10.000 etiketsiz e-postanız var. Model önce kelime örüntülerine ve yapısına göre e-postaların nasıl gruplaştığını öğrenir. Sonra bu 100 etiketli örneği kullanarak hangi grupların spam, hangilerinin spam olmadığını çıkarır. Sonuç, yalnızca bu 100 etiketli e-postayla eğitilmiş bir modele göre daha iyi performans gösteren bir modeldir.
Yarı Denetimli vs Denetimli vs Denetimsiz Öğrenme
Yarı denetimli öğrenmenin diğer ikisine kıyasla nerede konumlandığını görmek için her bir öğrenme yaklaşımını kısaca inceleyelim.
Denetimli öğrenme
Denetimli öğrenme, tamamen etiketli verilerle eğitim yapar. Veri kümesindeki her örneğin bir girdisi ve bilinen bir çıktısı vardır. Model bu ikisi arasındaki eşlemeyi öğrenir.
Elinizde yeterince etiketli örnek olduğunda iyi çalışır. Ancak “yeterince”, göreve bağlı olarak binlerce hatta milyonlarca örnek anlamına gelebilir. Bu da üretmesi pahalıdır ve bazen imkânsızdır.
Denetimsiz öğrenme
Denetimsiz öğrenme hiç etiket kullanmaz. Model ham veriye bakar ve yapıyı kendi başına bulur. Klasik örnekler kümelenme ve boyut indirgeme yöntemleridir.
Artısı, hiçbir etiketli veriye ihtiyaç duymamanızdır. Eksisi ise modelin aslında neyle ilgilendiğiniz hakkında hiçbir fikrinin olmamasıdır. Elbette örüntüler bulur, ancak bu örüntüler sizin çözmeye çalıştığınız problemle örtüşmeyebilir.
Yarı denetimli öğrenme
Yarı denetimli öğrenme ikisinin en iyi yanlarını birleştirir. Görevi tanımlamak için küçük bir etiketli veri kümesi ve verinin yapısını öğrenmek için büyük bir etiketsiz veri kümesi verirsiniz.
Etiketli veriler modeli doğru yöne işaret eder. Etiketsiz veriler farklı örneklerin birbirleriyle nasıl ilişkili olduğunu gösterir. Bu kombinasyon, yalnızca küçük etiketli kümede denetimli öğrenmeden genellikle daha iyi sonuç verir; çünkü model, etiketsiz veri olmadan kaçıracağı örüntüleri tespit eder.
İşte bu üç yaklaşımın hızlı bir karşılaştırması:

Makine öğrenimi yaklaşımlarının karşılaştırma tablosu
Özetle, etiketleme çok zaman alıyorsa ve çok sayıda etiketsiz veriniz varsa, yarı denetimli yaklaşımı düşünmeye değer. Şimdi yaygın tekniklere bakalım.
Yaygın Yarı Denetimli Öğrenme Teknikleri
Yarı denetimli öğrenmeyi uygulamanın birkaç yolu vardır. Her teknik etiketli-etiketsiz ayrımını farklı ele alır; gelin en yaygın olanlarını inceleyelim.
Kendinden eğitim (Self-training)
Bu en basit yaklaşımdır. Modeli etiketli veriniz üzerinde eğitir, ardından etiketsiz örnekler için etiketler tahmin etmekte kullanırsınız. En güvenilir tahminler yarı etiketler (pseudo-labels) olarak etiketli kümeye eklenir ve modeli genişletilmiş veri kümesinde yeniden eğitirsiniz.
Model gelişmeyi durdurana veya etiketsiz veriniz bitene kadar bu süreci tekrar edersiniz. Uygulaması kolaydır; ancak model başta yanlış bir tahmin yaparsa, bu hata artık veri kümenizin bir parçasıdır.
Birlikte eğitim (Co-training)
Birlikte eğitim, tek bir model yerine iki model kullanır. Her model verinin farklı bir “görünümü” üzerinde eğitilir. Bunu farklı özellik alt kümeleri olarak düşünebilirsiniz.
Örneğin, web sayfalarını sınıflandırdığınızı varsayın. Bir model sayfadaki metne bakarken, diğeri ona işaret eden bağlantıların çapa metnine bakar. Her model, diğerine etiketsiz örnekleri etiketler ve birden fazla turda birbirlerini eğitirler.
Fikir şudur: Bir modelin güçlü yanları diğerinin zayıf yanlarını kapatır. Her iki görünüm de tek başına yeterli bilgi içeriyorsa, birlikte eğitim, bir modelin hatalarını diğerinin düzeltebilmesi nedeniyle kendinden eğitime göre daha iyi sonuç verebilir.
Etiket yayılımı (Label propagation)
Bu yaklaşım, her veri noktasının bir düğüm olduğu ve benzer noktaların kenarlarla bağlandığı bir grafik kurar. Etiketler daha sonra etiketli düğümlerden komşularına “yayılır”.
Varsayım, benzer veri noktalarının aynı etiketi paylaşmasıdır. Etiketli bir örnek, etiketsiz örneklerden oluşan bir kümeye yakınsa, bu etiketsiz örneklerin de muhtemelen aynı sınıfa ait olduğu düşünülür. Etiketler, her düğüm bir etiket alıncaya kadar grafik boyunca yayılır.
Verinizin belirgin bir küme yapısı olduğunda iyi çalışır; ancak sınıflar arasındaki sınırlar belirsizse başarısız olabilir.
Yarı denetimli sinir ağları
Derin öğrenmenin kendine özgü yarı denetimli teknikleri vardır. En yaygın olanlardan birkaçı şunlardır:
- Tutarlılık düzenlemesi (Consistency regularization): Girdi üzerinde küçük bozunumlar (gürültü veya arttırma) yapıldığında bile modelin aynı çıktıyı üretmesini teşvik eder. Fikir şudur: İyi bir model, girdiyi biraz değiştirmeniz nedeniyle tahminini değiştirmemelidir
- Sinir ağlarında yarı etiketleme (Pseudo-labeling): Kendinden eğitim gibi çalışır ancak yığın (batch) seviyesinde. Model, eğitim sırasında etiketsiz örnekler için etiketler üretir ve bunları kayıp fonksiyonunda gerçek etiketlerle birlikte kullanır.
FixMatch ve MixMatch gibi yöntemler bu fikirleri birleştirir ve çok az sayıda etiketli örnekle yapılan kıyaslamalarda iyi sonuçlar göstermiştir.
Yarı Denetimli Öğrenmenin Önemi
Yarı denetimli öğrenmeyle ilgilenmenizin bir nedeni var: maliyet.
Veri etiketlemek; veri, alan uzmanları, zaman ve para gerektirir. Yarı denetimli öğrenme, daha az etiketle daha fazlasını elde ederek maliyeti düşürür.
Bir de performans var. 500 etiketli ve 50.000 etiketsiz örnekle eğitilen bir model, çoğu zaman yalnızca o 500 etiketli örnekle eğitilen aynı modeli geride bırakır. Etiketsiz veriler, verinin nasıl dağıldığına dair daha eksiksiz bir tablo sunar ve bu da daha iyi tahminlere yol açar.
Ve çoğu veri kümesinin gerçeği de bu. Etiketsiz veri her yerde. Her şirketin etiketlemeye kimsenin zaman ayırmadığı günlükleri, görselleri, belgeleri ve kayıtları var. Yarı denetimli öğrenme, bu verilerden faydalı bir şey çıkarmanızı sağlar.
Yarı Denetimli Öğrenmenin Uygulama Alanları
Yarı denetimli öğrenme, etiketlerin zor elde edildiği alanlarda karşımıza çıkar.
Görüntü sınıflandırma en yaygın kullanım alanlarından biridir. Binlerce görüntüyü etiketlemek zahmetlidir, ancak etiketsiz görüntü toplamak kolaydır. Yarı denetimli yöntemler, yalnızca birkaç yüz etiketli görüntüyle doğru sınıflandırıcılar eğitmenize olanak tanır.
Metin sınıflandırma da aynıdır. Milyonlarca müşteri yorumu veya destek bileti olabilir, ancak yalnızca küçük bir kısmı elle etiketlenmiştir. Yarı denetimli öğrenme, tüm veri kümesine genelleme yapabilen sınıflandırıcılar oluşturmanıza yardımcı olabilir.
Konuşma tanıma bir başka ilginç alandır. Sesi elle yazıya dökmek çok emek ister, ancak ham ses verisi bolca bulunur. Etiketsiz kayıtlar, modelin akustik örüntüleri öğrenmesine yardımcı olurken, yazıya dökülmüş örnekler doğru eşlemeleri öğretir.
Tıbbi veri analizi alan-özgü bir görev olarak mükemmeldir. Bir doktordan taramaları veya hasta kayıtlarını etiketlemesini istemek pahalı ve yavaştır; çünkü daha önemli işleri vardır. Ancak hastanelerde büyük miktarda etiketsiz klinik veri vardır. Yarı denetimli yöntemler, tam etiketli bir veri kümesine ihtiyaç duymadan tanısal modeller kurmaya yardımcı olur.
Yarı Denetimli Öğrenmenin Avantajları
Yarı denetimli öğrenmeyi birçok proje için uygun kılan unsurlar şunlardır:
- Daha az etiketli veriye ihtiyaç duyar: Tamamen denetimli bir yaklaşımın gerektirdiği etiketlerin yalnızca bir kısmıyla iyi sonuçlar elde edebilirsiniz
- Genelleme yeteneğini artırır: Etiketsiz veriler modeli daha geniş bir örnek yelpazesine maruz bırakır; bu da görülmemiş verilerde daha iyi performansa yardımcı olur
- Maliyet etkindir: Etiketlemenin pahalı veya zaman alıcı olduğu - ki çoğunlukla böyledir - durumlarda, yarı denetimli öğrenme elinizdekini azami ölçüde kullanarak zaman ve bütçe kazandırır
Dolayısıyla etiketlerden daha fazla veriniz varsa, yarı denetimli öğrenmeyi düşünmenin zamanı gelmiştir.
Yarı Denetimli Öğrenmenin Sınırlamaları
Yarı denetimli öğrenmenin bilmeniz gereken bazı ödünleşimleri vardır.
- Etiketsiz verinin kalitesi önemlidir: Etiketsiz veriniz, etiketli verinizle aynı dağılımdan gelmiyorsa model yanlış örüntüler öğrenir
- Yanlış yarı etiketler: Kendinden eğitim gibi yöntemlerde, güvenilir ama yanlış bir tahmin, gerçeğin kendisiymiş gibi muamele görür. Model bu kötü etikete dayanarak eğitilir, bu da hatayı pekiştirir ve gelecekteki tahminleri kötüleştirir
- Denetimli öğrenmeden daha karmaşıktır: Ayarlanacak daha fazla hiperparametre, alınacak daha çok tasarım kararı ve yanlış gidebilecek daha çok şey vardır. Denetimli bir model kurmak ve açıklamak daha basittir. Yarı denetimli yöntemler, özellikle etiketli veri kümeniz zaten yeterince büyükse, her zaman değmeyecek bir karmaşıklık ekler
Bunların hiçbiri oyundan düşüren türden değildir; sadece başlamadan önce bilmeniz gereken noktalar.
Pratikte Yarı Denetimli Öğrenme (Python Örneği)
scikit-learn'ün LabelSpreading algoritmasını kullanarak basit bir Python örneğiyle yarı denetimli öğrenmeyi uygulamada görelim.
Bir veri kümesi oluşturacağım, yalnızca küçük bir kısmını etiketleyeceğim ve gerisini modelin çıkarmasına izin vereceğim.
Veriyi hazırlama
Önce bir veri kümesi oluşturup, yarı denetimli bir senaryoyu taklit etmek için etiketlerin çoğunu maskeleyeyim:
import numpy as np
from sklearn.datasets import make_moons
from sklearn.semi_supervised import LabelSpreading
from sklearn.metrics import accuracy_score
# Generate a dataset with 500 samples
X, y_true = make_moons(n_samples=500, noise=0.2, random_state=42)
# Keep only 10%, mask the rest as -1
rng = np.random.RandomState(42)
labeled_idx = rng.choice(500, size=50, replace=False)
y_train = np.full(500, -1) # -1 means unlabeled in scikit-learn
y_train[labeled_idx] = y_true[labeled_idx]
print(f"Labeled samples: {np.sum(y_train != -1)}")
print(f"Unlabeled samples: {np.sum(y_train == -1)}")

Etiketli ve etiketsiz veri örneklerinin sayısı
scikit-learn'de -1 bir örneği etiketsiz olarak işaretler. 500 örneğin yalnızca 50'si etiketlidir. Model geriye kalan 450'sini çözmek zorundadır.
Eğitim ve tahmin
Şimdi bir LabelSpreading modeli eğitip etiketsiz verileri ne kadar iyi etiketlediğine bakalım:
model = LabelSpreading(kernel="knn", n_neighbors=7)
model.fit(X, y_train)
y_pred = model.transduction_
# Check accuracy on the originally unlabeled samples
unlabeled_mask = y_train == -1
accuracy = accuracy_score(y_true[unlabeled_mask], y_pred[unlabeled_mask])
print(f"Accuracy on unlabeled samples: {accuracy:.2%}")

Etiketsiz örneklerde doğruluk
Model, verilerin yalnızca %10'unu etiketli örnek olarak kullanarak, etiketsiz örneklerin çoğunu doğru etiketledi. Temel fikir bu.
Sonuçların görselleştirilmesi
Doğruluk yüksek - neredeyse %96 - ancak hangi örneklerin yanlış sınıflandırıldığını görsel olarak inceleyelim:

Gerçek ve tahmin edilen etiketler
Tahmin edilen etiketler, model yalnızca 500 örnekten 50 etiketli örnek görmüş olmasına rağmen, gerçek etiketlerle neredeyse mükemmel eşleşiyor. Sağdaki grafikte kırmızı renkle gösterilenler yanlış sınıflandırılanlardır.
Yarı Denetimli Öğrenmede Yaygın Hatalar
Yarı denetimli öğrenmenin ne kadar güçlü olabileceğini gördünüz; ancak her senaryo için mükemmel değildir. İşte en yaygın hatalar ve bunlardan nasıl kaçınabileceğiniz.
- Etiketsiz verinin her zaman yardımcı olduğunu varsaymak: Yardımcı olmaz. Etiketsiz veriler, etiketli verilerinizden farklı bir dağılımdan geliyorsa, model gerçek görevinize uymayan örüntüler öğrenir. Etiketli ve etiketsiz verilerinizin aynı kaynaktan geldiğini ve aynı problemi temsil ettiğini her zaman kontrol edin
- Zayıf model başlatma: Yarı denetimli yöntemler, başlangıçtaki denetimli bir modelin üzerine inşa edilir. İlk model zayıfsa - çok az örnekle eğitilmişse veya kötü hiperparametrelere sahipse - sonrasındaki her adım bu sorunları devralır. Etiketsiz veri eklemeden önce elde edebileceğiniz en iyi denetimli temel modeli oluşturun
- Yarı etiketlere aşırı güven: Yarı etiketler, onları üreten model kadar iyidir. Her yarı etikete güvenirseniz, hatalar eğitim turları boyunca katlanabilir. Yüksek bir güven eşiği belirleyin ve yalnızca modelin emin olduğu yarı etiketleri kullanın. Kalanları atın
- Veri dağılımını görmezden gelmek: Yarı denetimli yöntemler, etiketsiz verinin yapısının etiketler hakkında faydalı bir şey söylediğini varsayar. Veriniz belirgin kümelere sahip değilse veya karar sınırları düzgün değilse bu varsayım geçerli olmaz
Bu dört hatadan kaçınmak için güçlü bir denetimli temel ile başlayın, etiketsiz veriyi kademeli olarak ekleyin ve her adımda performansın gerçekten iyileşip iyileşmediğini kontrol edin.
Yarı Denetimli Öğrenmeyi Ne Zaman Kullanmalı
Yarı denetimli öğrenme şu üç senaryoda mantıklıdır:
- Etiketli veri sınırlı olduğunda: Küçük bir etiketli veri kümeniz varsa ve daha fazla etiket toplamak pahalı ya da yavaşsa, yarı denetimli öğrenme o son biraz doğruluğu sıkıştırıp çıkarır
- Etiketsiz veri bol olduğunda: Bunun işe yaraması için büyük miktarda etiketsiz veriye ihtiyaç vardır. Yalnızca küçük bir etiketsiz kümeye sahipseniz, model fark yaratacak kadar yapı öğrenemez. Etiketli ve etiketsiz küme boyutları arasındaki fark ne kadar büyükse, yarı denetimli yöntemler o kadar çok yardımcı olur
- Verinizin net bir yapısı olduğunda: Yarı denetimli öğrenme, benzer veri noktalarının aynı etiketi paylaştığı durumlarda en iyi çalışır. Veriniz kümeler oluşturuyorsa veya sınıflar arasında düzgün sınırlar varsa, etiketsiz veriler bu örüntüleri çok daha belirgin hale getirir. Sınıflar net bir ayrım olmadan iç içe geçmişse, etiketsiz veriler pek bir şey katmaz.
Bu üç koşul da geçerliyse, yarı denetimli öğrenmeyi denemeye değerdir.
Sonuç
Basitçe söylemek gerekirse, yarı denetimli öğrenme her şeyi etiketlemeden daha iyi modeller eğitmenin bir yolunu sunar. Küçük bir etiketli veri kümesini büyük bir etiketsiz veri kümesiyle birleştirir ve modelin her ikisinden de öğrenmesine izin verirsiniz.
Faydaları açıktır: daha az etiketleme zamanı, pazara daha hızlı çıkış, daha düşük maliyetler ve yalnızca sınırlı etiketlerle eğitime kıyasla daha iyi performans. Ve tıp, hukuk ve NLP gibi etiketlemenin alan uzmanı gerektirdiği alanlarda bu büyük bir fark yaratır.
Çok büyük miktarda etiketsiz veriniz varsa, yarı denetimli öğrenmeyi deneyin. İyi bir denetimli temel ile başlayın, verinizin yapısına uyan bir teknik seçin ve etiketsiz verinin gerçekten yardımcı olup olmadığını ölçün. scikit-learn'ün LabelSpreading iyi bir ilk denemedir; ancak FixMatch ve MixMatch gibi yöntemlerle de deneyler yapın.
2026'da işe hazır hale gelmek istiyorsanız Machine Learning Engineer track programımıza katılın. Temellerden MLOps'a kadar her şeyi kapsar.
SSS
Yarı denetimli öğrenme nedir?
Yarı denetimli öğrenme, modelleri küçük bir etiketli veri kümesi ve büyük bir etiketsiz veri kümesi üzerinde eğiten bir makine öğrenimi yaklaşımıdır. Etiketli veriler modele ne araması gerektiğini söylerken, etiketsiz veriler verinin genel yapısını anlamasına yardımcı olur. Böylece, yalnızca etiketli veriyle eğitime göre daha iyi sonuçlar elde edersiniz.
Yarı denetimli öğrenme, denetimli ve denetimsiz öğrenmeden nasıl farklıdır?
Denetimli öğrenme, her örneğin bilinen bir çıktısı olduğu yalnızca etiketli verileri kullanır. Denetimsiz öğrenme, yalnızca etiketsiz verileri kullanır ve örüntüleri kendi başına bulur. Yarı denetimli öğrenme ise görevi tanımlamak için küçük bir etiketli veri kümesi ve verinin yapısını öğrenmek için büyük bir etiketsiz veri kümesi kullanır.
Yarı denetimli öğrenmeyi ne zaman kullanmalıyım?
Etiketli veriniz az, etiketsiz veriniz çok ve verinizin doğal kümeler ya da sınıflar arasında düzgün sınırlar gibi net bir yapısı olduğunda kullanın. Etiketleme pahalıysa veya alan uzmanı gerektiriyorsa - örneğin tıbbi görüntüleme ya da hukuki metin analizi - yarı denetimli öğrenme, her şeyi etiketlemeden doğru modeller kurmanıza yardımcı olur.
Yarı denetimli öğrenmede kendinden eğitim (self-training) nedir?
Kendinden eğitim, modelin önce etiketli veride eğitildiği, ardından etiketsiz örnekler için etiketler tahmin ettiği bir tekniktir. En güvenilir tahminler yarı etiketler olarak etiketli kümeye eklenir ve model genişletilmiş veri kümesinde yeniden eğitilir. Risk şudur: Başta yapılan yanlış tahminler sonraki turlarda pekişebilir; bu nedenle yüksek bir güven eşiği belirlemelisiniz.

