Kurs

Bu rehberde istatistik, makine öğrenmesi, kodlama (Python, SQL) ve ürün sezgisi alanlarında en sık sorulan veri bilimci mülakat sorularını derledim. Bu soruları çalışmak, ister staj arayan bir öğrenci olun ister bir sonraki rolünüze hedeflenen bir profesyonel, tüm teknik mülakat aşamalarını geçmenize yardımcı olacaktır.
Özet
- Veri bilimci mülakatları beş alanı test eder: istatistik & olasılık, makine öğrenmesi, kodlama (Python/SQL), davranışsal ve ürün sezgisi.
- Öne çıkan teknik konular: doğrusal regresyon varsayımları, aşırı öğrenmeyi önleme, özellik seçimi yöntemleri (filtre, sarmalayıcı, gömülü), boyut indirgeme ve A/B testleri.
- Kodlama aşamaları için Python (pandas, regex, liste işlemleri) ve SQL (toplamalar, tarih filtreleme, pencere fonksiyonları) pratiği yapın.
- Davranışsal sorular için iletişim, çatışma çözümü ve belirsizlikle başa çıkma konularında STAR yöntemli yanıtlar hazırlayın.
- Büyük teknoloji şirketleri (Meta, Google, Amazon) temel teknik becerilerin yanı sıra metrik analizi, ürün sezgisi ve uygulamalı istatistik de test eder.
- Tüm aşamalardaki çalışma planınızı yapılandırmak için Veri Bilimi Mülakat Hazırlığı rehberimizi kullanın.
Teknik Olmayan Veri Bilimi Mülakat Soruları
Önce mülakatta karşınıza çıkabilecek genel yetkinlik sorularına bakalım. Bunlar, bir veri bilimci olarak ihtiyaç duyacağınız bazı yumuşak becerileri test eder:
Teknik geçmişi olmayan birine karmaşık bir veri kavramını açıklamanız gerektiği bir zamanı anlatın. Anladığından nasıl emin oldunuz?
Bu soru, iletişim becerilerinizi ve karmaşık konuları sadeleştirme yeteneğinizi ölçer. İşte örnek bir yanıt:
Önceki görevimde, pazarlama ekibimize makine öğrenmesi kavramını açıklamam gerekti. Farklı meyve türlerini tanımayı öğrenen bir çocuğa öğretme benzetmesini kullandım. Bir çocuğa öğrenmesi için birçok örnek gösterdiğimiz gibi, bir makine öğrenmesi modeli de verilerle eğitilir. Bu benzetme, karmaşık bir kavramı daha ilişkilenebilir ve anlaşılır hale getirdi.
Zor bir ekip arkadaşıyla çalışmak zorunda kaldığınız bir projeyi anlatın. Durumu nasıl yönettiniz?
Bu soru, ekip çalışması ve çatışma çözme becerilerinizi araştırır. Şöyle bir yanıt verebilirsiniz:
Bir projede, çalışma tarzı benden çok farklı olan bir meslektaşımla çalıştım. Farklılıklarımızı çözmek için onun bakış açısını anlamak üzere bir toplantı ayarladım. Proje hedeflerinde ortak bir zemin bulduk ve ortak bir yaklaşım üzerinde anlaştık. Bu deneyim, ekip çalışmasında açık iletişimin ve empati kurmanın değerini öğretti.
Sıkı bir teslim tarihine yetişmeniz gereken bir zamanı paylaşır mısınız? Görevlerinizi nasıl yönettiniz ve zamanında teslim ettiniz?
Bu soru zaman yönetimi ve önceliklendirme ile ilgilidir. Örnek bir yanıt:
Bir keresinde çok sıkı bir teslim tarihi olan bir analiz sunmam gerekiyordu. Projenin en kritik kısımlarına öncelik verdim, planımı ekiple paylaştım ve verimli yürütmeye odaklandım. Görevi parçalara ayırarak ve mini teslim tarihleri belirleyerek projeyi kaliteyi düşürmeden zamanında tamamladım.
Analizinizde önemli bir hata yaptığınız oldu mu? Bunu nasıl yönettiniz ve ne öğrendiniz?
Burada mülakatçı, hataları üstlenme ve onlardan ders çıkarma becerinizi görmek ister. Şöyle yanıtlayabilirsiniz:
Bir seferinde, bir veri modelinin sonuçlarını yanlış yorumladım. Hata yaptığımı fark eder etmez ekibimi bilgilendirdim ve verileri yeniden analiz ettim. Bu deneyim, sonuçları iki kez kontrol etmenin ve işyerinde şeffaflığın önemini öğretti.
Veri bilimi alanındaki son trend ve gelişmelerden nasıl haberdar oluyorsunuz?
Bu, sürekli öğrenmeye ve alanda güncel kalmaya olan bağlılığınızı gösterir. Örnek yanıt:
Sektör dergilerini okuyarak, web seminerlerine katılarak ve çevrimiçi forumlara iştirak ederek güncel kalıyorum. Ayrıca her hafta yeni araç ve teknikleri denemek için zaman ayırıyorum. Bu, sadece güncel kalmama değil, aynı zamanda becerilerimi sürekli geliştirmeme de yardımcı oluyor.
Belirsiz veya sürekli değişen gereksinimleri olan bir projede çalışmanız gerektiği bir zamanı anlatın. Nasıl uyum sağladınız?
Bu soru, uyum sağlama ve problem çözme becerilerinizi ölçer. Örnek olarak şöyle diyebilirsiniz:
Önceki bir projede gereksinimler sık sık değişiyordu. Paydaşlarla açık iletişimi sürdürerek ihtiyaçlarını anlamaya çalıştım. Ayrıca yaklaşımımda daha esnek olmak için çevik metodolojiler kullandım; bu da değişiklikleri etkili şekilde karşılamama yardımcı oldu.
Veriye dayalı karar almayı başka hususlarla (etik kaygılar, iş ihtiyaçları vb.) dengelemeniz gereken bir durumu anlatın.
Bu, verinin ötesindeki farklı boyutları da gözetebilme becerinizi değerlendirir. Örnek bir yanıt:
Son görevimde, veriye dayalı karar alma ihtiyacını etik kaygılarla dengelemem gerekti. Tüm veri kullanımının etik standartlara ve gizlilik yasalarına uyduğundan emin oldum ve gerektiğinde alternatifler sundum. Bu yaklaşım, etik sınırları gözetirken bilinçli kararlar almaya yardımcı oldu.
Genel Veri Bilimi Mülakat Soruları
Doğrusal Regresyon için gerekli varsayımlar nelerdir?
Doğrusal regresyondaki dört varsayım şunlardır:
- Doğrusal İlişki: bağımsız değişken x ile bağımlı değişken y arasında doğrusal bir ilişki olmalıdır.
- Bağımsızlık: ardışık artıklar arasında korelasyon olmamalıdır. Bu durum çoğunlukla zaman serilerinde görülür.
- Homoskedastisite: x’in her seviyesinde varyans sabit olmalıdır.
- Normallik: artıklar normal dağılmalıdır.

Görsel: Statology
Doğrusal modellerin kavramlarını ve uygulamalarını Python ile Doğrusal Modellemede Giriş kursumuzu alarak keşfedebilirsiniz.
Bir veri kümesinde çok sayıda eksik değer varsa nasıl ele alırsınız?
Eksik veriyi ele almanın çeşitli yolları vardır. Şunları yapabilirsiniz:
- Eksik değer içeren satırları düşürmek.
- Çok sayıda eksik değer içeren sütunları düşürmek.
- Eksik değerleri bir metin ya da sayısal sabit ile doldurmak.
- Eksik değerleri sütunun ortalaması ya da medyanı ile değiştirmek.
- Eksik değeri tahmin etmek için çoklu regresyon analizleri kullanmak.
- Eksik değerleri ortalama benzetim değerleri ve rastgele hatalarla değiştirmek için birden fazla sütunu kullanmak.
Eksik veriyi teşhis etmeyi, görselleştirmeyi ve çözmeyi R ile Atama Yöntemleriyle Eksik Veri Yönetimi kursunu tamamlayarak öğrenin.
Sonuçlarınızın teknik yönlerini teknik olmayan paydaşlara nasıl açıklarsınız?
Öncelikle paydaşın geçmişini öğrenmeli ve buna göre dilinizi uyarlamalısınız. Örneğin finans geçmişi varsa, finansta yaygın kullanılan terimleri öğrenip karmaşık metodolojiyi bu terimlerle açıklayın.
İkinci olarak, bolca görsel ve grafik kullanın. İnsanlar görsel öğrenir; yaratıcı iletişim araçlarıyla çok daha iyi kavrarlar.

Görsel: Yazar
Üçüncü olarak, sonuçlar üzerinden konuşun. Metodolojileri veya istatistikleri anlatmaya çalışmayın. Analizden elde edilen bilgiyi işin ya da iş akışının nasıl iyileştirileceğine odaklanarak aktarın.
Son olarak, soru sormaları için cesaretlendirin. İnsanlar bilmedikleri konularda soru sormaktan çekinebilir. Onları diyaloğa dahil ederek iki yönlü bir iletişim kanalı oluşturun.
Kendi SQL raporlarınızı ve panolarınızı oluşturmayı SQL’de Raporlama kursunu alarak öğrenin.
p-değeri nedir ve nasıl yorumlanır?
p-değeri, yokluk hipotezinin doğru olduğu varsayımı altında, toplanan veriler kadar veya ondan daha uç sonuçları gözlemleme olasılığını ölçer.
p-değeri anlamlılık düzeyinizin (genellikle 0,05) altındaysa yokluk hipotezini reddetmenize yönelik kanıt sunar. Örneğin p-değeri 0,03 olan bir A/B testinde, yokluk hipotezi doğruyken bu sonucun görülme olasılığı yalnızca %3’tür; bu da varyantın gerçek bir etki yarattığını düşündürür.
Yaygın bir yanlış anlama: p-değeri, yokluk hipotezinin doğru olma olasılığını ölçmez; yalnızca verilerin bu hipotezle ne kadar uyumlu olduğunu gösterir.
Tip I hata ile Tip II hata arasındaki fark nedir?
Bunlar, hipotez testinde iki tür hatadır:
- Tip I hata (yanlış pozitif): Yokluk hipotezi doğruyken onu reddetmek. Anlamlılık düzeyi (α) ile kontrol edilir. Örnek: Yeni bir modelin daha iyi performans gösterdiği sonucuna varmak ama gerçekte göstermemesi.
- Tip II hata (yanlış negatif): Yokluk hipotezi yanlışken onu reddedememek. İstatistiksel güç (1 − β) ile kontrol edilir. Örnek: Gerçekte iyileşme varken modelin iyileşme göstermediği sonucuna varmak.
α’yı düşürmek Tip I hataları azaltır ancak Tip II hataları artırır. Doğru denge, kullanım durumunuzda her hatanın maliyetine bağlıdır—özellikle dolandırıcılık tespiti, tıbbi teşhis veya A/B test kararlarında kritiktir.
Daha fazlası için Hipotez Testi Kolaylaştırıldı eğitimimize göz atın.
Veri Bilimi Teknik Mülakat Soruları
Doğru değişkenleri seçmek için kullanılan özellik seçimi yöntemleri nelerdir?
Özellik seçimi için üç ana yöntem vardır: filtre, sarmalayıcı ve gömülü yöntemler.
Filtre Yöntemleri
Filtre yöntemleri genellikle ön işleme adımlarında kullanılır. Bu yöntemler, herhangi bir makine öğrenmesi algoritmasından bağımsız olarak veri setinden özellik seçer. Hızlıdırlar, daha az kaynak gerektirirler ve yinelenen, ilişkili ve gereksiz özellikleri kaldırırlar.

Görsel: Yazar
Kullanılan bazı teknikler:
- Varyans Eşiği
- Korelasyon Katsayısı
- Ki-Kare testi
- Karşılıklı Bağımlılık
Sarmalayıcı Yöntemler
Sarmalayıcı yöntemlerde, model özelliklerin bir alt kümesiyle yinelemeli olarak eğitilir. Eğitilen modelin sonuçlarına göre daha fazla özellik eklenir veya çıkarılır. Filtre yöntemlerinden daha hesaplamalı maliyetlidirler ancak daha iyi model doğruluğu sağlarlar.

Görsel: Yazar
Kullanılan bazı teknikler:
- İleri seçim
- Geriye doğru eleme
- Çift yönlü eleme
- Yinelemeli eleme
Gömülü Yöntemler
Gömülü yöntemler, filtre ve sarmalayıcı yöntemlerin niteliklerini birleştirir. Özellik seçimi algoritması, öğrenme algoritmasının bir parçası olarak harmanlanır ve modele yerleşik bir özellik seçimi yöntemi sağlar. Bu yöntemler, filtre yöntemleri gibi hızlı, sarmalayıcı yöntemler gibi doğru ve ayrıca özellik kombinasyonlarını da dikkate alır.

Görsel: Yazar
Kullanılan bazı teknikler:
- Düzenlileştirme
- Ağaç tabanlı yöntemler
En sık test edilen özellik seçimi tekniklerini Python Özellik Seçimi Eğitimi içeriğimizde öğrenin.
Modelinizde aşırı öğrenmeyi nasıl önleyebilirsiniz?
Aşırı öğrenme, bir modelin eğitim veri setinde aşırı iyi öğrenmesi ancak test ve doğrulama veri setlerinde başarısız olması durumudur.
Aşırı öğrenmeyi şu yollarla önleyebilirsiniz:
- Modeli basit tutarak: model karmaşıklığını azaltmak, daha az değişkeni hesaba katmak ve sinir ağlarında parametre sayısını azaltmak.
- Çapraz doğrulama tekniklerini kullanmak.
- Modeli daha fazla veriyle eğitmek.
- Örnek sayısını artıran veri çoğaltma (data augmentation) kullanmak.
- Topluluk yöntemleri kullanmak (Bagging ve Boosting)
- Aşırı öğrenmeye yol açması muhtemel belirli model parametrelerini cezalandıran düzenlileştirme teknikleri kullanmak.
Aşırı öğrenmeyi önlemeye dair daha kapsamlı bir rehber için Aşırı Öğrenme Nedir? ve Makine Öğrenmesinde Düzenlileştirme yazılarımıza göz atın.
SQL’de farklı ilişki türlerini listeleyin
SQL ilişkilerinin dört ana türü vardır:
- Bire bir: Bir tablodaki her kaydın diğer bir tabloda yalnızca bir kayıtla ilişkili olduğu durum.
- Bire çok ve Çoka bir: En yaygın bağlantıdır; bir tablodaki her kayıt diğerinde birden çok kayıtla ilişkilidir.
- Çoka çok: İlk tablodaki her kaydın ikinci tablodaki birden fazla kayıtle ilişkili olduğu ve ikinci tablodaki tek bir kaydın da ilk tablodaki birden fazla kayıtla ilişkili olabildiği durum.
- Kendine Referans Veren İlişkiler: Bir tablonun kendisiyle bağlantı kurması gerektiğinde oluşur.
Tabloları, aralarındaki ilişkileri ve depolanan verileri keşfetmeyi SQL’de Keşifsel Veri Analizi kursumuzu tamamlayarak öğrenin.
Boyut indirgeme nedir ve faydaları nelerdir?
Boyut indirgeme, veri setini birçok boyuttan daha az sayıda boyuta dönüştürürken benzer bilgiyi koruma sürecidir.

Görsel: Yazar | Grafikler: howecoresearch
Boyut indirgeme faydaları:
- Veriyi sıkıştırarak depolama alanını azaltır.
- Hesaplama süresini azaltır ve daha hızlı veri işlemeye olanak tanır.
- Varsa gereksiz (redundant) özellikleri kaldırır.
Boyut indirgeme kavramını anlayıp tekniklerde ustalaşmak için Python ile Boyut İndirgeme kursunda pratik yapın.
A/B Testinin amacı nedir?

Görsel: Yazar
A/B testleri, tahmine dayalı yaklaşımları ortadan kaldırır ve ürün veya web sitesini optimize etmek için veriye dayalı kararlar almamıza yardımcı olur. Aynı zamanda bölünmüş test olarak da bilinir; burada rastgeleleştirilmiş deneyler yürütülerek iki veya daha fazla değişkenin (web sayfası, uygulama özelliği vb.) sürümü analiz edilir ve hangi sürümün en fazla trafiği ve iş metriğini sağladığı belirlenir.
A/B testlerini oluşturmayı, yürütmeyi ve analiz etmeyi Python ile Müşteri Analitiği ve A/B Testleri kursunu alarak öğrenin.
Veri Bilimi Kodlama Mülakat Soruları
Birçok kökten oluşan bir sözlük ve bir cümle verildiğinde, cümledeki kelimelerin köküyle gövdeleme yapın.
Gövdeleme, metin ve duygu analizinde yaygın olarak kullanılır. Bu soruda, listedeki belirli kelimeleri kök biçimine dönüştürecek bir Python fonksiyonu yazacaksınız - Interview Query.
Girdi:
Fonksiyon iki argüman alacaktır: kök kelimeler listesi ve cümle.
roots = ["cat", "bat", "rat"]
sentence = "the cattle was rattled by the battery"Çıktı:
Kök kelimelerle dönüştürülmüş cümleyi döndürecektir.
"the cat was rat by the bat"Kod yazmaya başlamadan önce iki işlem yapacağımızı anlamanız gerekir: kelimenin bir kökü olup olmadığını kontrol etmek ve onu değiştirmek.
- Cümleyi kelimelere böleceksiniz.
- Dış döngüyü listedeki her kelime üzerinde, iç döngüyü kök kelimeler listesi üzerinde çalıştıracaksınız.
- Kelimenin kökle başlayıp başlamadığını kontrol edin. Python string türü bu iş için bize `startswith()` fonksiyonunu sağlar.
- Kelime kökle başlıyorsa, liste indeksini kullanarak kelimeyi kökle değiştirin.
- Tüm kelimeleri birleştirerek bir cümle oluşturun.
roots = ["cat", "bat", "rat"]
sentence = "the cattle was rattled by the battery"
def replace_words(roots, sentence):
words = sentence.split(" ")
# looping over each word
for index, word in enumerate(words):
# looping over each root
for root in roots:
# checking if words start with root
if word.startswith(root):
# replacing the word with its root
words[index] = root
return " ".join(words)
replace_words(roots, sentence)
# 'the cat was rat by the bat'Bir Dizge Palindrom mu Kontrol Edin
text dizgesi verildiğinde, palindrom ise True, değilse False döndürün.
Tüm harfleri küçülttükten ve alfasayısal olmayan karakterleri kaldırdıktan sonra, kelime önden ve arkadan aynı şekilde okunmalıdır.

Görsel: Yazar
Python bu meydan okumayı çözmek için kolay yollar sunar. Dizgeyi yinelenebilir kabul edip text[::-1] ile tersine çevirebilir veya yerleşik reversed(text) yöntemini kullanabilirsiniz.
- Önce metni küçülteceksiniz.
- Regex kullanarak alfasayısal olmayan karakterleri kaldırıp metni temizleyeceksiniz.
[::-1]ile metni tersine çevireceksiniz.- Temizlenmiş metni ters çevrilmiş metinle karşılaştıracaksınız.
import re
def is_palindrome(text):
# lowering the string
text = text.lower()
# Cleaning the string
rx = re.compile('\W+')
text = rx.sub('',text).strip()
# Reversing and comparing the string
return text == text[::-1]İkinci yöntemde, metni tersine çevirmeyi yalnızca ''.join(reversed(text)) ile değiştirip temizlenmiş metinle karşılaştıracaksınız.
Her iki yöntem de basittir.
def is_palindrome(text):
# lowering the string
text = text.lower()
# Cleaning the string
rx = re.compile('\W+')
text = rx.sub('',text).strip()
# Reversing the string
rev = ''.join(reversed(text))
return text == revSonuçlar:
Kelime listesini is_palindrome() fonksiyonuna verip sonuçları yazdıracağız. Gördüğünüz gibi, özel karakterler olsa bile fonksiyon “Level” ve “Radar” kelimelerini palindrom olarak tanımladı.
# Test cases
test_words = ['Anna', '**Radar****', 'Abid', '(Level)', 'Data']
for text in test_words:
print(f"Is {text} a palindrome? {is_palindrome(text)}")
# Is Anna a palindrome? True
# Is **Radar**** a palindrome? True
# Is Abid a palindrome? False
# Is (Level) a palindrome? True
# Is Data a palindrome? FalseBir sonraki kodlama mülakatlarınıza Python’da Kodlama Mülakat Soruları Pratiği interaktif kursumuzla hazırlanın. Daha derin Python kodlama hazırlığı için 2026 İçin 41 Önemli Python Mülakat Sorusu & Yanıtı yazımıza bakın.
İkinci en yüksek maaşı bulun
En yüksek ve en düşük değeri bulmak kolaydır; ancak ikinci en yüksek veya n’inci en yüksek değeri bulmak zordur.
Bu soruda, id ve base_salary içeren bir veritabanı tablosu verilmektedir. İkinci en yüksek maaşı bulmak için SQL sorgusu yazacaksınız.

Görsel: Yazar
Bu sorguda, benzersiz değerleri bulup en yüksekgden en düşüğe doğru sıralayacaksınız. Ardından yalnızca en yüksek değeri göstermek için LIMIT 1 kullanacaksınız. Son olarak, ikinci en yüksek sayıyı göstermek için değeri 1 kaydıracaksınız (OFFSET 1).
OFFSET değerini değiştirerek n’inci en yüksek maaşı da alabilirsiniz.
SELECT DISTINCT base_salary AS "Second Highest Salary"
FROM employee
ORDER BY base_salary DESC
LIMIT 1
OFFSET 1;İkinci en yüksek temel maaş 8.500’dür.

Tüm yinelenen e-postaları bulun
Bu soruda, yinelenen tüm e-postaları gösterecek bir sorgu yazacaksınız.

Görsel: Yazar
Bu sorguda, bir email sütunu gösterecek ve tabloyu email’e göre gruplayacaksınız. Ardından HAVING ifadesini kullanarak birden fazla kez geçen e-postaları bulacağız.
HAVING, toplulaştırmalarla birlikte WHERE ifadesinin yerine kullanılır.
SELECT email
FROM employee_email
GROUP BY email
HAVING COUNT(email) > 1;Yalnızca “matt@hotmail.com” birden fazla kez geçmektedir.

İş sorularını yanıtlamak için sürdürülebilir SQL kodu yazmayı Gerçek Dünya Problemlerine SQL Uygulamak kursunu alarak öğrenin.
Büyük Teknoloji Şirketlerinde Veri Bilimi Mülakat Soruları
Meta Veri Bilimi Mülakat Soruları
Facebook gönderi aracı (composer) geçen ay kullanıcı başına %3 gönderiden bugün %2,5 gönderiye düştü. Ne olduğunu araştırmak için ne yapardınız?

Görsel: Yazar
Bir ay önceki gönderi oranı %3’ten bugün %2,5’e düştü. Sonuca atlamadan önce, sorunun bağlamını netleştirmeniz gerekir.
Şu soruları sormalısınız:
- Bugün hafta içi mi?
- Bugünden bir ay önceki gün hafta sonu muydu?
- Özel günler, etkinlikler veya mevsimsellik var mı?
- Kademeli bir düşüş trendi mi var, yoksa tek seferlik bir durum mu?
İkinci bölümde, düşüşe neyin yol açtığını ayrıntılandırmalısınız. Kullanıcı sayısı mı arttı yoksa gönderi sayısı mı azaldı? Ardından mülakatçı bu iki gerekçeden biri veya ikisi üzerinden bir tartışma başlatmanızı isteyecektir.
Facebook’ta günde geçirilen zamanın dağılımının nasıl göründüğünü düşünüyorsunuz? Bu dağılımı tanımlamak için hangi metrikleri kullanırsınız?
Facebook’ta günde geçirilen zamanın dağılımı açısından, iki grup olabileceği varsayılabilir:
- Akışı hızlıca kaydıran ve çok zaman harcamayan kişiler.
- Facebook’ta çok fazla zaman geçiren süper kullanıcılar.
İkinci bölüm için dağılımı şu istatistiksel kavramlarla tanımlamalısınız:
- Merkez: ortalama, medyan ve mod
- Yayılım: standart sapma, çeyrekler arası aralık ve aralık
- Şekil: çarpıklık, basıklık ve tek/çift tepeli olma
- Aykırı değerler
Bir sınav puanları veri seti verildiğinde, <50, <75, <90, <100 aralıklarındaki puanlar için kümülatif yüzdeyi döndüren pandas kodunu yazın.
Bu soruda, önce puanları çeşitli dilimlere ayıracak, ardından bu aralıklarda puan alan öğrencilerin yüzdesini hesaplayacak pandas kodu yazacaksınız.
Girdi:
Veri setimizde user_id, grade ve test_score sütunları var.

Görsel: Yazar
Çıktı:
grade ve test_score sütunlarını kullanacak bir fonksiyon yazacaksınız. Ve notları, dilim puanlarını ve dilim puanlarını alan öğrencilerin kümülatif yüzdesini gösteren veri çerçevesini görüntüleyeceksiniz.

Görsel: Yazar
pandas.cut()fonksiyonunu kullanarak puanları, kutuların (bins) ve etiketlerin (labels) yardımıyla dilim puanlarına dönüştüreceksiniz.- Her grubun (grade ve test_score) büyüklüğünü hesaplayın.
- Yüzdeyi hesaplamak için pay (kümülatif toplam) ve payda (tüm değerlerin toplamı) gerekir.
- Kesir değerini 100 ile çarparak ve “%” ekleyerek gerçek bir yüzdeye çevirin.
- Indeksi sıfırlayın ve sütunu "percentage" olarak yeniden adlandırın.
def bucket_test_scores(df):
bins = [0, 50, 75, 90, 100]
labels = ["<50", "<75", "<90", "<100"]
# converting the scores into buckets
df["test_score"] = pd.cut(df["test_score"], bins, labels=labels, right=False)
# Calculate size of each group, by grade and test score
df = df.groupby(["grade", "test_score"]).size()
# Calculate numerator and denominator for percentage
NUM = df.groupby("grade").cumsum()
DEN = df.groupby("grade").sum()
# Calculate percentage, multiply by 100, and add %
percentage = (NUM / DEN).map(lambda x: f"{int(100*x):d}%")
# reset the index
percentage = percentage.reset_index(name="percentage")
return percentage
bucket_test_scores(df)Dilim puanları ve yüzdeleriyle mükemmel sonucu elde ettiniz.

Verileri temizlemeyi, istatistik hesaplamayı ve görselleştirme oluşturmayı pandas ile Veri Manipülasyonu kursunda öğrenin. Daha derinlemesine bir inceleme için 2026 İçin En İyi 35 Makine Öğrenmesi Mülakat Sorusu rehberimize bakın.
Amazon Veri Bilimi Mülakat Sorusu
Güven aralıklarını açıklayın
Güven aralığı, deneyi tekrar yürüttüğünüzde veya benzer şekilde popülasyonu yeniden örneklediğinizde, belirli bir yüzde oranında düşmesini beklediğiniz, bilinmeyen bir parametre için tahmin aralığıdır.

Görsel: omnicalculator
İstatistiksel deneylerde yaygın olarak %95 güven düzeyi kullanılır ve bu, tahmini parametreyi yeniden üretmeyi beklediğiniz zamanların yüzdesidir. Güven aralıklarının, alfa değeriyle belirlenen bir alt ve üst sınırı vardır.
Güven aralıklarını; oranlar, popülasyon ortalamaları, popülasyon ortalamaları veya oranları arasındaki farklar ve gruplar arasındaki varyasyon tahminleri gibi çeşitli istatistiksel tahminler için kullanabilirsiniz.
İstatistik temelinizi Python’da İstatistiksel Düşünme (Bölüm 1) kursunu tamamlayarak oluşturun.
Dengesiz bir veri setini nasıl yönetirsiniz?
Dengesiz veri setinde sınıflar eşit olmayan şekilde dağılmıştır. Örneğin, dolandırıcılık tespit verisinde 300.000 sahte olmayan vakaya kıyasla yalnızca 400 sahte vaka olabilir. Dengesiz veri, modelin dolandırıcılığı tespit etme performansını düşürür.

Görsel: Yazar
Dengesiz veriyi ele almak için şunları kullanabilirsiniz:
- Eksik örnekleme (undersampling)
- Aşırı örnekleme (oversampling)
- Sentetik veri oluşturma
- Az ve çok örneklemenin kombinasyonu
Eksik örnekleme
Çoğunluk sınıfı örneklerini, azınlık sınıfı örneklerine eşit olacak şekilde yeniden örnekler.
Dolandırıcılık verisinde her iki sınıf da 400 örneğe eşitlenir. Veri setinizi kolayca yeniden örneklemek için imblearn.under_sampling kullanabilirsiniz.
from imblearn.under_sampling import RandomUnderSampler
RUS = RandomUnderSampler(random_state=1)
X_US, y_US = RUS.fit_resample(X_train, y_train)Aşırı örnekleme
Azınlık sınıfı örneklerini, çoğunluk sınıfı örneklerine eşit olacak şekilde yeniden örnekler. Tekrar (repetition) veya ağırlıklı tekrar, veriyi dengelemede kullanılan yaygın yöntemlerdir. Kısacası her iki sınıf da 300K örneğe sahip olur.
from imblearn.over_sampling import RandomOverSampler
ROS = RandomOverSampler(random_state=0)
X_OS, y_OS = ROS.fit_resample(X_train, y_train)Sentetik veri oluşturma
Tekrarın sorunu, ek bilgi sağlamamasıdır; bu da modellerin zayıf performans göstermesine yol açabilir. Bunu aşmak için SMOTE (Synthetic Minority Oversampling Technique) ile sentetik veri noktaları oluşturabiliriz.
from imblearn.over_sampling import SMOTE
SM = SMOTE(random_state=1)
X_OS, y_OS = SM.fit_resample(X_train, y_train)Az ve çok örneklemenin kombinasyonu
Model önyargılarını ve performansını iyileştirmek için aşırı ve eksik örneklemenin bir kombinasyonunu kullanabilirsiniz. Aşırı örnekleme için SMOTE, temizlik için EEN (Edited Nearest Neighbours) kullanacağız.
imblearn.combine, her iki örneklemeyi de otomatik olarak gerçekleştiren çeşitli fonksiyonlar sağlar.
from imblearn.combine import SMOTEENN
SMTN = SMOTEENN(random_state=0)
X_OUS, y_OUS = SMTN.fit_resample(X_train, y_train)Mart 2022 ayı için her bir ürünün toplam satış sayısını döndüren bir sorgu yazın.
Bir veri bilimci olarak, veriyi çıkarmak ve analiz yapmak için buna benzer sorgular yazarsınız. Bu görevde, filtreleme yapmak için karşılaştırma işaretleriyle WHERE ifadesini veya BETWEEN ile WHERE ifadesini kullanacaksınız.
Tablo: orders

Görsel: Yazar
Örnek çıktı:

Görsel: Yazar
- orders tablosundan ürün kimliğini ve miktarın toplamını göstereceksiniz.
- Veriyi ‘2022-03-01’ ile '2022-04-01' tarihleri arasına
WHEREveANDile filtreleyin. Benzer işlemiBETWEENile de yapabilirsiniz. - Her bir ürün için toplam satış sayısını almak üzere product_id’ye göre gruplayın.
SELECT product_id,
SUM(qty)
FROM orders
WHERE order_dt >= '2022-03-01'
AND order_dt < '2022-04-01'
GROUP BY product_id;Google Veri Bilimi Mülakat Sorusu
Bir kümeleme projesinde etiketler biliniyorsa, modelin performansını nasıl değerlendirirsiniz?
Denetimsiz öğrenmede, kümeleme projesinin performansını değerlendirmek zor olabilir. İyi bir kümelemenin ölçütü, benzerliğin az olduğu belirgin gruplardır.
Kümeleme modellerinde doğruluk metriği yoktur; bu nedenle model performansını değerlendirmek için ya gruplar arasındaki benzerliği ya da ayrışmayı kullanırız.

Görsel: scikit-learn dokümantasyonu
Yaygın olarak kullanılan üç metrik şunlardır:
- Silhouette Skoru
- Calinski-Harabaz İndeksi
- Davies-Bouldin İndeksi
Silhouette Skoru
Ortalama küme içi mesafe ile ortalama en yakın komşu küme mesafesi kullanılarak hesaplanır.
Metriği scikit-learn ile hesaplayabiliriz. Silhouette Skoru -1 ile 1 arasındadır; daha yüksek skorlar, gruplar arası benzerliğin düşük ve kümelerin belirgin olduğunu gösterir.
from sklearn import metrics
model = KMeans().fit(X)
labels = model.labels_
metrics.silhouette_score(X, labels)Calinski-Harabaz İndeksi
Gruplar arasındaki ayrışmayı, küme dışı saçılma ve küme içi saçılmayı kullanarak hesaplar. Metriğin bir sınırı yoktur ve Silhouette Skoru gibi daha yüksek skor daha iyi model performansı demektir.
metrics.calinski_harabasz_score(X, labels)Davies-Bouldin İndeksi
Her kümenin en benzer kümesiyle ortalama benzerliğini hesaplar. Diğer metriklerin aksine, daha düşük skor daha iyi model performansı ve kümeler arasında daha iyi ayrışma anlamına gelir.
metrics.davies_bouldin_score(X, labels)
Hiyerarşik ve k-ortalama (k-means) kümelemeyi uygulamayı R ile Küme Analizi kursunu alarak öğrenin.
Bir asansörde dört kişi ve bir binada dört kat var. Her kişinin farklı bir katta inme olasılığı nedir?

Görsel: Yazar
Kullanacağımız gösterimler:

- F = Kat sayısı
- P = Kişi sayısı
Bu problemi çözmek için önce katlarda inmenin toplam kaç şekilde olabileceğini bulmalıyız: 44 = 4x4x4x4 = 256 yol.
Ardından her kişinin farklı bir katta inebileceği durumların sayısını hesaplayın: 4! = 24.
Her kişinin farklı bir katta inme olasılığını hesaplamak için, her kişinin farklı katta inme sayısını toplam inme sayısına bölmemiz gerekir.
24/256 = 3/32
Zorlayıcı olasılık sorularını R ile yanıtlama stratejilerini R ile Olasılık Bulmacaları kursunu alarak öğrenin.
Normal dağılımdan N örnek üreten ve histogramını çizen bir fonksiyon yazın.
Normal dağılımdan N örnek üretmek için Numpy (np.random.randn(N)) veya SciPy (sp.stats.norm.rvs(size=N)) kullanabilirsiniz.
Histogram çizmek için Matplotlib veya Seaborn kullanabilirsiniz.
- Numpy randn fonksiyonunu kullanarak rastgele normal dağılım örnekleri üreteceksiniz.
- Seaborn ile KDE’li histogram çizeceksiniz.
- 10K örnek için histogram çizecek ve Numpy dizisini döndüreceksiniz.
import numpy as np
import seaborn as sns
N = 10_000
def norm_dist_hist(N):
# Generating Random normal distribution samples
x = np.random.randn(N)
# Plotting histogram
sns.histplot(x, bins = 20, kde=True);
return x
X = norm_dist_hist(N)
Bilgilendirici ve çekici görselleştirmeleri saniyeler içinde oluşturmayı Seaborn ile Veri Görselleştirmeye Giriş kursunu tamamlayarak öğrenin.
Veri Bilimi Mülakatına Nasıl Hazırlanılır
Görsel: Yazar
Veri bilimi mülakatları dört ila beş aşamaya ayrılır. İstatistik ve makine öğrenmesi, kodlama (Python, R, SQL), davranışsal, ürün sezgisi ve bazen liderlik soruları sorulur.
Tüm aşamalara şu şekilde hazırlanabilirsiniz:
- Şirketi ve iş sorumluluklarını araştırmak: çabanızı veri biliminin belirli bir alanında önceliklendirmenize yardımcı olur.
- Geçmiş portföy projelerini gözden geçirmek: işe alım müdürü becerilerinizi projeleriniz hakkında sorular sorarak değerlendirecektir.
- Veri bilimi temellerini tekrar etmek: olasılık, istatistik, hipotez testi, betimsel ve Bayesçi istatistik ve boyut indirgeme. Kısa notlar temel bilgileri hızla öğrenmenin en iyi yoludur.
- Kodlama pratiği yapmak: değerlendirme testlerine girin, çevrimiçi kodlama sorularını çözün ve en çok sorulan kodlama sorularını gözden geçirin.
- Uçtan uca projelerde pratik yapmak: veri temizleme, manipülasyon, analiz ve görselleştirme becerilerinizi tazeleyin.
- En yaygın mülakat sorularını okumak: ürün sezgisi, istatistiksel, analitik, davranışsal ve liderlik soruları.
- Deneme mülakat yapmak: bir arkadaşınızla mülakat pratiği yapın, istatistiksel kelime dağarcığınızı geliştirin ve özgüven kazanın.
Veri Bilimi Mülakat Hazırlığı blog yazımızı okuyarak neler beklemeniz gerektiğini ve mülakata nasıl yaklaşacağınızı öğrenin.
Veri Bilimi Mülakat SSS
Veri biliminin dört temel bileşeni nelerdir?
Veri biliminin dört temel bileşeni şunlardır:
- İş anlayışı ve veri stratejisi.
- Veri Hazırlama (Temizleme, Atama, Doğrulama).
- Veri Analizi ve Modellemesi.
- Veri Görselleştirme ve Operasyonelleştirme.
Veri bilimi mülakatları zor mu?
Genellikle evet. Bir veri bilimi mülakatını geçmek için istatistik & olasılık, kodlama, veri analizi, makine öğrenmesi, ürün sezgisi ve raporlama gibi birçok alanda yetkinliği göstermeniz gerekir. Hazırlığınıza yardımcı olması için veri bilimci mülakat soruları rehberimize bakın!
Veri bilimi stresli bir iş mi?
Duruma bağlı. Tüm ekip/şirket, size analiz ve eyleme dönüştürülebilir bilgi sağlamak için güvenebilir. Bazı durumlarda veri mühendisi, veri analisti, makine öğrenmesi mühendisi, MLOps mühendisi, veri yöneticisi ve ekip lideri gibi birden çok şapkayı takmanız gerekebilir. Bazı kişiler bunu heyecan verici ve zorlayıcı bulurken, bazıları zaman zaman stresli ve bunaltıcı bulabilir.
Bir yıl öğrenmek veri bilimi için yeterli mi?
Olabilir. Geçmişinize bağlıdır. Bir yazılım mühendisi olarak çalışıyorsanız ve geçiş yapmak istiyorsanız, çoğu şeyi bir yılda öğrenebilirsiniz. Ancak sıfırdan başlıyorsanız, bir yılda işe hazır hale gelmek zor olacaktır. Yolculuğunuza Python ile Veri Bilimci olarak başlayın ve temellerin tamamını 6 ayda öğrenin.
Veri bilimi matematik ağırlıklı mı?
Evet. İstatistik, olasılık, matematik, veri analizi, veri görselleştirme ile makine öğrenmesi modelleri kurma ve değerlendirmeyi öğrenmeniz gerekir.
Veri bilimi kariyeri iyi maaş sunar mı?
Evet. Glassdoor’a göre, ABD’de bir veri bilimcinin toplam medyan maaşı 2026 itibarıyla yılda yaklaşık 130.000–145.000 ABD Dolarıdır; büyük teknoloji şirketlerindeki kıdemli roller bunun oldukça üzerine çıkmaktadır. Maaşlar şirkete, konuma ve kıdeme göre önemli ölçüde değişir. Kariyer yolları ve gelir hakkında daha fazlası için 2026’da Veri Bilimci Nasıl Olunur rehberimize bakın.
Veri bilimi bilgimi işverenlere nasıl kanıtlayabilirim?
Kursları tamamlamanın ve gerçek dünyaya yönelik veri bilimi projelerinde çalışmanın yanı sıra, Veri Bilimci Sertifikamız uzmanlığınızı işverenlere kanıtlamanın en iyi yoludur. Sektörde tanınan bu sertifikasyon, becerilerinizi iki zamanlı sınav ve ardından bir uygulamalı sınavla test eder.
