Ana içeriğe atla

Uygulamalı Öğrenme için En İyi 12 Veri Mühendisliği Projesi

Bu portföy projeleriyle veri mühendisliği becerilerinizi sergileyin. Potansiyel işverenlere güçlü yönlerinizi göstermek için çeşitli teknolojilerde pratik yapın ve bilginizi derinleştirin!
Güncel 16 Nis 2026  · 15 dk. oku

Veri mühendisliği, verinin taşınmasını ve dönüştürülmesini destekler. Şirketler içgörü elde etmek ve inovasyonu yönlendirmek için büyük miktarda veriye güvendikçe, veri mühendislerine olan talep artmaya devam ediyor.

Veri profesyonelleri için, veri mühendisliği projelerine dalmak pek çok fırsat sunar. Uygulamalı zorluklar teknik becerilerinizi keskinleştirir ve bilginizi ile deneyiminizi sergilemek için somut bir portföy sağlar.

Bu yazıda, becerilerinizi geliştirmenize ve gerçek dünya veri sorunlarının üstesinden güvenle gelmenize yardımcı olmak üzere tasarlanmış bir dizi veri mühendisliği projesi derledim!

Neden Veri Mühendisliği Projeleri Üzerinde Çalışmalısınız?

Teori ve pratikle sağlam bir veri mühendisliği anlayışı oluşturmak önemlidir. Bu yazıyı okuyorsanız muhtemelen bunun zaten farkındasınız; yine de bu projelere dalmak için üç somut neden şunlardır:

Teknik beceriler geliştirme

Veri mühendisliği projeleri, teknolojiler ve yöntemlerle uygulamalı deneyim sunar. Programlama dilleri, veritabanı yönetimi, büyük veri işleme ve bulut bilişimde yetkinlik geliştirirsiniz. Bu teknik beceriler, veri mühendisliği rollerinin temelidir ve teknoloji sektöründe yüksek düzeyde transfer edilebilir.

Portföy geliştirme 

Veri mühendisliği projelerinden oluşan bir portföy oluşturmak, potansiyel işverenlere pratik yeteneklerinizi gösterir. Veri hatları, ambar tasarımları ve optimizasyon çözümlerine dair uygulamaları sergileyerek yeteneklerinizin somut kanıtını sunarsınız. 

Güçlü bir portföy, iş piyasasında sizi öne çıkarır ve özgeçmişinizi gerçek dünyadaki başarılarla tamamlar.

Araç ve teknolojileri öğrenme 

Veri mühendisliği alanı, çok çeşitli araç ve teknolojiler kullanır. Projeler üzerinde çalışmak, veri işleme çerçeveleri, iş akışı yönetim araçları ve görselleştirme platformlarına maruz kalmanızı sağlar. 

Bu pratik deneyim, sektör trendlerini yakından takip etmenizi sağlar ve değişen teknolojik ortamda uyum yeteneğinizi artırır.

Yeni Başlayanlar için Veri Mühendisliği Projeleri

Bu projeler, veri mühendislerinin kullandığı temel araçları tanıtmayı amaçlar. Veri mühendisliğinde yeniyseniz veya tazeleme yapmak istiyorsanız buradan başlayın.

Proje 1: Açık veri ile ETL hattı (CSV'den Parquet'e, oradan BigQuery'ye)

Bu proje, hava durumu veya ulaşım verileri gibi herkese açık bir veri kümesi kullanarak bir ETL hattı oluşturmayı içerir. Veriyi ham bir CSV dosyasından çıkaracak, Python ile temizleyip dönüştürecek ve dönüştürülmüş veriyi Google BigQuery'ye yükleyeceksiniz.

Bu projeyi gerçekten modern kılmak için, dönüşümlerinizde geleneksel Pandas kütüphanesi yerine Polars kullanmayı deneyin. Polars belirgin şekilde daha hızlıdır ve veri mühendisliği topluluğunda giderek favori bir araç haline gelmektedir. Ayrıca, veriyi buluta yüklemeden önce Parquet biçimine dönüştürmeyi pratiğe dökün. Parquet, CSV'den çok daha verimli olan sütunlu bir depolama biçimidir ve büyük veri depolamada standarttır.

Bu proje, temel ETL kavramlarını—veri çıkarma, dönüştürme ve yükleme—tanıttığı ve BigQuery gibi bulut araçlarına ve kritik dosya biçimlerine maruz bıraktığı için yeni başlayanlar için mükemmeldir.

Ayrıca Python ve BigQuery API gibi basit araçlarla modern veri mühendisliğinin temel becerisi olan bulut veri ambarlarıyla nasıl etkileşim kuracağınızı da öğreneceksiniz. Giriş için BigQuery'ye başlangıç rehberini inceleyin.

Veri için Kaggle veya data.gov üzerindeki mevcut bir veri kümesini seçebilirsiniz.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı kaynaklar, GitHub depoları ve eğitimler yer alıyor:

YouTube videoları ve eğitimler:

  • Polars eğitimi: Eğitimimiz, Pandas ve Polars kütüphanelerini karşılaştırır ve veri mühendislerinin büyük veri kümeleri için neden Polars'a geçtiğini anlamanıza yardımcı olur.
  • Cloud Storage, Dataflow ve BigQuery ile ETL Batch Pipeline: Bu video, Google Cloud üzerinde dağıtılmış bir ETL batch hattının uçtan uca kullanım örneğini göstererek BigQuery'ye çıkarma, dönüştürme ve yükleme aşamalarını betimler.

GitHub Depoları:

  • Uçtan Uca Veri Hattı: Bu depo, CSV dosyalarından veri çıkarıp Python ve dbt ile dönüştüren ve Google BigQuery'ye yükleyen tamamen otomatik bir hattı gösterir.
  • Airflow ve BigQuery ile ETL Hattı: Bu proje, Apache Airflow ile orkestre edilen; CSV dosyalarından veri çıkarımını, Python ile dönüşümü ve BigQuery'ye yüklemeyi otomatikleştiren bir ETL hattını sergiler.

Kurslar:

  • Python'da ETL ve ELT: Python'da ETL süreçleri hakkında daha fazla bilgi edinin; temel kavramlar ve veri hatları oluşturmak için pratik uygulamaları kapsar.
  • Modern Veri Mimarisi Anlama: Bu kurs, BigQuery gibi bulut tabanlı sistemlerde veriyi taşımak ve yapılandırmak için en iyi uygulamalara odaklanan kapsamlı bir genel bakış sunar.

Geliştirilen beceriler

  • Python ile CSV'den veri çıkarma.
  • Polars veya Pandas ile veriyi dönüştürme ve temizleme.
  • Parquet gibi sütunlu dosya biçimleriyle çalışma.
  • Python ve SQL ile veriyi BigQuery'ye yükleme.

Proje 2: Python ve PostgreSQL ile hava durumu veri hattı

Bu proje, veri toplama, temizleme ve depolama olmak üzere üç temel unsura odaklanarak veri hattı oluşturmanın temel sürecini tanıtır.

Python kullanarak, Open-Meteo’dan, API anahtarı gerektirmeyen tamamen ücretsiz bir API, hava durumu koşulları ve tahminlerini çekeceksiniz. Hava durumu verisi toplandıktan sonra ham JSON'u işleyeceksiniz; bu, sıcaklık birimlerini dönüştürmeyi, eksik değerleri ele almayı veya konum adlarını standartlaştırmayı içerebilir. Son olarak, temizlenmiş veriyi bir PostgreSQL veritabanında depolayacaksınız.

Modern Dokunuş (Önerilir): PostgreSQL'i doğrudan bilgisayarınıza kurmak yerine bir Docker konteynerinde çalıştırmayı deneyin. Bu, bilgisayarınızı temiz tutar ve işverenlere konteynerleştirmeyi anladığınızı (modern veri mühendisliği için zorunlu bir beceri) gösterir.

Kaynaklar 

Bu özel yığınla ilgili size yardımcı olacak değerli kaynaklar:

  • Dokümantasyon:
    • Open-Meteo Dokümanları: Dokümantasyon mükemmeldir ve herhangi bir kod yazmadan önce veri yapısını görebilmeniz için bir URL oluşturucu içerir.

GitHub depoları:

  • Hava Durumu ve Hava Kalitesi ETL Hattı: Bu depo, kamu API'lerinden hava durumu ve hava kalitesi verilerini çıkaran, temizlenmiş ve analiz edilebilir bir biçime dönüştüren ve PostgreSQL veritabanına yükleyen bir ETL hattını gösterir.
  • Hava Durumu Verisi Entegrasyon Projesi: Hava durumu verisini çıkaran, dönüştüren ve PostgreSQL veritabanına yükleyen uçtan uca bir ETL hattı.

Kurslar:

  • PostgreSQL Veritabanları Oluşturma: Bu kurs, veritabanı oluşturma, yönetme ve optimize etme gibi temel PostgreSQL becerilerini kapsayan kapsamlı bir rehber sunar—hava durumu veri hattında kritik bir adımdır.
  • Python ile Veri Mühendisi: Bu beceri yolu, veri toplama, dönüştürme ve depolama dahil temel veri mühendisliği becerilerini kapsar ve Python'da hatlar kurmak için güçlü bir başlangıç sağlar.

Geliştirilen beceriler

  • Python kullanarak veri hattı uygulamaları yazma.
  • Harici kaynaklardan veri toplama (API'ler).
  • Docker temelleri (bir veritabanı konteyneri ayağa kaldırma).
  • Veritabanı kurma ve veriyi depolamak için SQL yazma.

Proje 3: Londra ulaşım analizi

Bu proje, hevesli veri mühendisleri için mükemmel bir başlangıç sunar. Günde 1,5 milyonun üzerinde yolculuğu yöneten büyük bir toplu taşım ağına ait gerçek verilerle çalışmayı öğretir. 

Projenin gücü, Snowflake, Amazon Redshift, Google BigQuery veya Databricks gibi sektör standardı veri ambarı çözümlerinin kullanılmasında yatar. Bu platformlar, büyük veri kümelerini verimli şekilde işleyip analiz etmeye olanak tanır ve modern veri mühendisliğinde kritik öneme sahiptir. 

Ulaşım eğilimlerini, popüler yöntemleri ve kullanım kalıplarını analiz ederek, büyük veri kümelerinden anlamlı içgörüler çıkarmayı öğrenirsiniz—veri mühendisliğinde temel bir yetkinliktir.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı kaynaklar, yönlendirmeli projeler ve kurslar yer alıyor:

Yönlendirmeli projeler:

  • Londra'nın Ulaşım Ağı’nı Keşfetmek: Bu yönlendirmeli proje, Londra’nın toplu taşıma verilerini nasıl analiz edeceğinizi öğretir; eğilimleri, popüler güzergahları ve kullanım kalıplarını keşfetmenize yardımcı olur. Büyük bir toplu taşıma ağından gelen gerçek verilerle büyük ölçekli veri analizi deneyimi kazanırsınız.

Kurslar:

  • Veri Ambarı Kavramları: Bu kurs, Snowflake, Redshift ve BigQuery gibi platformların mimarileri ve kullanım durumları dahil temel veri ambarı ilkelerini kapsar. Büyük ölçekli veri depolama ve işleme çözümleri uygulamak için mükemmel bir temeldir.

Geliştirilen beceriler

  • Veriyi daha iyi anlayarak sorgu yazımının bağlamını kavrama.
  • Büyük veri kümeleriyle çalışma.
  • Büyük veri kavramlarını anlama.
  • Snowflake, Redshift, BigQuery veya Databricks gibi veri ambarları ve büyük veri araçlarıyla çalışma.

Orta Düzey Veri Mühendisliği Projeleri

Bu projeler, daha iyi bir programcı olmak ve farklı veri platformlarını harmanlamak gibi becerilere odaklanır. Bu teknik beceriler, mevcut bir teknoloji yığınına katkıda bulunabilmeniz ve daha büyük bir ekibin parçası olarak çalışabilmeniz için gereklidir.

Proje 4: Kod incelemesi yapmak

Bu proje, başka bir veri mühendisinin yazdığı kodu incelemekle ilgilidir. Bazı projeler kadar teknolojiyle birebir temas gerektirmese de başkalarının kodunu gözden geçirebilmek, veri mühendisi olarak gelişmenin önemli bir parçasıdır. 

Kodu okumak ve incelemek, kod yazmak kadar önemli bir beceridir. Temel veri mühendisliği kavramlarını ve uygulamalarını anladıktan sonra, bunları başkalarının kodunu incelemeye uygulayarak en iyi uygulamaları takip ettiğinden ve olası hataları azalttığından emin olabilirsiniz.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı değerli kaynaklar, projeler ve makaleler yer alıyor:

Yönlendirmeli projeler:

  • Kod İncelemesi Yapmak: Bu yönlendirmeli proje, bir kıdemli veri profesyoneliymişsiniz gibi kod inceleme sürecini simüle ederek uygulamalı deneyim sunar. Potansiyel hataları tespit etme ve en iyi uygulamaların takip edildiğinden emin olma pratiği için mükemmel bir yoldur.

Makaleler:

  • Nasıl Kod İncelemesi Yapılır: Bu kaynak, kapsamlı deneyime dayalı olarak etkili kod incelemesi için öneriler sunar ve inceleme sürecinin çeşitli yönlerini kapsar.

Geliştirilen beceriler

  • Diğer veri mühendisleri tarafından yazılan kodu okuma ve değerlendirme
  • Kodu incelerken hataları ve mantık kusurlarını bulma
  • Koda açık ve yardımcı olacak biçimde geri bildirim sağlama

Proje 5: Perakende veri hattı oluşturma

Bu projede Walmart'ın perakende verisiyle eksiksiz bir ETL hattı kuracaksınız. SQL veritabanları ve Parquet dosyaları dahil çeşitli kaynaklardan veri alacak, veriyi hazırlamak ve temizlemek için dönüşüm teknikleri uygulayacak ve sonunda kolayca erişilebilir bir biçime yükleyeceksiniz.

Bu proje, birden fazla biçimden veri çıkarma, anlamlı analiz için veri dönüştürme ve verimli depolama ile erişim için veri yükleme gibi temel becerileri kapsadığı için, temel ancak ileri veri mühendisliği bilgisini inşa etmek için mükemmeldir. Çeşitli veri kaynaklarını ele alma, veri akışlarını optimize etme ve ölçeklenebilir hatları sürdürme gibi kavramları pekiştirir.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı değerli kaynaklar, yönlendirmeli projeler ve kurslar yer alıyor:

Yönlendirmeli projeler:

  • Perakende Veri Hattı Oluşturma: Bu yönlendirmeli proje, Walmart’ın perakende verisini kullanarak bir perakende veri hattı kurma sürecinde sizi adım adım ilerletir. SQL veritabanları ve Parquet dosyalarından veri almayı, analize uygun şekilde dönüştürmeyi ve erişilebilir bir biçime yüklemeyi öğreneceksiniz.

Kurslar:

  • Veritabanı Tasarımı: Veri hatları üzerinde çalışırken sağlam bir veritabanı tasarımı anlayışı esastır. Bu kurs, veritabanlarını tasarlamanın ve yapılandırmanın temellerini kapsar; çeşitli veri kaynaklarını ele almak ve depolamayı optimize etmek için değerlidir.

Geliştirilen beceriler

  • Gerçek dünya kullanım senaryoları için veri hatları tasarlama.
  • Birden çok kaynaktan ve farklı biçimlerden veri çıkarma.
  • Farklı biçimlerden gelen veriyi tutarlılığını ve kalitesini artırmak için temizleme ve dönüştürme.
  • Bu veriyi kolayca erişilebilir bir biçime yükleme.

Proje 6: SQL ile öğrenci başarısını etkileyen faktörler

Bu projede, çalışma alışkanlıkları, uyku düzenleri ve ebeveyn katılımı gibi öğrenci başarısını etkileyen çeşitli faktörlere odaklanan kapsamlı bir veritabanını analiz edeceksiniz. SQL sorguları yazarak bu faktörlerle sınav notları arasındaki ilişkileri inceleyecek; dışarı ders etkinlikleri ve uykunun akademik performans üzerindeki etkisi gibi soruları araştıracaksınız.

Bu proje, veritabanlarını etkili biçimde işleme ve sorgulama yeteneğinizi geliştirerek veri mühendisliği becerileri kazandırır. 

Eğitim bağlamları ve ötesinde veri odaklı kararlar almak için gerekli olan veri analizi, yorumlama ve karmaşık veri kümelerinden içgörü üretme becerilerini geliştirirsiniz.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı kaynaklar, yönlendirmeli projeler ve kurslar yer alıyor:

Yönlendirmeli projeler:

  • Öğrenci Başarısını Besleyen Faktörler: Bu yönlendirmeli proje, kapsamlı bir veritabanını analiz ederek çeşitli faktörlerin öğrenci başarısı üzerindeki etkisini keşfetmenizi sağlar. SQL kullanarak çalışma alışkanlıkları, uyku düzenleri ve akademik performans arasındaki ilişkileri araştıracak, eğitimde veri odaklı analiz deneyimi kazanacaksınız.

Kurslar:

  • SQL'de Veri İşleme: Bu proje için güçlü bir SQL veri işleme temeli anahtardır. Bu kurs, ilişkisel veritabanlarında veriyi çıkarmak, dönüştürmek ve analiz etmek için SQL tekniklerini kapsar ve karmaşık veri kümelerini ele alma becerisi kazandırır.

Geliştirilen beceriler

  • Veriyi etkili şekilde almak ve işlemek için SQL sorguları yazma ve optimize etme.
  • Eğilimleri ve ilişkileri belirlemek için karmaşık veri kümelerini analiz etme.
  • Veriye dayalı olarak hipotezler kurma ve sonuçları yorumlama.

Proje 7: DuckDB ile yüksek performanslı yerel analitik

Önceki proje sorgu yazmaya odaklanırken, bu proje performans ve mimariye odaklanır. Standart araçlar olan Excel veya Pandas için fazla yavaş ya da ağır olacak bir veri kümesini analiz etmek üzere, modern bir "süreç içi" veritabanı olan DuckDB'yi kullanacaksınız.

Büyük bir kamu veri kümesini (NYC Taxi Trip Data veya Citibike Data gibi) alacak, endüstri standardı Parquet biçimine dönüştürecek ve karmaşık toplulaştırma sorguları çalıştıracaksınız. "Sütunlu Depolama"nın, dizüstü bilgisayarınızda sunucu kurmadan, milyonlarca satırı saniyenin küçük bir bölümünde sorgulamanıza nasıl izin verdiğini öğreneceksiniz.

Bu proje, "Modern Veri Yığını"ndaki en son trendleri takip ettiğinizi gösterdiği için işverenleri etkiler.

Kaynaklar

Bu yüksek performanslı projeyi oluşturmanıza yardımcı olacak kaynaklar:

  • Veri Kaynakları:
  • Dokümantasyon:
    • DuckDB "SQL on Parquet": Parquet dosyalarını doğrudan nasıl sorgulayacağınızı anlatan resmi rehberi okuyun. Bu, projenin çekirdek becerisidir.

Geliştirilen beceriler

  • Sütunlu Depolama (Parquet) ile Satır Bazlı Depolama (CSV) arasındaki farkı anlama.
  • Sunucusuz, yüksek hızlı SQL için DuckDB kullanma.
  • Sorgu performansını kıyaslama.
  • Yerel makinede "bellekten büyük" veri kümeleriyle çalışma.

İleri Düzey Veri Mühendisliği Projeleri

İleri düzey bir veri mühendisinin ayırt edici özelliği, farklı teknolojilerde çok sayıda veri türünü işleyebilen hatlar oluşturabilmesidir. Bu projeler, ölçeklenebilir veri işleme sistemleri yaratmak için birden çok ileri veri mühendisliği aracını birleştirerek beceri setinizi genişletmeye odaklanır.

Proje 8: PySpark ile bir veri kümesini temizleme

PySpark gibi gelişmiş bir aracı kullanarak, Apache Spark’ın yeteneklerinden yararlanan hatlar kurabilirsiniz. 

Böyle bir proje oluşturmaya girişmeden önce, PySpark’ın temellerini anlamak için giriş niteliğinde bir kursu tamamlamak önemlidir. Bu temel bilgi, etkili veri çıkarma, dönüştürme ve yükleme için bu aracı tam anlamıyla kullanmanızı sağlar.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı değerli kaynaklar, yönlendirmeli projeler, kurslar ve eğitimler yer alıyor:

Yönlendirmeli projeler:

  • PySpark ile Siparişler Veri Kümesini Temizleme: Bu yönlendirmeli proje, PySpark kullanarak bir e-ticaret siparişleri veri kümesini nasıl temizleyeceğinizi adım adım gösterir; Apache Spark ile ölçeklenebilir şekilde veri çıkarma, dönüştürme ve yükleme süreçlerini anlamanıza yardımcı olur.

Kurslar:

  • PySpark’a Giriş: Bu kurs, Spark’ta büyük veri kümeleriyle etkili biçimde çalışmak için temel kavramları ve teknikleri kapsayan kapsamlı bir giriş sunar. PySpark’ta güçlü bir temel oluşturmak için ideal bir başlangıçtır.

Eğitimler:

  • PySpark Eğitimi: PySpark’a Başlarken: Bu eğitim, PySpark’ın çekirdek bileşenlerini tanıtır; kurulum ve temel işlemler boyunca size rehberlik ederek PySpark ile veri hatları kurmaya güvenle başlamanızı sağlar.

Geliştirilen beceriler

  • PySpark deneyimini genişletme
  • Paydaşlar için veriyi temizleme ve dönüştürme
  • Büyük veri yığınlarını içeri alma
  • ETL süreçlerinde Python bilgisini derinleştirme

Proje 9: dbt ve BigQuery ile veri modelleme

Veri mühendisleri için popüler ve güçlü bir modern araç dbt’dir (Data Build Tool); veri mühendislerinin yazılım geliştirme yaklaşımını takip etmesini sağlar. Sezgisel sürüm kontrolü, test, şablon kod üretimi, soy kütüğü (lineage) ve ortamlar sunar. dbt, veri kümelerinizi depolamak ve yönetmek için BigQuery veya diğer bulut veri ambarlarıyla birleştirilebilir. 

Bu proje, dbt içinde hatlar oluşturmanıza, görünümler üretmenize ve nihai veriyi BigQuery ile ilişkilendirmenize olanak tanır.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı değerli kaynaklar, kurslar ve video eğitimler yer alıyor:

YouTube videoları:

  • dbt ile Uçtan Uca Modern Veri Mühendisliği: Bu videoda CodeWithYu, dbt’yi BigQuery ile kurup kullanmaya dair kapsamlı bir anlatım sunar; veri hatları kurma ve görünümler üretme adımlarını kapsar. Veri mühendisliği iş akışında dbt ve BigQuery’yi birleştirmeyi öğrenen yeni başlayanlar için faydalı bir rehberdir.

Kurslar:

  • dbt’ye Giriş: Bu kurs, Git iş akışları, test ve ortam yönetimi gibi temel kavramları kapsayarak dbt’nin temellerini tanıtır. Veri mühendisliği projelerinde dbt’yi etkili biçimde kullanmaya başlamak için mükemmel bir başlangıçtır.

Geliştirilen beceriler

  • dbt hakkında bilgi edinme
  • BigQuery hakkında bilgi edinme
  • SQL tabanlı dönüşümleri nasıl oluşturacağınızı anlama
  • Veri mühendisliğinde yazılım mühendisliği en iyi uygulamalarını kullanma (sürüm kontrolü, test ve dokümantasyon)

Proje 10: S3 depolama ve Tableau ile BI kullanarak Airflow ve Snowflake ETL

Bu projede, Airflow kullanarak bir API üzerinden veri çekmeyi ve bu veriyi bir Amazon S3 kovası aracılığıyla Snowflake’e aktarmayı ele alacağız. Amaç, ETL’i Airflow’da, analitik depolamayı ise Snowflake’te gerçekleştirmektir. 

Bu, birden fazla bulut depolama sistemi üzerinden çoklu veri kaynaklarına bağlandığı ve tümünün Airflow ile orkestre edildiği için mükemmel bir projedir. Birçok hareketli parçaya sahip olduğu ve gerçek dünyadaki bir veri mimarisine benzediği için oldukça kapsamlıdır. Bu proje ayrıca Tableau’da görselleştirmeler ekleyerek iş zekasına (BI) da değinir.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı değerli kaynaklar, kurslar ve video eğitimler yer alıyor:

YouTube videoları:

  • Airflow, S3 ve Snowflake ile Veri Hattı: Bu videoda Seattle Data Guy, PredictIt API'sinden veri çekmek için Airflow’un nasıl kullanılacağını, veriyi Amazon S3’e yüklemeyi, Snowflake dönüşümlerini gerçekleştirmeyi ve Tableau görselleştirmeleri oluşturmayı gösterir. Bu uçtan uca rehber, bir veri hattında birden çok aracın entegrasyonunu anlamak için idealdir.

Kurslar:

  • Python ile Apache Airflow’a Giriş: Bu kurs, DAG’ler, operatörler ve görev bağımlılıkları gibi temel kavramları kapsayarak Apache Airflow’a genel bir bakış sunar. Airflow’da iş akışlarını nasıl yapılandırıp yöneteceğinizi anlamak için güçlü bir temeldir.
  • Snowflake’e Giriş: Bu kurs, güçlü bir veri ambarı çözümü olan Snowflake’i tanıtır. Veri depolama yönetimi, sorgulama ve optimizasyonu kapsar. Veri hatlarında Snowflake ile çalışmadan önce temel bilgi edinmek için idealdir.
  • Tableau’da Veri Görselleştirme: Bu kurs, veri görselleştirme için temel Tableau becerilerini kapsar ve veriyi içgörülü görsellere dönüştürmenizi sağlar—veri hattı çıktılarının yorumlanması için temel bir adımdır.

Geliştirilen beceriler

  • Airflow’da DAG oluşturma pratiği
  • Python ile bir API’ye bağlanma pratiği
  • Veriyi Amazon S3 kovalarında depolama pratiği
  • Veriyi analiz için Amazon’dan Snowflake’e taşıma
  • Tableau’da basit veri görselleştirme
  • Kapsamlı, uçtan uca bir veri platformu oluşturma

Proje 11: Airflow kullanarak AWS’de Hacker News ETL

Bu proje, AWS ekosistemindeki gelişmiş veri işleme araçlarını kullanarak çok adımlı karmaşık bir veri hattını ele alır.

Kısıtlı sosyal medya API'larıyla uğraşmak yerine, tamamen ücretsiz ve açık olan Hacker News API’sini kullanacaksınız. Üst haberleri ve yorumları çıkarmak için Apache Airflow kuracak, iç içe JSON yapıları düzleştirilecek şekilde veriyi dönüştürecek ve buluta yükleyeceksiniz.

Mimari, standart bir "Modern Veri Yığını" modelini izler:

  1. Çıkarma: Airflow, Hacker News API’sinden veri almak için bir Python betiğini tetikler.
  2. Yükleme: Ham JSON veri bir Amazon S3 kovasına ("Veri Gölünüz") dökülür.
  3. Dönüştürme: Veriyi gezinmek ve bir şema oluşturmak için AWS Glue kullanacaksınız.
  4. Analiz: Son olarak, Amazon Athena ile S3 veriniz üzerinde doğrudan SQL sorguları çalıştıracak (sunucusuz analiz) veya ambarlama için Amazon Redshift’e yükleyeceksiniz.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı kaynaklar, kurslar ve video eğitimler yer alıyor:

Dokümantasyon:

  • Hacker News API: Resmi dokümantasyon basittir ve GitHub’da barındırılır. "Öğe Kimlikleri"nde gezinerek haberleri ve yorumları bulmayı öğretir.

GitHub Depoları:

  • Airflow & AWS ile Haber Veri Hattı: "Airflow’dan S3’e" hatlarını gösteren depolar arayın. "NewsAPI" uç noktasını "Hacker News" ile değiştirerek bunları kolayca uyarlayabilirsiniz.
  • dlt (Data Load Tool) Hacker News Demoları: dltHub ekibinin, Hacker News verisini veri ambarlarına çekmeye özel harika bir blog yazısı ve deposu var. Bu, çağdaş bir alternatif referanstır.

Kurslar ve eğitimler:

  • AWS’ye Giriş: Bu kurs, AWS’de temel kavramlar ve araçları kapsayan sağlam bir temel sağlar. S3, Glue, Athena ve Redshift gibi AWS hizmetlerinin temellerini anlamak, bu projeyi başarıyla uygulamak için kritik olacaktır.
  • AWS Glue & Athena: S3’teki JSON verilerini Glue ile "tarama" üzerine özel eğitimler arayarak ham dosyalarınızı sorgulanabilir tablolara nasıl dönüştüreceğinizi anlayın.

Geliştirilen beceriler

  • Orkestrasyon: bağımlılıkları yönetmek için Airflow’da karmaşık DAG’ler oluşturma.
  • API Etkileşimi: genel bir API’den (haberler içindeki yorumlar gibi) iç içe veriyi özyinelemeli biçimde çekme.
  • Veri Gölü: Ham bölümlü veriyi Amazon S3’te depolama.
  • Sunucusuz SQL: Veriyi kataloglamak için AWS Glue ve veritabanı sunucusu olmadan sorgulamak için AWS Athena kullanma.
  • Altyapı: Airflow’un S3 ile konuşmasına izin vermek için AWS izinlerini (IAM) yönetme.

Proje 12: PySpark, Kafka ve Redshift ile gerçek zamanlı veri hattı oluşturma

Bu projede, yüksek hacimli veri alımı, işlenmesi ve depolanmasını ele almak için PySpark, Apache Kafka ve Amazon Redshift kullanarak sağlam bir gerçek zamanlı veri hattı oluşturacaksınız. 

Hat, verileri çeşitli kaynaklardan gerçek zamanlı olarak yakalayacak, PySpark ile işleyip dönüştürecek ve dönüştürülen veriyi ileri analiz için Redshift’e yükleyecek. Ayrıca, veri doğruluğunu ve hattın güvenilirliğini sağlamak için izleme ve uyarı mekanizmaları uygulayacaksınız.

Bu proje, gerçek zamanlı veri işleme ve akış için Kafka, bulut tabanlı veri ambarı için Redshift gibi büyük veri teknolojilerini ele alarak temel beceriler inşa etmek için mükemmel bir fırsattır.

Kaynaklar

Aşağıda adım adım rehberlik sunan bazı kaynaklar, kurslar ve video eğitimler yer alıyor:

YouTube videoları:

Kurslar:

  • Apache Kafka’ya Giriş: Bu kurs, bu proje için gerçek zamanlı veri akışının kritik bir bileşeni olan Apache Kafka’nın temellerini kapsar. Kafka’nın mimarisine genel bir bakış ve veri hatlarında nasıl uygulanacağını sunar.
  • Akış Kavramları: Bu kurs, gerçek zamanlı işleme ve olay güdümlü mimariler dahil veri akışının temel kavramlarını tanıtır. Gerçek zamanlı hatlar oluşturmadan önce temel bilgi kazanmak için ideal bir kaynaktır.

Veri Mühendisliği Projeleri Özet Tablosu

Farklı projelere hızlı bir referans olması için yukarıdaki veri mühendisliği projelerinin bir özeti burada:

Proje Adı Düzey Geliştirilen Beceriler Araçlar & Teknolojiler
1. Açık Veri ile ETL Hattı Başlangıç Veri çıkarma, temizleme ve yükleme; Sütunlu biçimlerle çalışma; Bulut veri ambarı. Python, Polars (veya Pandas), Google BigQuery, Parquet, CSV
2. Hava Durumu Veri Hattı Başlangıç API veri toplama; Veri temizleme; Konteynerleştirme temelleri; SQL depolama. Python, Open-Meteo API, PostgreSQL, Docker, SQL
3. Londra Ulaşım Analizi Başlangıç Büyük ölçekli veri analizi; Büyük veri kavramları; Sorgu bağlamını anlama. Snowflake, Amazon Redshift, BigQuery veya Databricks
4. Kod İncelemesi Yapma Orta Kod değerlendirme; Hata tespiti; Mantık hatası belirleme; Akran geri bildirimi. Kod İnceleme Araçları (Genel), Git
5. Perakende Veri Hattı Oluşturma Orta Hat tasarımı; Çok kaynaklı çıkarım; Veri tutarlılığı; Optimizasyon. SQL, Parquet, Python, Veritabanı Araçları
6. Öğrenci Başarısını Etkileyen Faktörler Orta Karmaşık SQL sorgulama; Eğilim belirleme; Hipotez testi; Veri yorumlama. SQL (İlişkisel Veritabanları)
7. Yüksek Performanslı Yerel Analitik Orta Sütunlu vs. Satır bazlı depolama; Sunucusuz SQL; Kıyaslama; Yerelde büyük veri işleme. DuckDB, Parquet, NYC Taxi/Citibike Verisi
8. PySpark ile Veri Kümesi Temizleme İleri Dağıtık hesaplama; Büyük ölçekli veri alımı; Spark ile ETL. PySpark, Apache Spark, Python
9. dbt ile Veri Modelleme İleri Veri modelleme; Yazılım mühendisliği en iyi uygulamaları (CI/CD, test); SQL dönüşümleri. dbt (Data Build Tool), Google BigQuery, Git
10. Airflow & Snowflake ETL İleri DAG oluşturma; API bağlantısı; Bulut depolama entegrasyonu; İş Zekası (BI). Apache Airflow, Amazon S3, Snowflake, Tableau, Python
11. AWS'de Hacker News ETL İleri Orkestrasyon; İç içe JSON işleme; Veri Gölleri; Sunucusuz SQL; Altyapı yönetimi. Apache Airflow, AWS S3, AWS Glue, AWS Athena, AWS Redshift
12. Gerçek Zamanlı Veri Hattı İleri Gerçek zamanlı veri akışı; Yüksek hacimli alım; İzleme & uyarı; Olay güdümlü mimari. PySpark, Apache Kafka, Amazon Redshift

Sonuç

Bu yazı, veri mühendisliği becerilerinizi pratiğe dökmenize yardımcı olacak mükemmel projeler sundu. 

Her aracın arkasındaki temel kavramları anlamaya odaklanın; bu sayede bu projeleri iş arayışınızda kullanabilir ve başarıyla anlatabilirsiniz. Zorlandığınız kavramları mutlaka gözden geçirin.

Bir proje portföyü oluşturmanın yanı sıra,  Python ile Profesyonel Veri Mühendisi yolunu almanızı ve veri mühendisliği sertifikası edinmeye çalışmanızı öneririm. Bu, ilgili dersleri tamamlama kararlılığınızı gösterdiği için özgeçmişinize değerli bir katkı olabilir.

SSS

Veri mühendisliği projelerine başlamak için hangi becerilere ihtiyacım var?

Başlangıç seviyesindeki projeler için Python veya SQL’de temel programlama bilgisi ve veri temel kavramlarına (temizleme ve dönüştürme gibi) dair anlayış faydalıdır. Orta ve ileri seviye projeler genellikle Apache Airflow, Kafka veya BigQuery ya da Redshift gibi bulut tabanlı veri ambarları gibi belirli araç bilgileri gerektirir.

Veri mühendisliği projeleri portföy oluşturmama nasıl yardımcı olur?

Veri mühendisliği projelerini tamamlamak, büyük ölçekte veriyle çalışma, sağlam hatlar kurma ve veritabanlarını yönetme becerinizi sergilemenizi sağlar. Uçtan uca iş akışlarını (veri alımından analize) kapsayan projeler, potansiyel işverenlere pratik becerileri gösterdiğinden portföy için son derece değerlidir.

AWS ve Google BigQuery gibi bulut araçları veri mühendisliği projeleri için gerekli mi?

Kesin olarak gerekli olmasa da bulut araçları modern veri mühendisliği için oldukça önemlidir. Birçok şirket ölçeklenebilirlik ve erişilebilirlik için bulut tabanlı platformlara güvendiğinden, AWS, Google BigQuery ve Snowflake gibi araçları öğrenmek size avantaj sağlayabilir ve becerilerinizi sektör ihtiyaçlarıyla uyumlu hale getirebilir.

Beceri seviyeme uygun doğru veri mühendisliği projesini nasıl seçerim?

Temel araçlara dair bilginizi ve konfor seviyenizi değerlendirerek başlayın. Yeni başlayanlar için veri temizleme veya Python'da basit bir ETL hattı oluşturma gibi projeler harikadır. Orta düzey projeler veritabanlarını ve daha karmaşık sorguları içerebilirken, ileri düzey projeler genellikle gerçek zamanlı veya büyük ölçekli veri işleme için (PySpark, Kafka, Redshift gibi) birden çok aracın entegrasyonunu içerir.


Tim Lu's photo
Author
Tim Lu
LinkedIn

Mekânsal analiz, makine öğrenimi ve veri hatları konusunda deneyime sahip bir veri bilimciyim. GCP, Hadoop, Hive, Snowflake, Airflow ve diğer veri bilimi/mühendisliği süreçleriyle çalıştım.

Konular

Bu kurslarla veri mühendisliği hakkında daha fazlasını öğrenin!

Program

Profesyonel Veri Mühendisi Python'da

40 sa
Profesyonel Veri Mühendisi programımızla, günümüzde veri mühendisliği rollerinde devrim yaratan gelişmiş becerilere ve son teknoloji araçlara derinlemesine dalın.
Ayrıntıları GörRight Arrow
Kursa Başla
Devamını GörRight Arrow
İlgili

blog

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Algoritmalar, sistem tasarımı ve davranışsal senaryoları kapsayan bu temel sorularla teknik mülakat sürecine hakim olun. Uzman cevapları, kod örnekleri ve kanıtlanmış hazırlık stratejileri edinin.
Dario Radečić's photo

Dario Radečić

15 dk.

blog

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Ön uç, arka uç, veritabanları, kimlik doğrulama, depolama, e-posta, test, dağıtım ve izleme için en iyi araçları keşfedin.
Abid Ali Awan's photo

Abid Ali Awan

14 dk.

Eğitim

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Git deponuzu temiz tutmak için .gitignore’u nasıl kullanacağınızı öğrenin. Bu eğitim; temelleri, yaygın kullanım durumlarını ve başlamanıza yardımcı olacak pratik örnekleri kapsar!
Kurtis Pykes 's photo

Kurtis Pykes

Eğitim

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

Bu hızlı eğitimde, Python'da bir listeyi string'e nasıl dönüştüreceğinizi öğrenin.
Adel Nehme's photo

Adel Nehme

Devamını GörDevamını Gör