FIFA Dünya Kupası 2026 Şampiyonluk Tahmini: Bir MLOps Rehberi

Otomatik yeniden eğitim ve DVC’den, fikstür ağacının 10.000 çalıştırmalı Monte Carlo simülasyonuna uzanan uçtan uca bir MLOps hattının 2026 Dünya Kupası sonuçlarını nasıl tahmin ettiğini görün.

Güncel 17 Haz 2026 · 15 dk. oku

Yapay Zekâyla Keşfet

ChatGPT'de aç Claude'da aç Perplexity'de aç

Futbolu tahmin etmek zordur. Az gollü bir oyundur; yön değiştiren tek bir şut sonucu tersine çevirebilir ve her maçın hatırı sayılır bir kısmı şansa bağlıdır. Uluslararası futbol daha da zordur: milli takımlar yılda yalnızca birkaç resmi maça çıkar, bu yüzden kulüp liglerine kıyasla öğrenilecek veri çok daha azdır.

Yetmezmiş gibi, FIFA bu yılki Dünya Kupası için görevi bir kez daha zorlaştırdı. 48 takıma çıkarılan Dünya Kupası, on iki grubun her birinden ilk iki takımın ve en iyi üçüncüler arasından on ikide sekiz takımın ilerlediği yeni bir format getiriyor; bu da grup aşaması kaderlerini öngörülemez kılıyor. Güzel bir meydan okumayı (ve futbolu) sevdiğim için, tahmin etmeye çalıştığım şey tam olarak buydu.

Bu, neredeyse baştan sona yeniden inşa ettiğim EURO 2024 tahmin projemin devamıdır. Geçen sefer tamamen Jupyter notebook’larında çalışmış ve maç başına en olası tek skor çizgisini tahmin etmiştim. Bu kez, taze sonuçları alan, kendini yeniden eğiten ve tüm turnuvanın 10.000 kez Monte Carlo simülasyonunu çalıştıran, maç düzeyi tahminleri her takımın ne kadar ileri gideceğine dair olasılıklara dönüştüren uçtan uca bir MLOps hattı kurdum.

Bu yazıda projeyi üst düzeyde anlatacağım: veriler ve özellikler, tekrarlanabilirliği sağlayan MLOps uygulamaları, hat mimarisi ve milli takım futbolunu en iyi hangisi tahmin ediyor. Tüm koda proje deposundan ulaşabilirsiniz. Ve elbette, modelin kimin kazanacağını düşündüğünü söyleyeceğim. (İpucu: İspanya ve Arjantin’i yaklaşık yüzde 16 ile seviyor; ama asıl ilgi çekici olan oraya nasıl ulaştığı.)

Bu yazı sizi turnuva havasına soktuysa, Data & AI World Cup oturumlarımızın kayıtlarını izlemenizi ya da FIFA Dünya Kupası 2026 Tahmini yarışmamıza katılmanızı öneririm. Kazanan yalnızca resmi bir Dünya Kupası forması değil, aynı zamanda 3 aylık Claude Enterprise aboneliği de alır. canlı liderlik tablosu ile güncel kalın.

FIFA Dünya Kupası 2026 Tahmini

Kısa Kısa

Bu, 2026 FIFA Dünya Kupası’nı tahmin eden uçtan uca bir MLOps hattıdır; taze uluslararası sonuçları çekip turnuva sırasında iki saatte bir Google Cloud’da kendini otomatik olarak yeniden eğitir.
API-Football ve Elo derecelendirmelerinden gelen veriler, Bronz-Gümüş-Altın madalyon mimarisiyle işlenir ve tam tekrarlanabilirlik için DVC ile sürümlenir.
Beş aileden on model, 347 maçlık bir ayırma setinde karşılaştırıldı; XGBoost kıl payı kazandı, ilk beş neredeyse ayırt edilemezdi ve takımlar arasındaki Elo farkı öngörülerin büyük kısmını taşıdı.
Bir Monte Carlo simülasyonu, tüm turnuvayı 10.000 kez oynatarak maç düzeyi gol tahminlerini her takımın tur atlama ve kazanma olasılıklarına dönüştürür.
10 Haziran 2026 itibarıyla modelin favorileri İspanya ve Arjantin, yaklaşık yüzde 16’şar payla. Canlı tahminler, her iki saatte bir yenilenen eşlikçi Streamlit panosundan izlenebilir.

Tahminlerin Ardındaki Veriler

Bir tahmin, ancak içine konan şey kadar iyidir; bu yüzden ham malzemelerle başlamak değerli. Model, iki canlı veri kaynağından öğrenir ve bunları tek, derli toplu bir özellik tablosuna dönüştürür.

Veri nereden geliyor

Her şey iki yerden inşa ediliyor. API-Football, fikstürleri ve maç başına istatistikleri sağlar: kim kiminle, ne zaman, nerede oynadı ve nasıl bitti. eloratings.net ise her milli takım için Elo derecelendirmeleri sağlar.

Elo derecesi, bir takımın ne kadar güçlü olduğunu tek bir sayıyla yakalar. Her takım bu ölçekte bir yerde durur ve her maçtan sonra derece güncellenir: daha güçlü bir tarafı yenerseniz çok kazanırsınız; daha zayıf birine kaybederseniz sert düşersiniz. Fikir satrançtan gelir ve futbola da gayet güzel uyarlanır. Tüm sezgiyi istiyorsanız, bu önceki DataCamp yazısı 2022 Dünya Kupası bağlamında üzerinden geçer.

Birlikte ele alındığında, iki kaynak modelin öğrenmesi için 2018’den bu yana yaklaşık 6.900 uluslararası maçtan oluşan bir Altın veri kümesi sunar.

Model neyi tahmin ediyor

İşte ilk önemli tasarım tercihi. Sonucu doğrudan galibiyet, beraberlik veya mağlubiyet olarak tahmin etmek yerine, model daha ayrıntılı bir şeyi tahmin eder: her takımın bir maçta attığı gol sayısını. Futbolda gol sayıları, oldukça iyi bir yaklaşıklıkla, nadir sayılabilecek bir olayın sabit bir zaman diliminde kaç kez gerçekleştiğini modellemenin standart yolu olan Poisson dağılımını izler.

Skordan ziyade golleri tahmin etmek, sonraki her şeyi mümkün kılar. Model herhangi bir eşleşme için makul bir skor üretebildiğinde, herkesin aslında merak ettiği sorular—kim gruptan çıkar, kim kupayı kaldırır—bu skor çizgileri binlerce kez simüle edilerek yanıtlanabilir.

İşinize yarayan özellikler

Her maç, küçük ama dikkatle seçilmiş bir özellik setiyle tanımlanır:

Elo farkı: iki takım arasındaki derece farkı. Bu, modelde açık ara en önemli tek özelliktir; bir sonrakinden yaklaşık iki büyüklük mertebesi daha önemlidir. Bu da sezgiyle uyumludur; zira iki taraf arasındaki güç farkı, olası sonuç hakkında başka hemen her şeyden daha fazla şey söyler.
Elo toplamı: iki derecenin toplamı; fikstürün genel kalitesinin bir temsili. Tek başına fark, Arjantin-İspanya ile San Marino-Andorra maçlarını ayırt edemez; ikisi de denk ama tamamen farklı seviyelerde maçlardır ve toplam bu bilgiyi geri kazandırır.
Yuvarlanan Elo değişimi (son 5 maç): her takımın derecesinin son dönemde ne kadar değiştiği. Bu, karşılaşılan rakiplerin gücünü zaten hesaba katarak formu yakalar.
Yuvarlanan atılan ve yenilen goller (son 5 maç): her takım için mutlak anlamda son dönem hücum ve savunma üretimi.
Maç bağlamı: turnuva kademesi (bir Dünya Kupası maçı, eleme veya Uluslar Ligi karşılaşmasından farklı ağırlık taşır), maçın eleme olup olmadığı ve tarafsız sahada oynanıp oynanmadığı.

Her özellik, katı biçimde sızıntı güvenlidir; yani her biri yalnızca başlama düdüğünden önce mevcut olan bilgiyi kullanır. Kulağa bariz gelebilir ama testte harika görünüp gerçek dünyada dağılan bir model kurmanın en kolay yollarından biridir.

Listeye girmeyen bir fikir: Oyun içi istatistiklerden takımları kümelendirerek oluşturulacak bir dizi "oyun stili" özelliği planlamıştım; bu bir gözetimsiz öğrenme adımıydı. Pratikte takımlar anlamlı gruplara ayrılmadı; modele gürültü beslemek yerine vazgeçtim. Olumsuz sonuç da sonuçtur.

Veriyi tekrarlanabilir tutmak

İki kaynaktan veriler sürekli akarken, ham dosyalardan model-uyumlu özelliklere giden yolun her seferinde birebir aynı olması gerekir. Madalyon mimarisi tam da bunu sağlar. Veriyi üç katmanda düzenler:

Bronz: ham veri; geldiği haliyle, dokunulmadan bırakılır.
Gümüş: temizlenmiş ve standartlaştırılmış. Burada iki kaynak arasında takım adlarını eşlerim (yazımlarda nadiren anlaşırlar), şemayı doğrular, Elo derecelerini maç kayıtlarına ekler ve eksik ya da hatalı olanlarla ilgilenirim.
Altın: modelleme katmanı; her özellik hesaplanmış, eğitim için hazır, maç başına tek ve derli toplu bir satır.

Her katman bir sonrakini besler; böylece bir şey tuhaf görünürse, her şeyi bir anda çözmek yerine bir aşama geriye doğru iz sürebilirim. Tüm yolun tekrarlanabilir olması için DVC (Data Version Control) kullanırım. Taze sonuçlar geldiğinde, tek bir dvc repro Gümüş ve Altın’ı Bronz’dan yeniden inşa eder; bir adımı yalnızca girdileri değiştiyse tekrarlar ve ortaya çıkan veri kümelerini sürümleyerek önceki herhangi bir durumu birebir geri çağırmayı mümkün kılar.

En İyi Modeli Seçmek

Golleri tahmin etmek iyi çalışılmış bir problemdir ve bunun için tek bir bariz araç yoktur. Bu yüzden baştan tek bir yaklaşıma bağlı kalmak yerine on tane kurup yarıştırdım.

Rakipler

On model, basit bir temel çizgiyle birlikte beş aileye yayılıyor. Her birinin iç işleyişini bilmeniz gerekmez; önemli olan, gollerin nasıl oluştuğuna dair çok farklı varsayımlar yapmalarıdır.

Aile	Modeller	Temel fikir
Temel çizgi	Ortalama-oran Poisson	Her takımın, tüm özellikleri yok sayarak, uzun vadeli genel ortalamasını attığını varsayar. Diğerlerinin aşması gereken taban.
İstatistiksel	İki değişkenli Poisson, Negatif Binom	İki gol sayısını, olay sayımı için tasarlanmış olasılık dağılımlarıyla doğrudan modellemek.
Bayesçi	Bayesçi Poisson (MCMC)	Aynı sayım fikri; fakat her tahmin etrafında tam bir belirsizlik aralığı döndürür. Hesaplama açısından çok daha zahmetli: diğerlerinden yaklaşık 100 kat daha yavaş uyarlar.
Zaman serisi	SARIMAX	Bir takımın sonuçlarını zaman içinde bir dizi olarak ele alır ve bu diziyi ileriye projekte eder.
Makine öğrenimi	Ridge, Rastgele Orman, XGBoost	Sabit bir denkleme bağlanmadan, desenleri doğrudan özelliklerden öğrenir.
Derin öğrenme	LSTM, 1D CNN	Verideki sırasal ve yerel desenlerin peşine düşen sinir ağları.

Nasıl puanlandılar

On adayla, kazananı göz kararı seçmek mümkün değildi. Bunun yerine, her model üç aşamadan geçer ve koda göre ilerleyip ilerlemediğine karar verilir. Koda dayalı dağıtım denilen şey budur: modeller, manuel ayar yerine otomatik kontrollerle bir ortamdan diğerine terfi ettirilir; böylece tüm seçim süreci tekrarlanabilir ve denetlenmesi kolay kalır.

Deney. Her model, yalnızca 2022 Dünya Kupası öncesinde oynanan uluslararası maçlarda eğitilir. Bunların hepsi eşit ağırlıkta değildir: daha yeni maçlara ve daha yüksek önem dereceli karşılaşmalara daha fazla ağırlık verilir (zaman-aşınma ve maç-önemi ağırlığı); böylece yakın tarihli resmi bir sonuç, eski bir hazırlık maçından daha fazla etki eder. Ardından, her modelin ayarları, çapraz doğrulama kullanılarak Poisson negatif log-likelihood (NLL)’yi en aza indirecek şekilde ayarlanır. NLL, tahmin edilen gol oranlarının takımların attıkları gollerle ne kadar iyi örtüştüğüne dair bir puandır; düşüğü daha iyidir. Sonuç, her modelin en iyi ayarlanmış sürümüdür.
Kalite güvencesi. Bu ayarlı modeller, hiç görmedikleri maçlarda sınanır: 2022 Dünya Kupası artı o tarihten bu yana oynanan altı büyük turnuva (EURO, iki Afrika Uluslar Kupası, Copa América, Asya Kupası ve Gold Cup)—toplam 347 maç. Burada metrik, kaybeden-beraberlik-kazanan gibi doğal sıralı sonuçlarda olasılıklı bir tahminin ne kadar iyi olduğunu ölçen sıralı olasılık skoru (RPS)’na döner ve yine düşüğü daha iyidir. Burada en güçlü model rakip olur. RPS doğru ölçüttür; çünkü gerçek amaç yalnızca toplam golleri değil, takımların ne kadar ileri gideceğini tahmin etmektir.
Dağıt. Rakip, mevcut şampiyonla kıyaslanır. Kazanırsa terfi eder ve turnuvaya tüm mevcut maçlardan öğrenmiş olarak girmesi için tüm veriyle yeniden uydurulur.

Kim kazandı

Peki hangi yaklaşım zirveye çıktı? İşte RPS’ye göre (düşük daha iyi) tam ayırma liderlik tablosu:

Model	Ayırma RPS
XGBoost	0.18289
Bayesçi Poisson	0.18316
Negatif Binom	0.18373
İki değişkenli Poisson	0.18389
Rastgele Orman	0.18392
SARIMAX	0.18583
Ridge	0.18813
LSTM	0.19299
1D CNN	0.20916
Ortalama-oran Poisson (temel çizgi)	0.22872

Bu sonuçlardan dört şey öne çıkıyor:

XGBoost kazandı ama kıl payı. İlk beş model (XGBoost, Bayesçi Poisson, Negatif Binom, İki Değişkenli Poisson ve Rastgele Orman) birbirlerinden yaklaşık 0.0011 RPS içinde bitirdi. Çok farklı beş yaklaşım bu kadar yakınsa, tavanı belirleyenin model değil, veri ve özellikler olması muhtemeldir. Burada Elo farkı işin büyük kısmını yaptığı için model seçimi iğneyi pek oynatmıyor.
Tek bir özellik baskın. Elo farkı, açık ara farkla en önemli kestirimciydi; bir sonrakinden kabaca yüz kat daha etkili. Bu şaşırtmaktan ziyade güven vericidir: tek maçta iki takım arasındaki güç farkı, hikâyenin gerçekten de büyük kısmıdır.
Derin öğrenme sonlarda kaldı, temel çizgi hariç. 1D CNN ve LSTM, naif temel çizgi dışında en zayıf modellerdi. Öğrenilecek yalnızca yaklaşık 7.000 maç varken, bu kadar çok parametreli ağları besleyecek veri yok; klasik yöntemler küçük, yapılı veri kümelerinde çok daha iyi başa çıkar.
Klasik modellerde aşırı uyum belirtisi yok. Normalde bir model, eğitimde olduğundan görülmemiş veride biraz daha kötü performans gösterir. Burada neredeyse her model (LSTM hariç) çapraz doğrulamaya göre ayırma turnuvalarında daha iyi skor aldı. Muhtemel neden, turnuva futbolunun sıradan uluslararası takvime göre daha öngörülebilir olması: daha yüksek bahis, daha güçlü ve daha aşina takımlar, tarafsız sahalar—hepsi rastgeleliği bir miktar azaltır.

Canlı turnuva için onunun hepsini çalıştırmıyorum. Daha küçük bir kadro tutuyorum: referans noktası olarak ortalama-oran temel çizgisi ve en iyi üç performans gösteren. XGBoost ve Bayesçi Poisson ilk iki sırayı doğrudan alıyor.

Üçüncülük fiilen beraberlik: Negatif Binom ve İki Değişkenli Poisson birbirlerinden 0.0002 RPS içinde bitiriyor ve rastgele tohuma bağlı olarak yer değiştiriyor; istatistiksel olarak ayırt edilemeyen iki model arasında, futbol tahmini literatüründe (Karlis ve Ntzoufras, 2004) daha sağlam temele sahip olduğu için İki Değişkenli Poisson’u seçtim.

Böylece kadro; XGBoost (makine öğrenimi), İki Değişkenli Poisson (klasik istatistik) ve Bayesçi Poisson (Bayesçi çıkarım) olarak kalıyor. Bir sonraki bölüm bu modellerin nasıl çalıştığını, yeniden eğitildiğini ve tek maç tahminlerini tam turnuva öngörüsüne nasıl dönüştürdüğünü kapsıyor.

Üretime Almak

Bir deftere (notebook) sıkışmış model, yalnızca onun başındayken işe yarar. Bir ay sürecek turnuva boyunca maçları tahmin etmek için tüm sistemin kendi kendine çalışması gerekir: yeni sonuçları çekmek, yeniden eğitmek, yeniden simüle etmek ve öngörüyü kimse dokunmadan yenilemek. Bu, hattın işidir.

GCP üzerinde iki saatte bir çalışan hat

Tüm proje, Google Cloud Run üzerinde tek bir zamanlanmış iş olarak çalışır. Turnuva öncesinde günde bir kez uyanır; 11 Haziran’daki açılış maçından itibaren her iki saatte bir çalışır. Her çalıştırma aynı döngüyü izler:

Yeni veri kontrolü. Son çalıştırmadan bu yana biten maç yoksa yapılacak bir şey de yoktur ve iş erken sonlanır.
Al ve yeniden inşa et. Yeni sonuçlar geldiğinde, veri kaynaklarından çekilir ve tek bir dvc repro özellikler güncel olsun diye Gümüş ve Altın katmanlarını yeniden inşa eder.
Yeniden eğit, tahmin et, simüle et. Kadrondaki modeller güncellenir (nasıl olduğuna birazdan geleceğim), yaklaşan tüm eşleşmeler tahmin edilir ve tüm turnuva simüle edilir.
Puanla. Bir maç sonuçlandığında, onun için yapılmış tahminler puanlanır; bu da aşağıda anlatılan izlemenin girdisini sağlar.

Her adım bir zamanlamayla kod tarafından tetiklendiği için, turnuva sırasında manuel düğme basma yoktur. Yeni sonuç içeri, güncellenmiş öngörü dışarı.

İki mod: donmuş vs. tur-bazlı

Proje burada aynı zamanda bir deney işlevi görüyor. Turnuva boyunca kadro iki paralel modda çalışır ve aralarındaki fark, veriden yanıtlamayı umduğum sorudur: Turnuva ilerledikçe yeniden eğitmek tahminleri iyileştirir mi?

Donmuş. Turnuva başlar başlamaz modeller kilitlenir ve bir daha yeniden eğitilmez. Sonuçlara yine tepki verirler; çünkü her simülasyon güncellenmiş ağacı temel alır; ancak model parametrelerinin kendisi değişmez.
Tur-bazlı. Hiperparametreler (üst düzey ayarlar) sabit kalır; ancak modelin öğrendiği parametreler, her tamamlanan grup maç günü ve her eleme turundan sonra eldeki tüm verilerle yeniden uydurulur; böylece modeller, turnuva olurken öğrenmeye devam eder.

İkisini yan yana çalıştırmak, iş bitince iki cephede kıyaslama yapmama olanak tanır: ham kestirim doğruluğu ve alan daraldıkça her birinin belirsizliğinin ne kadar hızlı azaldığı. Eğer tur-bazlı kazanırsa, düzenli yeniden eğitim hakkını verir; donmuş ayakta kalırsa, ekstra mekanik belki de değmez.

Tahminlerden turnuvaya: Monte Carlo simülasyonu

Tek bir maçı tahmin etmek bir şeydir. Bunu “her takımın turnuvayı kazanma şansı nedir”e dönüştürmek ise Monte Carlo simülasyonunun işidir.

Önce, çıkarım. Yalnızca bildiğimiz fikstürleri değil, model 48 takım arasındaki tüm olası eşleşmeleri tahmin eder. Kulağa abartılı gelebilir; ama bir turnuvada herhangi bir takım elemede herhangi bir takımla eşleşebilir; dolayısıyla her ikiliye hazır bir tahmin olmalıdır.

Sonra, kurallar kodlanmalıdır ve 2026 formatı bunu özellikle zahmetli kılar. 12 grubun her birinde ilk iki otomatik ilerler; ancak en iyi üçüncülerden sekizi de öyle; ve bu sekizin her birinin hangi eleme yuvasına gideceği, geldikleri gruplara bağlıdır.

On ikiden sekiz grubu seçmenin 495 yolu vardır (on iki “sekiz seç”), ve her biri farklı bir son 32 eşleşme seti üretir. Temiz bir formül yok; FIFA basitçe bir tablo yayımlar. Bu yüzden ben (daha doğrusu çok yetenekli meslektaşım Cursor) resmi tabloyu kaynak alarak tüm 495 kombinasyonu bir eşlemeye sabit kodladık.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

EFGHIJKL gibi her anahtar, tur atlayan üçüncülerinin hangi sekiz gruptan geldiğini listeler; değerler ise bu takımların (3E, 3F vb.) belirli bir son 32 maç numarasına yerleştirildiği yuvaları gösterir. Bu tek bir girdidir; tam eşleme bunu 495 kez, kombinasyon başına bir kez tekrarlar.

Üç ev sahibi (Amerika Birleşik Devletleri, Kanada ve Meksika) için bir ilave işlem daha var. Bir ev sahibi, kendi ülkesinde oynanan bir maça çıktığında, simülasyon o fikstüre ev sahibi avantajı ayarı uygular; turnuvanın kalanı tarafsız saha kabul edilir.

Tahminler ve kurallar yerindeyken, simülasyon tüm turnuvayı 10.000 kez çalıştırır. Her çalıştırmada şu prosedürü izler:

Modelin öngördüğü dağılımlardan ev sahibi ve deplasman gollerini örnekleyerek her maç için bir skor çizgisi çek
Gerçek puan ve eşitlik bozma kurallarıyla grup aşamasını oyna
En iyi üçüncüler tablosunu çöz
Yukarıdaki eşlemelerden eleme ağacını doldur
Tek bir şampiyona kadar oyna.

10.000 simüle turnuva boyunca, bir takımın finale ulaştığı ya da kupayı kaldırdığı çalıştırma payı, o takımın olasılığına dönüşür. Tek bir çalıştırma bir tahmindir; on bin çalıştırma bir öngörüdür.

Hepsini MLflow ile izlemek

Şimdiye dek anlatılan her çalıştırma, her iki modda da MLflow’a (barındırma: DagsHub) kaydedilir. Deney takibi, her çalıştırmanın girdilerini, ayarlarını, sonuçlarını ve çıktıları sistematik biçimde kaydetmek; böylece bunların her birini diğerleriyle kıyaslayabilmek veya birebir çoğaltabilmek demektir. Kayıt altına alınanlardan bazıları özellikle anılmaya değer:

Tekrarlanabilirlik. Simülasyon, turnuva turundan türetilmiş sabit bir rastgele tohum kullanır ve aynı tohum donmuş ve tur-bazlı modlar arasında paylaşılır. Bu, ikisi arasındaki farkın, simülasyon içindeki kuradan değil, bizzat modellerden kaynaklandığı anlamına gelir. Her çalıştırma, gördüğü tam veri anlık görüntüsünü de (Altın satır sayısı ve zaman damgası) kaydeder; böylece sonuçlar daima girdilerine geri izlenebilir.
Deney. Her çalıştırma, modu (donmuş veya tur-bazlı) ve yaşam döngüsündeki aşaması (deneysel ve KG’den canlı çıkarım ve yeniden uydurma çalıştırmalarına kadar) ile etiketlenir; önceki bölümdeki terfi akışını yansıtır.
Kıyas. Ayırma RPS, seçim metriği olarak; soy zinciri için mevcut şampiyon çalıştırmaya referansla birlikte kaydedilir. Uydurma süresi de kaydedilir; Bayesçi modelin yaklaşık 100 kat yavaş eğitimi de burada siyah-beyaz görünür.

Eğitilmiş modeller ve tahmin dosyalarının kendileri (turnuva olasılıkları, grup sıraları ve maç öngörüleri) çalıştırma artifaktları olarak saklanır ve canlı panonun okuduğu dosyalar tam olarak bunlardır. Böylece döngü tamamlanır: ham sonuçlardan, eğitim ve simülasyon yoluyla, çevrimiçi görebileceğiniz rakamlara.

Kaymayı izlemek

Son parça, maçlar sonuçlandıktan sonra çalışır. Gerçek sonuçlar geldikçe, onlar için yapılmış tahminler puanlanır ve basit ortalama-oran temel çizgisiyle kıyaslanır. Tam modeller, takımlar hakkında hiçbir şey bilmeyen bir modele karşı zemin kaybetmeye başlarsa, bu bir kayma uyarısıdır: turnuva öncesi öğrenilen desenler, sahada olanlarla artık örtüşmüyor olabilir.

Bunu izlemek, canlı tahminler yapan herhangi bir sistem için standart pratiktir ve nasıl tespit edildiğine dair daha fazlasını veri kayması ve model kayması rehberinde okuyabilirsiniz.

Peki, Dünya Kupasını Kim Kazanır?

Tüm bu mekanikten sonra, işin özü burada.

Favoriler

10 Haziran 2026 itibarıyla, açılış maçından bir gün önce, modelin zirvesi net, hemen arkası kalabalık. İspanya ve Arjantin, kupayı kaldırma şansında yaklaşık yüzde 16’şar payla önde gidiyor. Son şampiyonun (Arjantin) ve son Avrupa şampiyonunun (İspanya) zirvede çıkması, modelin gerçekliğe dayandığına dair güven verici bir akıl kontrolü.

Ardından sıkı bir takip grubu geliyor: Fransa, İngiltere, Brezilya ve Kolombiya en muhtemel kazananları tamamlıyor. Bunlar canlı rakamlardır ve gerçek sonuçlar gelir gelmez oynar; bu yüzden bunları sabit bir kehanet değil, 10 Haziran fotoğrafı olarak düşünün. Pano her zaman anlık rakamları gösterir; en fazla iki saat gecikmeyle.

Canlı pano

Söz açılmışken: Bu yazıdaki her rakam, hat çalıştıkça otomatik güncellenen canlı bir Streamlit uygulamasından gelir. wc2026-predictions.streamlit.app adresinden açabilir ve turnuva boyunca takip edebilirsiniz. Dört ana görünümü vardır:

Turnuva genel bakış: her takımın ne kadar ileri gitmesinin beklendiği, tek bakışta.
Grup sıralamaları: her grup için her takımın birinci, ikinci, üçüncü (en iyi üçüncü kuralı sayesinde üçüncü-çıkan ve üçüncü-elenen ayrımıyla) veya dördüncü bitirme olasılığı.
Maç tahminleri: her grup maçı için ev sahibi galibiyeti, beraberlik veya deplasman galibiyeti şansı ve en olası eleme ağacı.
En sık görülen eleme eşleşmeleri: simülasyonun en sık ürettiği ikililer.

Maç görünümünde not etmeye değer bir tuhaflık: birkaç takım aynı anda iki olası son 32 yuvasında görünüyor. Bu bir hata değil. Bir grubun o kadar dengeli olduğu durumlarda, model bir takımın hangi eleme pozisyonunu alacağını güvenle söyleyemiyor. En iyi üçüncü belirsizliğiyle birleşince, iki sonuç farklı eleme yuvalarına yol açıyor. Türkiye örneğinde, son 16’da iki kez görünmelerine bile neden oldu.

Aşağıdaki görsel, XGBoost modelinin turnuva başlangıcından önce projekte ettiği final turlarını (çeyrek finalden finale) gösteriyor:

Yazı-tura takımı: Amerika Birleşik Devletleri

Bu tarz bir modelin eğlencesi, göz testine ters düşen takımlarda saklıdır ve en net örnek Amerika Birleşik Devletleri. Panoda turnuva genel görünümüne giderseniz, ABD’nin renkte hemen öne çıktığını fark edeceksiniz.

Eş ev sahibi olarak kendi seyircisi önünde oynarken rahat bir başlangıç bekleyebilirsiniz; model çok daha temkinli: gruplarından çıkma şanslarını yalnızca yaklaşık yüzde 54,6 veriyor—tüm alan içinde 13. en düşük (takımların üçte ikisinin çıktığını unutmayın!)—çünkü Avustralya, Paraguay ve Türkiye ile grupları alışılmadık derecede dengeli.

İlginç olan, sonrasında olanlar. Zor da olsa çıktıklarında, ABD takip eden her turda yaklaşık yazı-tura seviyesinde dolaşıyor. Bu yazı-turaları üst üste koyduğunuzda, tüm turnuvayı kazanma şansları yaklaşık yüzde 2’ye geliyor ki bu da 48 takım arasında 13. en yüksek.

Grubundan çıkmada alttan 13., tamamını kazanmakta üstten 13. sırada yer alan bir taraf, yazı-tura takımının neredeyse kusursuz tanımıdır: asla net favori değil, asla tamamen dışarıda değil.

Son Düşünceler

Bu proje epey emek istedi ve tek bir yazının alabileceğinden çok daha geniş bir alanı kapsıyor. Depoda burada yer vermediğim çok şey var: aday modellerin tam seti, özellik mühendisliği ve her şeyi çalışır halde tutan orkestrasyon bunlardan bazıları.

Şimdilik model seçimlerini yaptı ve hakem turnuva olacak. MLOps için de gelseniz, futbol için de, umarım ben izlerken aldığım kadar keyif alırsınız. Maçlar geldikçe canlı öngörüyü takip edebilir ve tahminlerin ne kadar iyi dayandığını görebilirsiniz.

Bahsettiğim kavramlara daha yakından bakmak isterseniz, MLOps Concepts kursumuzu öneririm.

FIFA Dünya Kupası 2026’yı kim kazanacak?

Bir makine öğrenimi modeli futbolda ne kadar isabetli olabilir?

Maç sonucunu değil de neden gol sayısını tahmin ediyoruz?

Her takım için atılacak golleri tahmin etmek, düz bir galibiyet, beraberlik veya mağlubiyet yerine, skor çizgileri üzerinde tam bir olasılık dağılımı üretir. Bu da tüm bir turnuvayı simüle etmeyi mümkün kılar: makul skor çizgilerini örnekleyebildiğiniz anda, grup aşamasını ve eleme ağacını binlerce kez oynatabilir ve her takımın tur atlama veya kazanma şansını okuyabilirsiniz.

Gol sayıları ayrıca Poisson dağılımını makul ölçüde takip eder; bu da bu modelleme tarzına uygundur.

Monte Carlo simülasyonu nedir ve neden 10.000 kez çalıştırılır?

Monte Carlo simülasyonu, doğrudan hesaplanması zor olasılıkları kestirmek için rastgele bir süreci tekrar tekrar oynatır. Burada her çalıştırma, modelin tahminlerinden her maç için bir skor çizgisi çeker ve turnuvayı bir kazanana kadar oynatır; bunu 10.000 kez yapmak, tek maç tahminlerini “İspanya vakaların yaklaşık yüzde 16’sında kazanır” gibi dengeli yüzdelere dönüştürür. Simüle edilmiş tek bir turnuva yalnızca tek bir olası sonuçtur; on bini ise gerçek olasılık yayılımına yaklaşır.

Böyle bir MLOps hattı kurmak için hangi araçlara ihtiyaç var?

Çekirdek parçalar; veri sürümleme (bu projede DVC), deney takibi (MLflow), zamanlı işler çalıştırma yolu (Cloud Scheduler ile Google Cloud Run) ve sonuçları sunma yolu (Streamlit panosu).

Modellerin kendisi, çeşitli Python kütüphanelerinden yararlanır: scikit-learn (Ridge ve rastgele orman), XGBoost (şampiyon), statsmodels ve SciPy (Poisson, iki değişkenli Poisson ve negatif binom regresyonları ile SARIMAX), PyMC (Bayesçi model) ve Keras (LSTM ve CNN); veriyi ise pandas ve NumPy işler.

Bunların hiçbiri tek seferlik bir model için katı biçimde gerekli değildir; ancak birlikte, hattı tekrarlanabilir, yeniden eğitilebilir ve elle müdahale olmadan kendini yenileyebilir kılarlar

Author

Tom Farnschläder

Konular

MLOps

Makine Öğrenimi

Veri Bilimi

En İyi Makine Öğrenimi Kursları

Kurs

Machine Learning'i Anlamak

2 sa

299.3K

Kodlama gerektirmeyen makine öğrenimine giriş.

Ayrıntıları Gör

Kursa Başla

Kurs

MLOps Kavramları

2 sa

43.7K

MLOps ile makine öğrenmesi modellerini yerel not defterlerinden üretimde gerçek iş değeri yaratan işlevsel modellere dönüştürmeyi keşfedin.

Ayrıntıları Gör

Kursa Başla

Kurs

Üretim için Tahmin (Forecasting) Hatları Tasarlama

4 sa

1.4K

Python'da ölçeklenebilir tahmin boru hatlarını tasarlama, otomatikleştirme ve izlemeyi öğrenin.

Ayrıntıları Gör

Kursa Başla

Devamını Gör

İlgili

blog

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Algoritmalar, sistem tasarımı ve davranışsal senaryoları kapsayan bu temel sorularla teknik mülakat sürecine hakim olun. Uzman cevapları, kod örnekleri ve kanıtlanmış hazırlık stratejileri edinin.

Dario Radečić

15 dk.

blog

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Ön uç, arka uç, veritabanları, kimlik doğrulama, depolama, e-posta, test, dağıtım ve izleme için en iyi araçları keşfedin.

Abid Ali Awan

14 dk.

Eğitim

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

Bu hızlı eğitimde, Python'da bir listeyi string'e nasıl dönüştüreceğinizi öğrenin.

Adel Nehme

Eğitim

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Git deponuzu temiz tutmak için .gitignore’u nasıl kullanacağınızı öğrenin. Bu eğitim; temelleri, yaygın kullanım durumlarını ve başlamanıza yardımcı olacak pratik örnekleri kapsar!

Kurtis Pykes

Devamını Gör Devamını Gör

Kısa Kısa

Tahminlerin Ardındaki Veriler

Veri nereden geliyor

Model neyi tahmin ediyor

İşinize yarayan özellikler

Veriyi tekrarlanabilir tutmak

En İyi Modeli Seçmek

Rakipler

Nasıl puanlandılar

Kim kazandı

Üretime Almak

GCP üzerinde iki saatte bir çalışan hat

İki mod: donmuş vs. tur-bazlı

Tahminlerden turnuvaya: Monte Carlo simülasyonu

Hepsini MLflow ile izlemek

Kaymayı izlemek

Peki, Dünya Kupasını Kim Kazanır?

Favoriler

Canlı pano

Yazı-tura takımı: Amerika Birleşik Devletleri

Son Düşünceler

FIFA Dünya Kupası 2026 Şampiyonluk Tahmini SSS

Maç sonucunu değil de neden gol sayısını tahmin ediyoruz?

Monte Carlo simülasyonu nedir ve neden 10.000 kez çalıştırılır?

Böyle bir MLOps hattı kurmak için hangi araçlara ihtiyaç var?

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Machine Learning'i Anlamak

MLOps Kavramları

Üretim için Tahmin (Forecasting) Hatları Tasarlama

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Machine Learning'i Anlamak