Prediksi Pemenang Piala Dunia FIFA 2026: Panduan MLOps

Lihat bagaimana pipeline MLOps end-to-end memprediksi hasil Piala Dunia 2026, dari pelatihan ulang otomatis dan DVC hingga simulasi Monte Carlo 10.000 kali untuk bagan turnamen.

Diperbarui 17 Jun 2026 · 15 mnt baca

Jelajahi dengan AI

Buka di ChatGPT Buka di Claude Buka di Perplexity

Memprediksi sepak bola itu sulit. Ini adalah olahraga dengan skor rendah di mana satu tembakan yang berbelok arah bisa membalikkan hasil, dan sebagian besar jalannya pertandingan bergantung pada keberuntungan. Sepak bola internasional lebih sulit lagi: tim nasional hanya memainkan beberapa pertandingan kompetitif per tahun, sehingga jauh lebih sedikit data untuk dipelajari dibandingkan liga klub.

Dan seolah itu belum cukup, FIFA kembali membuat tugas ini lebih sulit untuk Piala Dunia tahun ini. Piala Dunia 48 tim yang diperluas memperkenalkan format baru di mana dua tim teratas dari masing-masing dari dua belas grup lolos, bersama delapan dari dua belas tim peringkat ketiga terbaik, membuat nasib fase grup tak terduga. Karena saya menyukai tantangan (dan sepak bola), itulah yang saya coba prediksi.

Ini adalah kelanjutan dari proyek prediksi EURO 2024 saya, yang dibangun ulang hampir dari nol. Waktu itu saya bekerja sepenuhnya di Jupyter notebook dan memprediksi satu skor paling mungkin per pertandingan. Kali ini, saya membangun pipeline MLOps end-to-end yang mengambil hasil terbaru, berlatih ulang sendiri, dan menjalankan simulasi Monte Carlo untuk seluruh turnamen sebanyak 10.000 kali, mengubah prediksi tingkat pertandingan menjadi probabilitas seberapa jauh setiap tim melaju.

Dalam artikel ini, saya akan mengajak Anda menelusuri proyek ini secara garis besar: data dan fiturnya, praktik MLOps yang menjaganya tetap dapat direproduksi, arsitektur pipeline, dan model mana yang ternyata paling baik memprediksi sepak bola tim nasional. Anda dapat menemukan kode lengkap di repo proyek. Dan tentu saja, saya akan memberi tahu Anda siapa yang menurut model akan menang. (Bocoran: model menyukai Spanyol dan Argentina sekitar 16% masing-masing, tetapi bagian menariknya adalah bagaimana model sampai pada kesimpulan itu.)

Jika ini membuat Anda bersemangat menyambut turnamen, saya sarankan menonton rekaman sesi Data & AI World Cup kami, atau ikut serta dalam kompetisi Prediksi Piala Dunia FIFA 2026. Pemenangnya tidak hanya menerima jersey resmi Piala Dunia, tetapi juga langganan Claude Enterprise selama 3 bulan. Tetap ikuti perkembangan melalui papan peringkat live.

Prediksi Piala Dunia FIFA 2026

Intinya

Ini adalah pipeline MLOps end-to-end yang memprediksi Piala Dunia FIFA 2026, menarik hasil internasional terbaru dan berlatih ulang otomatis di Google Cloud, dua jam sekali selama turnamen.
Data dari API-Football dan rating Elo diproses melalui arsitektur medali Bronze-Silver-Gold dan diberi versi dengan DVC untuk reproduktibilitas penuh.
Sepuluh model dari lima keluarga dibandingkan pada 347 pertandingan holdout; XGBoost menang tipis, lima besar hampir tak terpisahkan, dan perbedaan Elo antartim melakukan sebagian besar kerja prediktif.
Simulasi Monte Carlo memainkan seluruh turnamen 10.000 kali, mengubah prediksi gol per pertandingan menjadi peluang setiap tim untuk lolos dan menang.
Per 10 Juni 2026, favorit model adalah Spanyol dan Argentina, masing-masing sekitar 16%. Prediksi live dapat diikuti di dashboard Streamlit yang menyegarkan setiap dua jam.

Data di Balik Prediksi

Sebuah prediksi hanya sebaik masukan yang digunakan, jadi ada baiknya mulai dari bahan bakunya. Model belajar dari dua sumber data live dan mengubahnya menjadi satu tabel fitur yang rapi.

Dari mana data berasal

Semuanya dibangun dari dua tempat. API-Football menyediakan jadwal dan statistik per pertandingan: siapa melawan siapa, kapan, di mana, dan bagaimana hasilnya. eloratings.net menyediakan rating Elo untuk setiap tim nasional.

Rating Elo adalah satu angka yang menangkap seberapa kuat sebuah tim. Setiap tim berada di suatu titik pada skala, dan setelah setiap pertandingan, rating diperbarui: kalahkan lawan yang lebih kuat, Anda mendapat banyak; kalah dari lawan yang lebih lemah, Anda turun tajam. Idenya berasal dari catur dan pas diterapkan ke sepak bola. Jika Anda ingin memahami sepenuhnya, artikel DataCamp sebelumnya ini membahasnya dalam konteks Piala Dunia 2022.

Bersama-sama, dua sumber tersebut memberikan dataset Gold sekitar 6.900 pertandingan internasional sejak 2018 untuk dipelajari.

Apa yang diprediksi model

Inilah pilihan desain penting pertama. Alih-alih memprediksi hasil langsung sebagai menang, seri, atau kalah, model memprediksi sesuatu yang lebih rinci: jumlah gol yang dicetak masing-masing tim dalam satu pertandingan. Jumlah gol dalam sepak bola, dengan pendekatan yang cukup baik, mengikuti distribusi Poisson, cara standar untuk memodelkan seberapa sering suatu kejadian yang relatif jarang terjadi dalam jangka waktu tetap.

Memprediksi gol alih-alih hasil adalah yang membuat semuanya berikutnya menjadi mungkin. Setelah model dapat menghasilkan skor yang masuk akal untuk pasangan mana pun, pertanyaan yang sebenarnya dipedulikan semua orang—siapa yang lolos dari grup dan siapa yang mengangkat trofi—bisa dijawab dengan mensimulasikan skor tersebut ribuan kali.

Fitur-fitur yang penting

Setiap pertandingan dideskripsikan oleh sekumpulan fitur kecil yang dipilih dengan cermat:

Perbedaan Elo: selisih rating antara dua tim. Ini sejauh ini adalah fitur tunggal terpenting dalam model, dengan tingkat kepentingan kira-kira dua orde besaran di atas yang terkuat berikutnya. Itu sesuai intuisi, karena kesenjangan kekuatan antara kedua sisi memberi tahu Anda lebih banyak tentang kemungkinan hasil daripada hampir apa pun.
Jumlah Elo: dua rating dijumlahkan, sebagai proksi kualitas keseluruhan pertandingan. Perbedaan saja tidak bisa membedakan Argentina vs Spanyol dari San Marino vs Andorra, dua laga yang sama kuat di level yang sama sekali berbeda, dan jumlahnya mengembalikan informasi itu.
Perubahan Elo bergulir (5 pertandingan terakhir): seberapa banyak rating masing-masing tim berubah belakangan ini. Ini menangkap performa sekaligus sudah memperhitungkan kekuatan lawan yang dihadapi.
Gol mencetak dan kebobolan bergulir (5 pertandingan terakhir): keluaran menyerang dan bertahan terbaru dalam istilah absolut, dihitung untuk masing-masing tim.
Konteks pertandingan: tingkat kompetisi (pertandingan Piala Dunia membawa bobot berbeda dari kualifikasi atau Nations League), apakah pertandingan itu sistem gugur, dan apakah dimainkan di venue netral.

Setiap fitur benar-benar aman dari kebocoran, artinya masing-masing hanya menggunakan informasi yang tersedia sebelum kick-off. Kedengarannya jelas, tetapi ini adalah salah satu cara termudah untuk tanpa sengaja membangun model yang terlihat brilian saat pengujian dan runtuh di dunia nyata.

Satu ide yang tidak lolos seleksi: saya berencana membuat serangkaian fitur "gaya bermain" yang dibangun dengan mengelompokkan tim dari statistik dalam pertandingan, sebuah langkah pembelajaran tanpa supervisi. Dalam praktiknya, tim-tim tersebut tidak terpisah menjadi kelompok yang bermakna, jadi daripada memberi model noise, saya menghapusnya. Hasil negatif tetaplah hasil.

Menjaga data tetap dapat direproduksi

Dengan data datang dari dua sumber secara bergulir, jalur dari file mentah ke fitur siap model harus identik setiap saat. Itulah yang disediakan oleh arsitektur medali. Ia mengorganisasi data ke dalam tiga lapisan:

Bronze: data mentah, persis seperti saat tiba, dibiarkan tanpa sentuhan.
Silver: dibersihkan dan distandardisasi. Di sini saya memetakan nama tim di antara dua sumber (jarang sekali ejaannya sama), memvalidasi skema, menggabungkan rating Elo ke catatan pertandingan, dan menangani apa pun yang hilang atau tidak valid.
Gold: lapisan pemodelan, satu baris rapi per pertandingan dengan setiap fitur dihitung dan siap untuk dilatih.

Setiap lapisan mengalir ke berikutnya, jadi ketika sesuatu terlihat janggal, saya dapat menelusurinya kembali satu tahap demi tahap alih-alih mengurai semuanya sekaligus. Untuk membuat seluruh jalur dapat direproduksi, saya menggunakan DVC (Data Version Control). Setiap kali hasil baru masuk, satu dvc repro membangun ulang Silver dan Gold dari Bronze, menjalankan ulang sebuah langkah hanya jika inputnya berubah, dan memberi versi pada dataset yang dihasilkan sehingga kondisi sebelumnya dapat dipulihkan persis.

Memilih Model Terbaik

Memprediksi gol adalah masalah yang telah banyak dikaji, dan tidak ada satu alat yang jelas unggul untuk itu. Jadi alih-alih berkomitmen pada satu pendekatan sejak awal, saya membangun sepuluh dan membiarkan mereka bersaing.

Para penantang

Sepuluh model mencakup lima keluarga ditambah baseline sederhana. Anda tidak perlu mengetahui internal masing-masing; intinya adalah mereka membuat asumsi yang sangat berbeda tentang bagaimana gol tercipta.

Keluarga	Model	Gagasan inti
Baseline	Poisson laju-rata	Mengasumsikan setiap tim sekadar mencetak rata-rata jangka panjang keseluruhan, mengabaikan semua fitur. Patokan yang harus dilampaui model lain.
Statistik	Poisson bivariat, Binomial Negatif	Memodelkan dua jumlah gol secara langsung dengan distribusi probabilitas yang dibuat untuk menghitung kejadian.
Bayesian	Poisson Bayesian (MCMC)	Gagasan menghitung yang sama, tetapi mengembalikan rentang ketidakpastian penuh di sekitar setiap estimasi. Jauh lebih menuntut komputasi: sekitar 100 kali lebih lambat untuk dilatih daripada yang lain.
Deret waktu	SARIMAX	Menganggap hasil tim sebagai urutan dari waktu ke waktu dan memproyeksikan urutan itu ke depan.
Pembelajaran mesin	Ridge, Random Forest, XGBoost	Mempelajari pola langsung dari fitur tanpa berkomitmen pada persamaan tetap.
Pembelajaran mendalam	LSTM, 1D CNN	Jaringan saraf yang mencari pola berurutan dan lokal dalam data.

Bagaimana mereka dinilai

Dengan sepuluh kandidat, memilih pemenang dengan pandangan mata jelas tidak akan berhasil. Sebagai gantinya, setiap model melewati tiga tahap, dan kode yang memutuskan apakah ia melaju. Inilah yang dimaksud dengan deployment berbasis kode: model dipromosikan dari satu lingkungan ke lingkungan berikutnya oleh pemeriksaan otomatis alih-alih penyetelan manual, sehingga seluruh seleksi tetap dapat direproduksi dan mudah diaudit.

Eksperimen. Setiap model hanya dilatih pada pertandingan internasional yang dimainkan sebelum Piala Dunia 2022. Tidak semua pertandingan tersebut bernilai sama: pertandingan yang lebih baru dan laga berisiko tinggi diberi bobot lebih (pembobotan peluruhan waktu dan kepentingan pertandingan), sehingga hasil kompetitif terbaru membentuk model lebih besar daripada uji coba lama. Pengaturan setiap model kemudian disetel untuk meminimalkan Poisson negative log-likelihood (NLL) menggunakan cross-validation. NLL hanyalah skor untuk seberapa baik laju gol yang diprediksi cocok dengan gol yang akhirnya dicetak tim, di mana lebih rendah lebih baik. Hasilnya adalah versi terbaik dari setiap model.
Quality assurance. Model yang telah disetel itu kemudian diuji pada pertandingan yang belum pernah mereka lihat: Piala Dunia 2022 plus enam turnamen besar sejak itu (EURO, dua Piala Afrika, Copa América, Piala Asia, dan Gold Cup), total 347 pertandingan. Di sini, metriknya berganti ke ranked probability score (RPS), yang mengukur seberapa baik ramalan probabilistik ketika hasil memiliki urutan alami, seperti kalah, seri, menang, dan memberi penghargaan pada keyakinan yang kira-kira ke arah yang benar. Lebih rendah lebih baik lagi. Model terkuat di sini menjadi penantang. RPS adalah tolok ukur yang tepat karena tujuan sebenarnya adalah memprediksi seberapa jauh tim melaju, bukan hanya total gol.
Deploy. Penantang dibandingkan dengan juara bertahan. Jika menang, ia dipromosikan dan dipasang ulang pada setiap pertandingan yang tersedia, sehingga memasuki turnamen dengan telah belajar dari semua data.

Apa yang menang

Jadi pendekatan mana yang keluar sebagai pemenang? Berikut papan peringkat holdout lengkap, dinilai dengan RPS (lebih rendah lebih baik):

Model	RPS Holdout
XGBoost	0.18289
Poisson Bayesian	0.18316
Binomial Negatif	0.18373
Poisson Bivariat	0.18389
Random Forest	0.18392
SARIMAX	0.18583
Ridge	0.18813
LSTM	0.19299
1D CNN	0.20916
Poisson laju-rata (baseline)	0.22872

Ada empat hal yang menonjol dari hasil ini:

XGBoost menang, tetapi tipis. Lima model teratas (XGBoost, Poisson Bayesian, Binomial Negatif, Poisson Bivariat, dan Random Forest) finis dalam selisih sekitar 0,0011 RPS satu sama lain. Ketika lima pendekatan yang sangat berbeda berakhir sedekat ini, biasanya artinya plafon ditentukan oleh data dan fitur, bukan model. Di sini, perbedaan Elo melakukan begitu banyak pekerjaan sehingga pilihan model nyaris tidak mengubah hasil.
Satu fitur mendominasi. Perbedaan Elo adalah prediktor terpenting dengan selisih lebar, kira-kira seratus kali lebih berpengaruh daripada fitur berikutnya. Itu lebih menenangkan daripada mengejutkan: dalam satu pertandingan, kesenjangan kekuatan antara dua tim memang sebagian besar cerita.
Pembelajaran mendalam finis terakhir, selain baseline. 1D CNN dan LSTM adalah model terlemah selain baseline naif. Dengan hanya sekitar 7.000 pertandingan untuk dipelajari, tidak cukup data untuk memberi makan jaringan dengan begitu banyak parameter; metode klasik jauh lebih mampu menangani dataset kecil yang terstruktur.
Tidak ada tanda overfitting pada model klasik. Biasanya, model tampil sedikit lebih buruk pada data yang belum pernah dilihat dibanding saat pelatihan. Di sini, hampir setiap model (kecuali LSTM) mencetak nilai lebih baik di turnamen holdout daripada pada cross-validation. Alasan paling mungkin adalah sepak bola turnamen lebih dapat diprediksi daripada kalender internasional sehari-hari: taruhannya lebih tinggi, tim-tim lebih kuat dan saling mengenal, serta venue netral mengurangi sebagian unsur acak.

Untuk turnamen live, saya tidak menjalankan semua sepuluh. Saya mempertahankan daftar kecil: baseline laju-rata sebagai titik referensi, plus tiga performer terbaik. XGBoost dan Poisson Bayesian menempati dua posisi teratas.

Posisi ketiga pada dasarnya seri: Binomial Negatif dan Poisson Bivariat finis dalam selisih 0,0002 RPS dan saling bertukar tempat tergantung benih acak, jadi di antara dua model yang secara statistik tak terbedakan, saya memilih Poisson Bivariat, yang rumusannya memiliki pijakan lebih kuat dalam literatur prediksi sepak bola (Karlis dan Ntzoufras, 2004).

Itu menyisakan daftar XGBoost (pembelajaran mesin), Poisson Bivariat (statistik klasik), dan Poisson Bayesian (inferensi Bayesian). Bagian berikut membahas bagaimana model-model tersebut dijalankan, dilatih ulang, dan mengubah prediksi pertandingan tunggal menjadi ramalan turnamen lengkap.

Membawanya ke Produksi

Model yang hidup di notebook hanya berguna saat Anda duduk di depannya. Untuk memprediksi pertandingan sepanjang turnamen sebulan penuh, semuanya harus berjalan sendiri: menarik hasil baru, berlatih ulang, mensimulasikan ulang, dan menyegarkan ramalan tanpa ada yang menyentuhnya. Itulah tugas pipeline.

Pipeline dua jam sekali di GCP

Seluruh proyek berjalan sebagai satu job terjadwal di Google Cloud Run. Sebelum turnamen, ia bangun sekali sehari; mulai laga pembuka pada 11 Juni, ia berjalan setiap dua jam. Setiap run mengikuti siklus yang sama:

Periksa data baru. Jika tidak ada pertandingan yang selesai sejak run terakhir, tidak ada yang perlu dilakukan, dan job keluar lebih awal.
Ingest dan bangun ulang. Ketika hasil baru masuk, data ditarik dari sumber, dan satu dvc repro membangun ulang lapisan Silver dan Gold agar fitur mutakhir.
Latih ulang, prediksi, simulasi. Model dalam daftar diperbarui (lebih lanjut tentang ini sebentar lagi), setiap pertandingan mendatang diprediksi, dan turnamen penuh disimulasikan.
Skor. Setelah sebuah pertandingan tuntas, prediksi yang dibuat untuknya diberi skor, yang mengalir ke pemantauan yang dijelaskan di bawah.

Karena setiap langkah dipicu oleh kode pada jadwal, tidak ada penekanan tombol manual selama turnamen. Hasil baru masuk, ramalan segar keluar.

Dua mode: beku vs. per-putaran

Di sinilah proyek ini berperan ganda sebagai eksperimen. Selama turnamen, daftar model berjalan dalam dua mode paralel, dan perbedaannya adalah pertanyaan yang saya harap bisa dijawab dari data: Apakah melatih ulang seiring turnamen berlangsung membuat prediksi menjadi lebih baik?

Beku. Model dikunci saat turnamen dimulai dan tidak pernah dilatih ulang. Mereka tetap merespons hasil, karena setiap simulasi dimulai dari bagan yang diperbarui, tetapi parameter modelnya sendiri tidak pernah berubah.
Per-putaran. Hyperparameter (pengaturan tingkat tinggi) tetap, tetapi parameter yang dipelajari model dipasang ulang pada semua data yang tersedia setelah setiap matchday fase grup yang selesai dan setiap babak gugur, sehingga model terus belajar dari turnamen saat berlangsung.

Menjalankan keduanya berdampingan memungkinkan saya membandingkannya di dua sisi setelah selesai: akurasi prediksi mentah, dan seberapa cepat ketidakpastian masing-masing menyusut seiring menyempitnya peserta. Jika per-putaran menang, pelatihan ulang rutin terbukti berguna; jika beku mampu bersaing, mesin tambahan itu mungkin tidak sepadan.

Dari prediksi ke turnamen: simulasi Monte Carlo

Memprediksi satu pertandingan adalah satu hal. Mengubahnya menjadi "berapa peluang setiap tim menjuarai turnamen" adalah ranah simulasi Monte Carlo.

Pertama, inferensi. Alih-alih hanya memprediksi jadwal yang sudah kita ketahui, model memprediksi setiap kemungkinan pasangan di antara 48 tim. Kedengarannya berlebihan, tetapi di turnamen, tim mana pun bisa bertemu tim mana pun di fase gugur, jadi prediksi harus siap untuk setiap pasangan.

Berikutnya, aturannya harus dikodekan, dan format 2026 membuatnya sangat rumit. Di 12 grup, dua teratas lolos otomatis, tetapi begitu pula delapan tim peringkat ketiga terbaik, dan slot fase gugur mana yang ditempati masing-masing delapan tim itu bergantung pada dari grup mana mereka berasal.

Ada 495 cara untuk memilih delapan grup yang meloloskan peringkat ketiga dari dua belas (dua belas pilih delapan), dan masing-masing menghasilkan susunan pasangan 32 besar yang berbeda. Tidak ada rumus bersih untuk ini; FIFA hanya menerbitkan tabel. Jadi saya (atau tepatnya rekan saya yang sangat andal Cursor) meng-hardcode semua 495 kombinasi ke dalam sebuah pemetaan, menggunakan tabel resmi sebagai sumber.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

Setiap kunci, seperti EFGHIJKL, mencantumkan grup mana yang memasok tim peringkat ketiga yang lolos, dan nilainya menempatkan masing-masing tim tersebut (3E, 3F, dan seterusnya) ke nomor pertandingan 32 besar tertentu. Itu satu entri; pemetaan lengkap mengulanginya 495 kali, sekali per kombinasi.

Tiga negara tuan rumah (Amerika Serikat, Kanada, dan Meksiko) mendapat perlakuan tambahan. Ketika tuan rumah memainkan pertandingan yang digelar di negaranya sendiri, simulasi menerapkan penyesuaian keunggulan kandang untuk laga tersebut, sementara sisa turnamen diperlakukan sebagai tempat netral.

Dengan prediksi dan aturan yang siap, simulasi menjalankan seluruh turnamen 10.000 kali. Pada setiap run, prosedurnya sebagai berikut:

Mengundi skor untuk setiap pertandingan dengan menyampel gol kandang dan tandang dari distribusi yang diprediksi model
Memainkan fase grup di bawah aturan poin dan tiebreak yang sebenarnya
Menentukan tabel peringkat ketiga terbaik
Mengisi bagan fase gugur dari pemetaan di atas
Memainkan hingga tersisa satu juara.

Di seluruh 10.000 turnamen simulasi, porsi run di mana sebuah tim mencapai final, atau mengangkat trofi, menjadi probabilitas tim tersebut. Satu run adalah tebakan; sepuluh ribu run adalah ramalan.

Melacak semuanya dengan MLflow

Setiap run yang dijelaskan sejauh ini, di kedua mode, dicatat ke MLflow (di-host di DagsHub). Pelacakan eksperimen berarti mencatat secara sistematis input, pengaturan, hasil, dan output dari setiap run, sehingga semuanya bisa dibandingkan satu sama lain atau direproduksi persis. Beberapa hal yang ditangkapnya patut disorot:

Reproduksibilitas. Simulasi menggunakan seed acak tetap yang diturunkan dari babak turnamen, dan seed yang sama dibagikan oleh mode beku dan per-putaran. Artinya, perbedaan apa pun di antara keduanya berasal dari model itu sendiri, bukan dari keberuntungan undian di dalam simulasi. Setiap run juga mencatat snapshot data persis yang dilihat (jumlah baris Gold dan cap waktu), sehingga hasil selalu dapat ditelusuri kembali ke inputnya.
Eksperimen. Setiap run diberi tag dengan modenya (beku atau per-putaran) dan tahapnya dalam siklus hidup, dari eksperimental dan QA hingga run inferensi live dan refit, mencerminkan alur promosi dari bagian sebelumnya.
Perbandingan. RPS holdout dicatat sebagai metrik seleksi, bersama referensi ke run juara saat ini untuk garis keturunan. Waktu fitting juga dicatat, di sinilah pelatihan model Bayesian yang kira-kira 100 kali lebih lambat terlihat jelas.

Model terlatih dan file prediksi itu sendiri (probabilitas turnamen, klasemen grup, dan ramalan pertandingan) disimpan sebagai artefak run, dan file-file itulah yang dibaca oleh dashboard live. Itu menutup lingkaran: dari hasil mentah, melalui pelatihan dan simulasi, hingga angka yang dapat Anda lihat secara online.

Memantau drift

Bagian terakhir berjalan setelah pertandingan tuntas. Saat hasil nyata tiba, prediksi yang dibuat untuknya diberi skor dan dibandingkan dengan baseline laju-rata sederhana. Jika model lengkap mulai tertinggal dari model yang tidak tahu apa-apa tentang tim, itu adalah tanda peringatan drift: pola yang dipelajari sebelum turnamen mungkin tidak lagi cocok dengan apa yang terjadi di lapangan.

Mengawasi hal ini adalah praktik standar untuk sistem apa pun yang membuat prediksi live, dan Anda dapat membaca lebih lanjut tentang cara mendeteksinya dalam panduan data drift dan model drift.

Jadi, Siapa yang Menjuarai Piala Dunia?

Setelah semua mesin itu, inilah tujuannya.

Para favorit

Per 10 Juni 2026, sehari sebelum laga pembuka, putusan model jelas di puncak dan padat tepat di belakangnya. Spanyol dan Argentina memimpin, masing-masing dengan sekitar 16% peluang mengangkat trofi. Fakta bahwa juara dunia bertahan (Argentina) dan juara Eropa bertahan (Spanyol) berada di puncak adalah pemeriksaan kewarasan yang meyakinkan bahwa model berpijak pada realitas.

Di belakang mereka ada kelompok pengejar yang rapat: Prancis, Inggris, Brasil, dan Kolombia melengkapi kandidat pemenang paling mungkin. Ini adalah angka live, dan akan bergerak begitu hasil nyata mulai datang, jadi perlakukan sebagai cuplikan 10 Juni, bukan ramalan tetap. Dashboard selalu menampilkan angka terkini, dengan jeda maksimal dua jam.

Dashboard live

Ngomong-ngomong: Setiap angka dalam artikel ini berasal dari aplikasi Streamlit live yang memperbarui otomatis seiring pipeline berjalan. Anda dapat membukanya di wc2026-predictions.streamlit.app dan mengikutinya sepanjang turnamen. Ada empat tampilan utama:

Gambaran turnamen: seberapa jauh setiap tim diperkirakan melaju, sekilas.
Klasemen grup: untuk setiap grup, probabilitas tiap tim finis pertama, kedua, ketiga (dibagi menjadi peringkat ketiga-lolos vs peringkat ketiga-gagal, berkat aturan peringkat ketiga terbaik), atau keempat.
Prediksi pertandingan: untuk setiap laga grup, peluang kemenangan kandang, seri, atau kemenangan tandang, beserta bagan fase gugur paling mungkin.
Pasangan fase gugur paling umum: pasangan yang paling sering dihasilkan simulasi.

Satu keunikan yang perlu dicatat di tampilan pertandingan: beberapa tim muncul di dua kemungkinan slot 32 besar sekaligus. Itu bukan bug. Ini terjadi ketika sebuah grup begitu berimbang sehingga model tidak dapat dengan yakin menentukan posisi kualifikasi yang akan diambil sebuah tim. Dikombinasikan dengan ketidakpastian peringkat ketiga terbaik, dua hasil itu mengarah ke slot fase gugur yang berbeda. Dalam kasus Turki, ini bahkan membuat mereka dua kali berada di babak 16 besar.

Grafik berikut menunjukkan babak akhir (perempat final hingga final) yang diproyeksikan model XGBoost sebelum kick-off turnamen:

Tim lempar koin: Amerika Serikat

Serunya model seperti ini ada pada tim-tim yang menantang penilaian kasatmata, dan contoh paling jelas adalah Amerika Serikat. Jika Anda membuka gambaran turnamen di dashboard, Anda akan langsung melihat AS menonjol warnanya.

Sebagai tuan rumah bersama yang bermain di depan pendukung sendiri, Anda mungkin mengharapkan start yang nyaman, tetapi model jauh lebih berhati-hati: model hanya memberi mereka sekitar 54,6% peluang lolos dari grup, ke-13 terendah di seluruh peserta (ingat bahwa dua pertiga tim lolos!), karena grup mereka dengan Australia, Paraguay, dan Turki sangat berimbang.

Bagian menariknya adalah apa yang terjadi selanjutnya. Setelah lolos dengan susah payah, AS kemudian berada di sekitar lempar koin di setiap babak berikutnya. Menumpuk lemparan koin itu menghasilkan sekitar 2% peluang menjuarai seluruh turnamen, yang merupakan ke-13 tertinggi dari semua 48 tim.

Tim yang berada di peringkat ke-13 dari bawah untuk lolos grup dan ke-13 dari atas untuk menjuarai turnamen adalah definisi sempurna tim lempar koin: tidak pernah favorit, tidak pernah benar-benar tersisih.

Pikiran Penutup

Proyek ini memakan banyak pekerjaan, dan mencakup jauh lebih banyak hal daripada yang bisa dimuat dalam satu artikel. Repo berisi banyak hal yang tidak masuk di sini: seluruh set kandidat model, rekayasa fitur, dan orkestrasi yang menjaga semuanya tetap berjalan adalah beberapa contohnya.

Untuk saat ini, model telah membuat pilihannya, dan turnamen akan menjadi hakim. Apakah Anda datang untuk MLOps atau sepak bolanya, saya harap Anda menikmati menyaksikannya bergulir sama seperti saya. Anda dapat mengikuti ramalan live seiring pertandingan bergulir dan melihat seberapa baik prediksinya bertahan.

Jika Anda ingin melihat lebih dekat beberapa konsep yang saya sebutkan, saya sarankan mengambil kursus MLOps Concepts kami.

Siapa yang akan menjuarai Piala Dunia FIFA 2026?

Seakurat apa model pembelajaran mesin dalam memprediksi sepak bola?

Mengapa memprediksi jumlah gol alih-alih hasil pertandingan?

Apa itu simulasi Monte Carlo, dan mengapa menjalankannya 10.000 kali?

Simulasi Monte Carlo berulang kali menjalankan sebuah proses acak untuk mengestimasi probabilitas yang sulit dihitung secara langsung. Di sini, setiap run mengundi skor untuk setiap pertandingan dari prediksi model dan memainkan turnamen hingga ada pemenang; melakukannya 10.000 kali mengubah prediksi pertandingan tunggal menjadi persentase stabil seperti "Spanyol menang sekitar 16% dari waktu." Satu turnamen simulasi hanyalah satu kemungkinan hasil, tetapi sepuluh ribu di antaranya mendekati sebaran kemungkinan yang nyata.

Alat apa yang Anda perlukan untuk membangun pipeline MLOps seperti ini?

Komponen utamanya adalah versioning data (proyek ini menggunakan DVC), pelacakan eksperimen (MLflow), cara menjalankan job terjadwal (Google Cloud Run dengan Cloud Scheduler), dan cara menyajikan hasil (dashboard Streamlit).

Modelnya sendiri memanfaatkan campuran pustaka Python: scikit-learn (Ridge dan random forest), XGBoost (sang juara), statsmodels dan SciPy (regresi Poisson, Poisson bivariat, dan binomial negatif, plus SARIMAX), PyMC (model Bayesian), dan Keras (LSTM dan CNN), dengan pandas dan NumPy menangani data.

Tidak satu pun dari ini yang benar-benar wajib untuk model sekali jalan, tetapi bersama-sama mereka membuat pipeline dapat direproduksi serta mampu melatih ulang dan menyegarkan sendiri tanpa kerja manual

Author

Tom Farnschläder

Topik

MLOps

Machine Learning

Data Science

Kursus Machine Learning Teratas

Kursus

Memahami Machine Learning

2 Hr

299.3K

Pengantar machine learning tanpa perlu coding.

Lihat Detail

Mulai Kursus

Kursus

Konsep MLOps

2 Hr

43.7K

Temukan bagaimana MLOps dapat membawa model machine learning dari notebook lokal ke model yang berfungsi di produksi dan menghasilkan nilai bisnis nyata.

Lihat Detail

Mulai Kursus

Kursus

Merancang Pipeline Peramalan untuk Produksi

4 Hr

1.4K

Pelajari cara merancang, mengotomatisasi, dan memantau pipeline peramalan yang skalabel menggunakan Python.

Lihat Detail

Mulai Kursus

Lihat Lebih Banyak

Terkait

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.

Dario Radečić

15 mnt

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.

Javier Canales Luna

14 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.

Hugo Bowne-Anderson

13 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.

David Woods

13 mnt

Lihat Lebih Banyak Lihat Lebih Banyak

Intinya

Data di Balik Prediksi

Dari mana data berasal

Apa yang diprediksi model

Fitur-fitur yang penting

Menjaga data tetap dapat direproduksi

Memilih Model Terbaik

Para penantang

Bagaimana mereka dinilai

Apa yang menang

Membawanya ke Produksi

Pipeline dua jam sekali di GCP

Dua mode: beku vs. per-putaran

Dari prediksi ke turnamen: simulasi Monte Carlo

Melacak semuanya dengan MLflow

Memantau drift

Jadi, Siapa yang Menjuarai Piala Dunia?

Para favorit

Dashboard live

Tim lempar koin: Amerika Serikat

Pikiran Penutup

FAQ Prediksi Pemenang Piala Dunia FIFA 2026

Mengapa memprediksi jumlah gol alih-alih hasil pertandingan?

Apa itu simulasi Monte Carlo, dan mengapa menjalankannya 10.000 kali?

Alat apa yang Anda perlukan untuk membangun pipeline MLOps seperti ini?

40 Pertanyaan Wawancara DBMS Teratas di 2026

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Spaghetti Plot dan Jalur Badai

Tutorial Korelasi di R

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Memahami Machine Learning

Konsep MLOps

Merancang Pipeline Peramalan untuk Produksi

40 Pertanyaan Wawancara DBMS Teratas di 2026

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Spaghetti Plot dan Jalur Badai

Tutorial Korelasi di R

Memahami Machine Learning