FIFA World Cup 2026: Siegerprognose mit MLOps – der Leitfaden

Erfahre, wie eine End-to-End-MLOps-Pipeline die WM 2026 prognostiziert – vom automatischen Retraining und DVC bis zur 10.000-laufenden Monte-Carlo-Simulation des Turnierbaums.

Aktualisiert 17. Juni 2026 · 15 Min. lesen

Mit KI erkunden

In ChatGPT öffnen In Claude öffnen In Perplexity öffnen

Fußball vorherzusagen ist schwer. Es ist ein torarmes Spiel, in dem ein abgefälschter Schuss das Ergebnis drehen kann – und ein guter Teil jedes Spiels schlicht Glück ist. Länderspiele sind noch schwieriger: Nationalteams absolvieren pro Jahr nur wenige Pflichtspiele, es gibt also weit weniger Daten als in Vereinsligen.

Und als wäre das nicht genug, hat die FIFA die Aufgabe für diese Weltmeisterschaft noch kniffliger gemacht. Das erweiterte 48-Team-Format bringt eine neue Struktur: Aus zwölf Gruppen kommen die Erst- und Zweitplatzierten weiter – und zusätzlich die acht besten Drittplatzierten. Das macht das Schicksal in der Gruppenphase schwer kalkulierbar. Weil ich Herausforderungen (und Fußball) mag, habe ich genau das vorhergesagt.

Dieser Beitrag knüpft an mein EURO-2024-Vorhersageprojekt an – fast komplett neu aufgebaut. Damals arbeitete ich nur in Jupyter-Notebooks und sagte pro Spiel genau ein wahrscheinlichstes Ergebnis voraus. Diesmal habe ich eine End-to-End-MLOps-Pipeline gebaut, die laufend neue Ergebnisse einliest, sich selbst neu trainiert und das gesamte Turnier 10.000 Mal per Monte-Carlo simuliert – und so aus Spielvorhersagen Wahrscheinlichkeiten ableitet, wie weit jedes Team kommt.

In diesem Artikel führe ich dich durchs Projekt auf hoher Flughöhe: Daten und Features, die MLOps-Praktiken für Reproduzierbarkeit, die Pipeline-Architektur und welches Modell Länderspielfußball am besten trifft. Den vollständigen Code findest du im Projekt-Repo. Und natürlich verrate ich, wen das Modell als Sieger sieht. (Spoiler: Es favorisiert Spanien und Argentinien mit jeweils rund 16 % – spannend ist, wie es zu diesem Ergebnis kommt.)

Wenn dich das in WM-Stimmung bringt, schau dir die Aufzeichnungen unserer Data & AI World Cup-Sessions an oder mach mit bei unserem FIFA World Cup 2026 Prediction-Wettbewerb. Die Gewinnerin oder der Gewinner erhält nicht nur ein offizielles WM-Trikot, sondern auch ein 3‑Monats-Abo für Claude Enterprise. Verfolge alles live auf dem Leaderboard.

FIFA World Cup 2026 Prediction

Auf einen Blick

Diese End-to-End-MLOps-Pipeline sagt die FIFA-WM 2026 voraus, zieht laufend neue Länderspielergebnisse und trainiert während des Turniers alle zwei Stunden automatisch in der Google Cloud neu.
Daten von API-Football und Elo-Ratings laufen durch eine Bronze-Silver-Gold-Medallion-Architektur und werden mit DVC versioniert – für vollständige Reproduzierbarkeit.
Zehn Modelle aus fünf Familien wurden auf einem Holdout mit 347 Spielen verglichen; XGBoost gewann knapp, die Top fünf lagen fast gleichauf, und der Elo-Unterschied zwischen Teams erklärt den Großteil der Vorhersagekraft.
Eine Monte-Carlo-Simulation spielt das Turnier 10.000 Mal durch und verwandelt torbasierte Spielprognosen in die Chancen jedes Teams, weiterzukommen und zu gewinnen.
Stand 10. Juni 2026 sind Spanien und Argentinien die Favoriten mit jeweils rund 16 %. Die Live-Prognosen findest du auf einem begleitenden Streamlit-Dashboard, das alle zwei Stunden aktualisiert.

MLOps-Fähigkeiten heute aufbauen

Fang ganz von vorne an und erwerbe karrierefördernde MLOps-Fähigkeiten.

Kostenloses Lernen Beginnen

Die Daten hinter den Vorhersagen

Eine Prognose ist nur so gut wie ihre Zutaten – deshalb beginnen wir mit dem Rohmaterial. Das Modell lernt aus zwei Live-Datenquellen und formt daraus eine einzige, saubere Feature-Tabelle.

Woher die Daten kommen

Alles basiert auf zwei Quellen. API-Football liefert Spielpläne und Matchstatistiken: Wer spielte gegen wen, wann, wo und wie es endete. eloratings.net liefert Elo-Ratings für jedes Nationalteam.

Ein Elo-Rating ist eine Zahl, die die Stärke eines Teams abbildet. Jedes Team liegt irgendwo auf dieser Skala, und nach jedem Spiel aktualisiert sich der Wert: Sieg gegen einen stärkeren Gegner bringt viel Plus, Niederlage gegen einen schwächeren viel Minus. Die Idee kommt aus dem Schach und passt gut auf Fußball. Eine ausführliche Einführung findest du in diesem früheren DataCamp-Artikel zur WM 2022.

Zusammen ergeben beide Quellen ein Gold-Dataset mit rund 6.900 Länderspielen seit 2018 zum Lernen.

Was das Modell vorhersagt

Hier die erste wichtige Designentscheidung: Statt das Ergebnis direkt als Sieg, Remis oder Niederlage zu tippen, sagt das Modell etwas Feineres voraus – die Anzahl der Tore pro Team. Torzahlen im Fußball folgen näherungsweise einer Poisson-Verteilung, dem Standard, um seltene Ereignisse in einem festen Zeitfenster zu modellieren.

Tore statt Resultate zu prognostizieren macht alles Weitere möglich. Sobald das Modell für jedes Duell plausible Spielstände liefern kann, lassen sich die eigentlichen Fragen – wer übersteht die Gruppe, wer holt den Pokal – beantworten, indem man diese Spielstände tausendfach simuliert.

Die wichtigen Features

Jedes Spiel wird durch eine kleine, bewusst ausgewählte Feature-Menge beschrieben:

Elo-Differenz: die Lücke im Rating zwischen beiden Teams. Mit großem Abstand das wichtigste Feature – etwa zwei Größenordnungen einflussreicher als das nächststärkste. Das passt zur Intuition: Die Stärke der Kontrahenten sagt über den wahrscheinlichen Ausgang mehr aus als fast alles andere.
Elo-Summe: die Summe beider Ratings als Proxy für die Gesamtqualität der Partie. Die Differenz allein unterscheidet Argentinien vs. Spanien nicht von San Marino vs. Andorra – zwei ausgeglichene Spiele auf völlig anderem Niveau. Die Summe stellt diese Information wieder her.
Rollierende Elo-Änderung (letzte 5 Spiele): wie stark sich das Rating beider Teams zuletzt verändert hat. Erfasst Form, bereits gewichtet nach Gegnerstärke.
Rollierende Tore für und gegen (letzte 5 Spiele): jüngste Offensiv- und Defensivleistung je Team in absoluten Zahlen.
Matchkontext: Wettbewerbsstufe (eine WM-Partie wiegt anders als ein Qualispiel oder Nations-League-Spiel), K.-o.-Runde ja/nein und neutrales Stadion ja/nein.

Alle Features sind strikt leakage-sicher – sie nutzen ausschließlich Informationen, die vor Anpfiff vorlagen. Klingt selbstverständlich, ist aber einer der häufigsten Wege, versehentlich ein Modell zu bauen, das im Test glänzt und in der Praxis scheitert.

Ein verworfener Ansatz: Geplant waren "Spielstil"-Features aus Clustering der In-Game-Statistiken, also ein Schritt Unsupervised Learning. In der Praxis ergaben sich keine sinnvollen Cluster – statt Rauschen zu füttern, habe ich es weggelassen. Auch negative Ergebnisse sind Ergebnisse.

Daten reproduzierbar halten

Wenn Daten fortlaufend aus zwei Quellen eintrudeln, muss der Weg von Rohdaten zu modellfertigen Features jedes Mal identisch sein. Genau das liefert eine Medallion-Architektur mit drei Schichten:

Bronze: Rohdaten im Anlieferungszustand, unangetastet.
Silver: bereinigt und standardisiert. Hier gleiche ich Teamnamen zwischen den Quellen ab (Schreibweisen differieren oft), validiere das Schema, füge Elo-Ratings zu den Matchdaten hinzu und behandle fehlende oder fehlerhafte Einträge.
Gold: die Modelling-Schicht, eine saubere Zeile pro Spiel mit allen berechneten Features – fertig zum Trainieren.

Jede Schicht speist die nächste. Wenn etwas komisch aussieht, kann ich schrittweise zurückverfolgen, statt alles auf einmal zu entwirren. Für Reproduzierbarkeit nutze ich DVC (Data Version Control). Kommen neue Ergebnisse rein, baut ein dvc repro Silver und Gold aus Bronze neu – Schritte werden nur neu gerechnet, wenn sich ihre Inputs geändert haben – und versioniert die resultierenden Datasets, sodass frühere Stände exakt wiederherstellbar sind.

Das beste Modell wählen

Tore vorherzusagen ist gut erforscht – ein klares "One-Size-Fits-All"-Tool gibt es nicht. Also habe ich zehn Ansätze gebaut und gegeneinander antreten lassen.

Die Kandidaten

Die zehn Modelle decken fünf Familien plus eine einfache Baseline ab. Die Interna musst du nicht kennen – wichtig ist, dass sie sehr unterschiedliche Annahmen darüber treffen, wie Tore entstehen.

Familie	Modelle	Kernidee
Baseline	Mean-rate Poisson	Nimmt an, jedes Team erzielt einfach seinen langfristigen Durchschnitt – ignoriert alle Features. Die Unterkante, die alle anderen schlagen müssen.
Statistik	Bivariate Poisson, Negative Binomial	Modelliert die beiden Torzahlen direkt mit Zählverteilungen.
Bayes	Bayesian Poisson (MCMC)	Gleiche Grundidee, liefert aber eine vollständige Unsicherheitsverteilung um jede Schätzung. Deutlich rechenintensiver: etwa 100-mal langsamer zu fitten.
Zeitreihen	SARIMAX	Behandelt Teamresultate als Sequenz über die Zeit und projiziert sie nach vorn.
Machine Learning	Ridge, Random Forest, XGBoost	Lernt Muster direkt aus den Features ohne feste Funktionsform.
Deep Learning	LSTM, 1D CNN	Neuronale Netze, die sequentielle und lokale Muster suchen.

So wurde bewertet

Bei zehn Kandidaten geht Augenmaß nicht. Jedes Modell durchläuft drei Stufen – und der Code entscheidet, ob es weiterkommt. Das ist Code-basierte Deployment: Modelle werden per automatischer Checks in die nächste Umgebung befördert, nicht per Handabstimmung – dadurch bleibt die Auswahl reproduzierbar und prüfbar.

Experiment. Trainiert wird nur auf Länderspielen vor der WM 2022. Nicht alle Spiele zählen gleich: Neuere und hochkarätigere Partien wiegen stärker (Zeitverfall und Wettbewerbsgewichtung), sodass ein frisches Pflichtspielergebnis das Modell stärker prägt als ein altes Freundschaftsspiel. Hyperparameter werden mittels Cross-Validation so abgestimmt, dass die Poisson Negative Log-Likelihood (NLL) minimal wird. NLL misst, wie gut die prognostizierten Torraten zu den tatsächlich erzielten Toren passen – je niedriger, desto besser. Ergebnis: die bestgetunten Varianten aller Modelle.
Qualitätssicherung. Diese Varianten werden auf unbekannten Spielen getestet: der WM 2022 plus sechs großen Turnieren seither (EURO, zwei Africa Cup of Nations, Copa América, Asienmeisterschaft und Gold Cup) – insgesamt 347 Spiele. Die Metrik wechselt hier zum Ranked Probability Score (RPS), der misst, wie gut eine probabilistische Vorhersage bei geordneter Zielgröße ist (Niederlage, Remis, Sieg) und belohnt sichere Tendenzen. Wieder gilt: niedriger ist besser. Das stärkste Modell wird der Challenger. RPS ist passend, weil es letztlich darum geht, wie weit Teams kommen – nicht nur um Torzahlen.
Deployment. Der Challenger tritt gegen den amtierenden Champion an. Gewinnt er, wird er befördert und auf allen verfügbaren Spielen neu gefittet – damit er mit maximalem Wissen ins Turnier geht.

Der Sieger

Welcher Ansatz gewann? Hier das vollständige Holdout-Ranking nach RPS (niedriger ist besser):

Modell	Holdout RPS
XGBoost	0,18289
Bayesian Poisson	0,18316
Negative Binomial	0,18373
Bivariate Poisson	0,18389
Random Forest	0,18392
SARIMAX	0,18583
Ridge	0,18813
LSTM	0,19299
1D CNN	0,20916
Mean-rate Poisson (Baseline)	0,22872

Vier Punkte stechen heraus:

XGBoost gewann – aber hauchdünn. Die Top fünf (XGBoost, Bayesian Poisson, Negative Binomial, Bivariate Poisson, Random Forest) liegen innerhalb von ca. 0,0011 RPS. Wenn sehr unterschiedliche Ansätze so dicht beieinander landen, setzt meist der Datensatz samt Features die Decke – nicht das Modell. Hier erledigt die Elo-Differenz so viel Arbeit, dass die Modellwahl wenig ausmacht.
Ein Feature dominiert. Die Elo-Differenz war mit weitem Abstand der wichtigste Prädiktor – rund hundertmal einflussreicher als das nächste Feature. Beruhigend und erwartbar: In einem einzelnen Spiel ist der Stärkeunterschied fast die ganze Geschichte.
Deep Learning landet hinten – Baseline ausgenommen. 1D CNN und LSTM waren die schwächsten Modelle außer der naiven Baseline. Mit nur etwa 7.000 Spielen zum Lernen gibt es schlicht zu wenig Daten für Netze mit so vielen Parametern; klassische Verfahren kommen mit kleinen, strukturierten Datensätzen besser zurecht.
Keine Spur von Overfitting bei den klassischen Modellen. Normalerweise performt ein Modell auf unbekannten Daten etwas schlechter. Hier schnitten fast alle Modelle (außer LSTM) auf den zurückgehaltenen Turnieren besser ab als in der Cross-Validation. Wahrscheinlich ist Turnierfußball berechenbarer als der Alltag: höhere Einsätze, stärkere und vertrautere Teams, neutrale Plätze – weniger Zufall.

Für das Live-Turnier laufen nicht alle zehn Modelle. Ich behalte eine kleinere Auswahl: die Mean-Rate-Baseline als Referenz und die drei besten Performer. XGBoost und Bayesian Poisson belegen die ersten beiden Plätze.

Platz drei ist de facto ein Unentschieden: Negative Binomial und Bivariate Poisson liegen innerhalb von 0,0002 RPS und tauschen je nach Zufallssamen die Plätze. Zwischen zwei statistisch nicht unterscheidbaren Modellen habe ich den Bivariate Poisson gewählt – seine Formulierung ist in der Fußball-Modeling-Literatur (Karlis & Ntzoufras, 2004) besser verankert.

Damit besteht das Aufgebot aus XGBoost (Machine Learning), Bivariate Poisson (klassische Statistik) und Bayesian Poisson (Bayes-Inferenz). Im nächsten Abschnitt geht es darum, wie diese Modelle laufen, neu trainieren und aus Spielprognosen eine Turnierprognose werden lassen.

Ab in die Produktion

Ein Modell im Notebook ist nur nützlich, solange du davor sitzt. Für ein einmonatiges Turnier muss alles autonom laufen: neue Ergebnisse ziehen, neu trainieren, neu simulieren und die Prognose aktualisieren – ohne manuelles Zutun. Das übernimmt die Pipeline.

Die Zwei-Stunden-Pipeline auf GCP

Das gesamte Projekt läuft als geplanter Job auf Google Cloud Run. Vor Turnierstart einmal täglich; ab dem Eröffnungsspiel am 11. Juni alle zwei Stunden. Jeder Lauf folgt demselben Zyklus:

Auf neue Daten prüfen. Wenn seit dem letzten Lauf keine Spiele beendet wurden, gibt es nichts zu tun – der Job beendet sich früh.
Ingest und Rebuild. Bei neuen Ergebnissen werden die Datenquellen abgefragt und per dvc repro die Silver- und Gold-Schichten aktualisiert.
Retrain, Predict, Simulate. Die Modelle im Aufgebot werden aktualisiert (gleich mehr dazu), alle anstehenden Duelle vorhergesagt und das Turnier simuliert.
Scoring. Sobald ein Spiel beendet ist, werden die dafür abgegebenen Prognosen bewertet – Grundlage für das Monitoring unten.

Weil jeder Schritt zeitgesteuert per Code läuft, braucht es während des Turniers keine manuellen Klicks. Neue Ergebnisse rein, frische Prognose raus.

Zwei Modi: eingefroren vs. rundenweise

Hier wird das Projekt zum Experiment. Während des Turniers laufen zwei Modi parallel – und der Unterschied beantwortet die Kernfrage: Verbessert Retraining im Turnierverlauf die Vorhersagen?

Eingefroren. Modelle werden zum Anpfiff fixiert und nicht mehr neu trainiert. Sie reagieren auf Ergebnisse, weil jede Simulation mit dem aktualisierten Turnierbaum startet – aber die Modellparameter selbst bleiben unverändert.
Rundenweise. Die Hyperparameter bleiben fix, aber die gelernten Parameter werden nach jedem abgeschlossenen Gruppenspieltag und jeder K.-o.-Runde auf allen verfügbaren Daten neu gefittet – die Modelle lernen mit.

Beides nebeneinander erlaubt nach Turnierende den Vergleich in zwei Dimensionen: reine Prognosegüte und wie schnell sich die Unsicherheit abbaut, wenn das Feld schrumpft. Setzt sich der rundenweise Modus durch, lohnt sich regelmäßiges Retraining; hält das Eingefrorene mit, ist der Mehraufwand fraglich.

Von Spielprognosen zur Turnierprognose: die Monte-Carlo-Simulation

Ein einzelnes Spiel zu prognostizieren ist das eine. Daraus die Frage "Wie hoch ist die Chance jedes Teams, das Turnier zu gewinnen?" zu beantworten, ist die Aufgabe der Monte-Carlo-Simulation.

Zuerst die Inferenz. Das Modell sagt nicht nur feststehende Paarungen voraus, sondern alle möglichen Duelle der 48 Teams. Das klingt viel, ist aber nötig – im K.-o.-Baum kann jede Paarung auftreten, also braucht es eine Vorhersage für jedes mögliche Matchup.

Dann müssen die Turnierregeln codiert werden – das 2026-Format ist dabei besonders sperrig. Aus 12 Gruppen kommen die Top 2 sicher weiter, dazu die 8 besten Dritten. Welche K.-o.-Slots diese acht belegen, hängt davon ab, aus welchen Gruppen sie stammen.

Es gibt 495 Möglichkeiten, aus zwölf Gruppen acht zu wählen (zwölf über acht) – jede führt zu einem anderen Round-of-32-Schema. Eine saubere Formel gibt es nicht; die FIFA veröffentlicht schlicht eine Tabelle. Also habe ich (genauer: mein sehr fähiger Kollege Cursor) alle 495 Kombinationen anhand der offiziellen Tabelle hart codiert.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

Jeder Schlüssel wie EFGHIJKL listet, aus welchen acht Gruppen die Drittplatzierten kamen; die Werte ordnen diese Teams (3E, 3F usw.) konkreten Spielen der Runde der 32 zu. Das ist ein Eintrag – die vollständige Mapping-Datei wiederholt das 495-mal, einmal pro Kombination.

Die drei Gastgeber (USA, Kanada, Mexiko) brauchen eine Sonderbehandlung. Spielt ein Gastgeber im eigenen Land, wendet die Simulation für diese Partie einen Heimvorteil an; der Rest des Turniers gilt als neutrales Terrain.

Mit Vorhersagen und Regeln ausgestattet, läuft die Simulation 10.000 Turniere durch. Pro Lauf passiert Folgendes:

Ziehe für jedes Spiel einen Spielstand, indem Heim- und Auswärtstore aus den prognostizierten Verteilungen gesampelt werden
Spiele die Gruppenphase nach echten Punkte- und Tiebreak-Regeln
Bestimme die besten Dritten
Fülle den K.-o.-Baum per Mapping
Spiele bis zum Champion durch.

Über 10.000 simulierte Turniere wird der Anteil der Läufe, in denen ein Team das Finale erreicht oder den Pokal holt, zu dessen Wahrscheinlichkeit. Ein Lauf ist ein Ratespiel; zehntausend Läufe sind eine Prognose.

Tracking mit MLflow

Jeder Lauf in beiden Modi wird in MLflow (gehostet auf DagsHub) geloggt. Experiment-Tracking heißt: Inputs, Einstellungen, Ergebnisse und Outputs systematisch erfassen, um Läufe zu vergleichen oder exakt zu reproduzieren. Ein paar Highlights:

Reproduzierbarkeit. Die Simulation nutzt einen festen Zufallssamen je Turnierrunde – derselbe Seed gilt für eingefrorenen und rundenweisen Modus. Unterschiede stammen also aus den Modellen, nicht aus Losglück in der Simulation. Jeder Lauf protokolliert zudem den genauen Datenstand (Anzahl Gold-Zeilen und Timestamp).
Das Experiment. Jeder Lauf ist mit Modus (eingefroren oder rundenweise) und Lifecycle-Phase getaggt – von Experiment und QA bis zu Live-Inferenz und Refit – analog zum Promotionsfluss oben.
Vergleich. Holdout-RPS wird als Auswahlmetrik geloggt, mit Referenz auf den aktuellen Champion-Lauf. Auch die Trainingszeit wird erfasst – hier sieht man schwarz auf weiß, dass das Bayes-Modell etwa 100-mal langsamer trainiert.

Trainierte Modelle und Vorhersagedateien (Turnierwahrscheinlichkeiten, Gruppenstände, Spielprognosen) werden als Artefakte gespeichert – genau diese Dateien liest das Live-Dashboard. Damit schließt sich der Kreis: von Rohdaten über Training und Simulation bis zu den Zahlen, die du online siehst.

Monitoring auf Drift

Der letzte Baustein läuft, sobald Spiele entschieden sind. Echte Ergebnisse werden mit den dafür abgegebenen Prognosen abgeglichen und gegen die einfache Mean-Rate-Baseline verglichen. Wenn die großen Modelle gegenüber einem Team-blinden Basismodell an Boden verlieren, ist das ein Drift-Signal: Die vor dem Turnier gelernten Muster passen nicht mehr zum Geschehen auf dem Platz.

Solches Monitoring ist Standard für jedes System mit Live-Prognosen. Mehr dazu in diesem Guide zu Data Drift und Model Drift.

Also: Wer wird Weltmeister?

Nach all der Technik kommt hier der Zweck dahinter.

Die Favoriten

Stand 10. Juni 2026, einen Tag vor dem Eröffnungsspiel, ist das Bild an der Spitze klar – und dahinter eng. Spanien und Argentinien führen das Feld mit jeweils rund 16 % Titelchance an. Dass der amtierende Weltmeister (Argentinien) und der amtierende Europameister (Spanien) oben stehen, ist ein gutes Plausibilitätszeichen.

Dahinter jagt ein enges Feld: Frankreich, England, Brasilien und Kolumbien komplettieren die wahrscheinlichsten Sieger. Diese Zahlen sind live und bewegen sich mit jedem Ergebnis – also Schnappschuss vom 10. Juni, keine Weissagung. Das Dashboard zeigt stets den aktuellen Stand, mit maximal zwei Stunden Verzögerung.

Das Live-Dashboard

Alle Zahlen in diesem Artikel stammen aus einer laufenden Streamlit-App, die sich automatisch mit der Pipeline aktualisiert. Du findest sie unter wc2026-predictions.streamlit.app. Vier Hauptansichten:

Turnierüberblick: Wie weit jedes Team voraussichtlich kommt – auf einen Blick.
Gruppenstände: Für jede Gruppe die Wahrscheinlichkeit, Erster, Zweiter, Dritter (aufgeteilt in Dritter-und-weiter vs. Dritter-und-raus, dank Best-of-Third-Regel) oder Vierter zu werden.
Spielprognosen: Für jedes Gruppenspiel die Chance auf Heimsieg, Remis oder Auswärtssieg – plus der wahrscheinlichste K.-o.-Baum.
Häufigste K.-o.-Duelle: Die Paarungen, die die Simulation am häufigsten erzeugt.

Eine Besonderheit in der Spielansicht: Einige Teams tauchen gleichzeitig in zwei möglichen Round-of-32-Slots auf. Das ist kein Bug. Es passiert, wenn eine Gruppe so ausgeglichen ist, dass das Modell die genaue Quali-Position nicht sicher trennen kann. Zusammen mit der Unsicherheit um die besten Dritten führt das zu unterschiedlichen K.-o.-Slots. Bei der Türkei resultierte das sogar in einem doppelten Achtelfinal-Einzug.

Die folgende Grafik zeigt die Schlussrunden (Viertelfinale bis Finale), die das XGBoost-Modell vor Turnierstart projiziert:

Das Münzwurf-Team: USA

Der Reiz eines solchen Modells liegt in Teams, die dem Bauchgefühl widersprechen – bestes Beispiel: die USA. Im Turnierüberblick fällt die USA sofort farblich auf.

Als Co-Gastgeber mit Heimfans könnte man einen bequemen Start erwarten, doch das Modell ist vorsichtiger: Es gibt ihnen nur etwa 54,6 % Chance, die Gruppe zu überstehen – die 13.-niedrigste im gesamten Feld (denk daran: Zwei Drittel der Teams kommen weiter!). Grund ist eine ungewöhnlich ausgeglichene Gruppe mit Australien, Paraguay und der Türkei.

Interessant wird es danach: Schaffen sie es durch die Gruppe, liegen die USA in jeder folgenden Runde ungefähr bei Münzwurfchancen. Stapelst du diese Münzwürfe, ergibt sich rund 2 % Titelchance – die 13.-höchste unter allen 48 Teams.

Ein Team, das beim Gruppenaus 13.-schlechteste und beim Titelgewinn 13.-beste Chancen hat, ist die perfekte Definition eines Münzwurf-Teams: selten Favorit, nie chancenlos.

Fazit

Das Projekt war viel Arbeit und deckt mehr ab, als in einen Artikel passt. Im Repo findest du vieles, das hier fehlte – die komplette Modellkandidatenliste, Feature Engineering und die Orchestrierung, die alles am Laufen hält.

Fürs Erste hat das Modell getippt – das Turnier spricht das Urteil. Ob du wegen MLOps oder wegen Fußball hier bist: Ich hoffe, du hast beim Verfolgen genauso viel Spaß wie ich. Das Live-Forecast aktualisiert sich mit jedem Spiel – schau, wie gut die Prognosen halten.

Wenn du einige der Konzepte vertiefen willst, empfehlen wir unseren Kurs MLOps Concepts.

Wer gewinnt die FIFA-Weltmeisterschaft 2026?

Wie genau kann ein Machine-Learning-Modell Fußball vorhersagen?

Warum sagt ihr die Anzahl der Tore und nicht das Ergebnis voraus?

Was ist eine Monte-Carlo-Simulation – und warum 10.000 Läufe?

Welche Tools brauchst du für so eine MLOps-Pipeline?

Die Kernbausteine sind Datenversionierung (hier: DVC), Experiment-Tracking (MLflow), ein Scheduler für Jobs (Google Cloud Run mit Cloud Scheduler) und eine Möglichkeit, Ergebnisse auszuliefern (ein Streamlit-Dashboard).

Die Modelle nutzen u. a. diese Python-Bibliotheken: scikit-learn (Ridge und Random Forest), XGBoost (der Champion), statsmodels und SciPy (Poisson-, bivariate Poisson- und Negative-Binomial-Regressionen sowie SARIMAX), PyMC (das Bayes-Modell) und Keras (LSTM und CNN) – mit pandas und NumPy für die Daten.

Für ein einmaliges Modell bräuchte es das nicht alles – gemeinsam machen sie die Pipeline aber reproduzierbar und befähigen sie, sich ohne Handarbeit selbst zu retrainen und zu aktualisieren.

Author

Tom Farnschläder

Themen

MLOps

Maschinelles Lernen

Datenwissenschaft

Top-Kurse zu Machine Learning

Kurs

Machine Learning verstehen

2 Std.

299.3K

In diesem Kurs lernst du das spannende Themenfeld des maschinellen Lernens kennen – und du benötigst dafür gar keine Programmierkenntnisse.

Details anzeigen

Kurs Starten

Kurs

MLOps-Konzepte

2 Std.

43.7K

Hier erfährst du, wie du ML-Modelle in den Produktivbetrieb überführst, um einen echten Business Value zu schaffen.

Details anzeigen

Kurs Starten

Kurs

Forecasting-Pipelines für die Produktion entwerfen

4 Std.

1.4K

Im Fokus dieses Kurses stehen skalierbare Prognosepipelines in Python und wie du sie entwirfst, automatisierst und überwachst.

Details anzeigen

Kurs Starten

Verwandt

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.

Hesam Sheikh Hassani

15 Min.

Blog

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Guide mit grundlegenden, fortgeschrittenen und szenariobasierten AWS-Interviewfragen – mit Beispielen aus der Praxis.

Zoumana Keita

15 Min.

Blog

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Finde raus, wie viel du als Business Analyst verdienen kannst und wie du dein jetziges Gehalt aufbessern kannst.

Matt Crabtree

14 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree

Tutorial

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

Finde raus, wie die Fibonacci-Folge funktioniert. Schau dir die mathematischen Eigenschaften und die Anwendungen in der echten Welt an.

Laiba Siddiqui

Mehr Anzeigen Mehr Anzeigen

Auf einen Blick

MLOps-Fähigkeiten heute aufbauen

Die Daten hinter den Vorhersagen

Woher die Daten kommen

Was das Modell vorhersagt

Die wichtigen Features

Daten reproduzierbar halten

Das beste Modell wählen

Die Kandidaten

So wurde bewertet

Der Sieger

Ab in die Produktion

Die Zwei-Stunden-Pipeline auf GCP

Zwei Modi: eingefroren vs. rundenweise

Von Spielprognosen zur Turnierprognose: die Monte-Carlo-Simulation

Tracking mit MLflow

Monitoring auf Drift

Also: Wer wird Weltmeister?

Die Favoriten

Das Live-Dashboard

Das Münzwurf-Team: USA

Fazit

FIFA World Cup 2026: Häufige Fragen zur Siegerprognose

Warum sagt ihr die Anzahl der Tore und nicht das Ergebnis voraus?

Was ist eine Monte-Carlo-Simulation – und warum 10.000 Läufe?

Welche Tools brauchst du für so eine MLOps-Pipeline?

Q2 2023 DataCamp Donates Digest

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Machine Learning verstehen

MLOps-Konzepte

Forecasting-Pipelines für die Produktion entwerfen

Q2 2023 DataCamp Donates Digest

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

Machine Learning verstehen