Kurs
Fußball vorherzusagen ist schwer. Es ist ein torarmes Spiel, in dem ein abgefälschter Schuss das Ergebnis kippen kann, und ein guter Teil jedes Spiels hängt vom Zufall ab. Länderspiele sind noch kniffliger: Nationalteams bestreiten nur wenige Pflichtspiele pro Jahr, also gibt es viel weniger Daten als in Klubwettbewerben.
Und als wäre das nicht genug, hat die FIFA die Aufgabe für diese Weltmeisterschaft noch einmal erschwert. Das erweiterte 48-Team-Format bringt eine neue Struktur: Aus zwölf Gruppen ziehen jeweils die Top 2 weiter – plus acht der zwölf besten Gruppendritten. Das macht die Gruppenphase schwer berechenbar. Weil ich Herausforderungen (und Fußball) mag, wollte ich genau das vorhersagen.
Das hier ist ein Nachfolger meines EURO‑2024‑Projekts, fast komplett neu aufgesetzt. Damals arbeitete ich ausschließlich in Jupyter-Notebooks und sagte pro Spiel genau das wahrscheinlichste Ergebnis voraus. Diesmal habe ich eine End-to-End‑MLOps-Pipeline gebaut, die neue Ergebnisse einspeist, sich selbst neu trainiert und das gesamte Turnier 10.000‑mal per Monte‑Carlo simuliert – und so von Spielprognosen zu Wahrscheinlichkeiten dafür kommt, wie weit jedes Team kommt.
In diesem Artikel führe ich dich auf hoher Flughöhe durchs Projekt: Daten und Features, MLOps‑Praktiken für Reproduzierbarkeit, die Pipeline-Architektur und welches Modell Länderspielfußball am besten vorhersagt. Den kompletten Code findest du im Projekt-Repo. Und natürlich verrate ich dir, wen das Modell als Sieger sieht. (Spoiler: Spanien und Argentinien mit jeweils rund 16%, aber spannend ist, wie es zu diesem Ergebnis kommt.)
Wenn dich das in WM‑Stimmung bringt, empfehle ich unsere Data & AI World Cup‑Woche – eine Session‑Serie darüber, wie Daten und KI den Fußball verändern, live und on‑demand kostenlos.
Auf den Punkt
- Eine End-to-End‑MLOps‑Pipeline sagt die FIFA‑WM 2026 voraus, zieht laufend neue Länderspielergebnisse und trainiert während des Turniers alle zwei Stunden automatisch auf Google Cloud neu.
- Daten aus API‑Football und Elo‑Ratings laufen durch eine Bronze‑Silver‑Gold‑Medallion‑Architektur und werden mit DVC versioniert – für vollständige Reproduzierbarkeit.
- Zehn Modelle aus fünf Familien wurden auf einem Holdout von 347 Spielen verglichen; XGBoost gewann knapp, die Top 5 lagen nahezu gleichauf, und der Elo‑Unterschied zwischen den Teams leistet den Großteil der Vorhersagearbeit.
- Eine Monte‑Carlo‑Simulation spielt das komplette Turnier 10.000‑mal durch und verwandelt torbasierte Spielprognosen in die Chancen jedes Teams, weiterzukommen und zu gewinnen.
- Stand 10. Juni 2026 sind Spanien und Argentinien die Favoriten mit jeweils rund 16%. Die Live‑Prognosen gibt es auf einem begleitenden Streamlit‑Dashboard, das alle zwei Stunden aktualisiert.
MLOps-Fähigkeiten heute aufbauen
Die Daten hinter den Vorhersagen
Eine Prognose ist nur so gut wie ihre Grundlage – fangen wir also mit den Rohstoffen an. Das Modell lernt aus zwei Live‑Quellen und formt daraus eine saubere, einheitliche Feature‑Tabelle.
Woher die Daten kommen
Alles stammt aus zwei Quellen. API‑Football liefert Spielpläne und pro Spiel Statistiken: Wer gegen wen, wann, wo und mit welchem Ergebnis. eloratings.net liefert Elo‑Ratings für alle Nationalteams.
Ein Elo‑Rating ist eine einzelne Zahl, die die Stärke eines Teams abbildet. Jedes Team liegt irgendwo auf der Skala, und nach jedem Spiel aktualisiert sich der Wert: Sieg gegen einen stärkeren Gegner bringt viel, Niederlage gegen einen schwächeren kostet entsprechend. Die Idee kommt aus dem Schach und passt sehr gut zum Fußball. Wer die Intuition vollständig nachlesen will: dieser frühere DataCamp‑Artikel erklärt es am Beispiel der WM 2022.
Zusammen liefern beide Quellen einen Gold‑Datensatz von rund 6.900 Länderspielen seit 2018 zum Lernen.
Was das Modell vorhersagt
Hier die erste wichtige Designentscheidung. Statt direkt Sieg, Remis oder Niederlage zu prognostizieren, sagt das Modell etwas Granulareres voraus: die Anzahl der Tore, die jedes Team in einem Spiel erzielt. Torzahlen im Fußball folgen näherungsweise einer Poisson‑Verteilung – dem Standard, um seltene Ereignisse in einem festen Zeitfenster zu modellieren.
Tore statt Ergebnisse vorherzusagen macht den Rest überhaupt erst möglich. Sobald das Modell für jedes Duell einen plausiblen Spielstand liefern kann, lassen sich die eigentlichen Fragen – wer kommt aus der Gruppe, wer holt den Pokal – durch tausendfache Simulation dieser Spielstände beantworten.
Die relevanten Features
Jedes Spiel wird durch eine kleine, sorgfältig gewählte Feature‑Menge beschrieben:
- Elo‑Differenz: die Lücke im Rating zwischen beiden Teams. Mit Abstand das wichtigste Feature im Modell – in etwa zwei Größenordnungen bedeutender als das nächststärkere. Das passt zur Intuition: Die Kräfteverhältnisse sagen mehr über das Ergebnis als fast alles andere.
- Elo‑Summe: die Summe beider Ratings als Proxy für die Gesamtqualität des Spiels. Die Differenz allein unterscheidet Argentinien vs. Spanien nicht von San Marino vs. Andorra – beides ausgeglichene Spiele auf völlig unterschiedlichem Niveau; die Summe stellt diese Information wieder her.
- Rollierende Elo‑Änderung (letzte 5 Spiele): wie sich die Ratings beider Teams zuletzt verschoben haben. Erfasst die Form – inklusive der Stärke der Gegner.
- Rollierende erzielte und kassierte Tore (letzte 5 Spiele): jüngste Offensiv‑ und Defensivleistung je Team.
- Spielkontext: Wettbewerbsniveau (WM‑Spiel vs. Quali vs. Nations League), K.o.‑Spiel ja/nein und neutrales Stadion ja/nein.
Alle Features sind strikt leakage‑sicher, nutzen also nur Informationen, die vor Anpfiff vorlagen. Klingt selbstverständlich, ist aber einer der einfachsten Wege, aus Versehen ein scheinbar brillantes, in der Praxis aber fragiles Modell zu bauen.
Eine verworfene Idee: Geplant waren „Spielstil“-Features, gebildet durch Clustering der Teams anhand In‑Game‑Statistiken – ein Schritt des unüberwachten Lernens. In der Praxis ergaben sich keine sinnvollen Gruppen. Statt Rauschen zu füttern, habe ich sie gestrichen. Negative Ergebnisse sind auch Ergebnisse.
Daten reproduzierbar halten
Wenn Daten fortlaufend aus zwei Quellen eintrudeln, muss der Weg von Rohdaten zu modellbereiten Features jedes Mal identisch sein. Genau das liefert eine Medallion‑Architektur. Sie organisiert Daten in drei Schichten:
- Bronze: Rohdaten, unverändert so belassen, wie sie ankommen.
- Silver: bereinigt und standardisiert. Hier gleiche ich Teamnamen zwischen den Quellen ab (Schreibweisen variieren), prüfe das Schema, mape die Elo‑Ratings auf die Spielaufzeichnungen und behebe fehlende oder fehlerhafte Einträge.
- Gold: die Modellschicht – eine saubere Zeile pro Spiel mit allen berechneten Features, bereit fürs Training.
Jede Schicht speist die nächste. Wenn etwas komisch aussieht, kann ich es Stufe für Stufe zurückverfolgen statt alles auf einmal zu entwirren. Für die Reproduzierbarkeit nutze ich DVC (Data Version Control). Sobald neue Ergebnisse eintreffen, baut ein dvc repro Silver und Gold aus Bronze neu auf, führt Schritte nur bei geänderten Eingaben aus und versioniert die Datensätze, sodass frühere Zustände exakt wiederherstellbar sind.
Das beste Modell wählen
Tore vorherzusagen ist gut erforscht, ein klar bestes Werkzeug gibt es nicht. Also habe ich statt einer Vorabentscheidung zehn Ansätze gebaut und antreten lassen.
Die Kandidaten
Die zehn Modelle decken fünf Familien plus eine simple Basislinie ab. Du musst die Innereien nicht kennen; wichtig ist, dass sie sehr unterschiedliche Annahmen darüber treffen, wie Tore entstehen.
| Familie | Modelle | Grundidee |
|---|---|---|
| Baseline | Mean‑Rate‑Poisson | Nimmt an, jedes Team treffe schlicht seinen langfristigen Durchschnitt – ohne Features. Die Messlatte, die alle schlagen sollten. |
| Statistisch | Bivariate Poisson, Negative Binomial | Modelliert die beiden Torzahlen direkt mit Zählverteilungen. |
| Bayesian | Bayesian Poisson (MCMC) | Gleiche Zählidee, aber mit vollständiger Unsicherheitsspanne um jede Schätzung. Rechenintensiv: rund 100‑mal langsamer zu fitten als die anderen. |
| Zeitreihe | SARIMAX | Behandelt Teamleistungen als Zeitfolge und projiziert sie nach vorn. |
| Machine Learning | Ridge, Random Forest, XGBoost | Lernt Muster direkt aus den Features ohne feste Funktionsform. |
| Deep Learning | LSTM, 1D CNN | Neuronale Netze, die nach sequentiellen und lokalen Mustern suchen. |
So wurden sie bewertet
Mit zehn Kandidaten geht „per Auge“ nicht. Stattdessen durchläuft jedes Modell drei Stufen, und der Code entscheidet über den Aufstieg. Das ist codebasierte Deployments: Modelle werden per automatischer Checks von einer Umgebung in die nächste befördert, nicht per Handfeintuning – reproduzierbar und prüfbar.
- Experiment. Jedes Modell wird nur auf Länderspielen vor der WM 2022 trainiert. Nicht alle zählen gleich: Neuere Spiele und wichtigere Partien wiegen höher (Zeitverfall und Match‑Importance‑Gewichtung), damit aktuelle Pflichtspiele mehr Einfluss haben als alte Testspiele. Anschließend werden die Hyperparameter so getunt, dass die Poisson Negative Log‑Likelihood (NLL) via Cross‑Validation minimal wird. NLL misst, wie gut vorhergesagte Torraten zu den tatsächlich erzielten Toren passen – je niedriger, desto besser. Ergebnis ist die bestgetunte Variante jedes Modells.
- Qualitätssicherung. Diese getunten Modelle werden auf unbekannten Spielen getestet: der WM 2022 plus sechs großen Turnieren seitdem (EURO, zweimal Afrika‑Cup, Copa América, Asien‑Cup und Gold Cup) – insgesamt 347 Spiele. Hier wechselt die Metrik zum Ranked Probability Score (RPS), der misst, wie gut probabilistische Vorhersagen bei geordneten Outcomes (Niederlage, Remis, Sieg) sind und belohnt, wenn man selbstbewusst grob in die richtige Richtung liegt. Wieder gilt: niedriger ist besser. Das stärkste Modell wird der Challenger. RPS ist passend, weil es letztlich darum geht, wie weit Teams kommen – nicht nur um Torzahlen.
- Deploy. Der Challenger wird mit dem amtierenden Champion verglichen. Gewinnt er, wird er befördert und auf allen verfügbaren Spielen neu fit gemacht – damit er ins Turnier mit maximalem Wissen geht.
Der Sieger
Welcher Ansatz lag vorn? Hier das komplette Holdout‑Ranking nach RPS (niedriger ist besser):
| Modell | Holdout‑RPS |
|---|---|
| XGBoost | 0.18289 |
| Bayesian Poisson | 0.18316 |
| Negative Binomial | 0.18373 |
| Bivariate Poisson | 0.18389 |
| Random Forest | 0.18392 |
| SARIMAX | 0.18583 |
| Ridge | 0.18813 |
| LSTM | 0.19299 |
| 1D CNN | 0.20916 |
| Mean‑Rate‑Poisson (Baseline) | 0.22872 |
Daraus fallen vier Dinge auf:
- XGBoost gewann – aber hauchdünn. Die Top 5 (XGBoost, Bayesian Poisson, Negative Binomial, Bivariate Poisson, Random Forest) lagen innerhalb von etwa 0,0011 RPS. Wenn so unterschiedliche Ansätze so dicht beieinander liegen, setzt meist der Datensatz und die Features die Decke – nicht das Modell. Hier erledigt die Elo‑Differenz so viel Arbeit, dass die Modellwahl den Ausschlag kaum verändert.
- Ein Feature dominiert. Die Elo‑Differenz war mit weitem Abstand der wichtigste Prädiktor – rund hundertmal einflussreicher als das nächste Feature. Beruhigend statt überraschend: In einem einzelnen Spiel ist der Kräfteunterschied nun mal die halbe Miete.
- Deep Learning landet hinten – Baseline ausgenommen. 1D‑CNN und LSTM waren die schwächsten Modelle abseits der naiven Basislinie. Mit nur etwa 7.000 Spielen fehlt schlicht die Datenmenge für Netze mit so vielen Parametern; klassische Methoden kommen mit kleinen, strukturierten Datensätzen besser zurecht.
- Keine Spur von Overfitting bei den klassischen Modellen. Normalerweise schneiden Modelle auf unbekannten Daten etwas schlechter ab. Hier performten fast alle (außer LSTM) auf den zurückgehaltenen Turnieren besser als in der Cross‑Validation. Wahrscheinlich ist Turnierfußball vorhersagbarer: höhere Einsätze, stärkere und vertrautere Teams sowie neutrale Spielorte nehmen Zufall raus.
Für das Live‑Turnier laufen nicht alle zehn. Ich behalte eine kleinere Riege: die Mean‑Rate‑Baseline als Referenz plus die drei Besten. XGBoost und Bayesian Poisson belegen die Top‑Plätze.
Platz drei ist praktisch ein Unentschieden: Negative Binomial und Bivariate Poisson liegen nur 0,0002 RPS auseinander und tauschen je nach Zufallssamen die Plätze. Zwischen zwei statistisch ununterscheidbaren Modellen habe ich mich für Bivariate Poisson entschieden – methodisch besser verankert in der Fußballliteratur (Karlis und Ntzoufras, 2004).
Damit besteht die Riege aus XGBoost (Machine Learning), Bivariate Poisson (klassische Statistik) und Bayesian Poisson (Bayes’sche Inferenz). Im nächsten Abschnitt geht es darum, wie diese Modelle laufen, neu trainieren und aus Einzelspielprognosen eine Turnierprognose machen.
Ab in die Produktion
Ein Modell im Notebook nützt nur, solange du davor sitzt. Für Prognosen über ein Monatsturnier muss alles allein laufen: neue Ergebnisse ziehen, neu trainieren, neu simulieren und die Vorhersage aktualisieren – ganz ohne manuellen Eingriff. Dafür ist die Pipeline da.
Die Zweistunden‑Pipeline auf GCP
Das gesamte Projekt läuft als geplanter Job auf Google Cloud Run. Vor dem Turnier startet er täglich; ab dem Eröffnungsspiel am 11. Juni alle zwei Stunden. Jeder Lauf folgt demselben Zyklus:
- Auf neue Daten prüfen. Wenn seit dem letzten Lauf kein Spiel beendet wurde, gibt es nichts zu tun und der Job endet früh.
- Ingest und Rebuild. Bei neuen Ergebnissen werden die Datenquellen abgefragt, und ein
dvc reprobaut Silver und Gold neu auf, damit die Features aktuell sind. - Retrain, Predict, Simulate. Die Modelle der Riege werden aktualisiert (gleich mehr dazu), alle kommenden Paarungen werden prognostiziert und das komplette Turnier simuliert.
- Scoring. Sobald ein Spiel entschieden ist, werden die dazugehörigen Vorhersagen bewertet – Grundlage fürs Monitoring unten.
Weil jeder Schritt zeitgesteuert per Code ausgelöst wird, braucht es während des Turniers keine Knöpfe. Neues Ergebnis rein, frische Prognose raus.
Zwei Modi: eingefroren vs. rundenweise
Hier dient das Projekt zugleich als Experiment. Während des Turniers laufen zwei Modi parallel – mit der Kernfrage: Macht Retraining im Turnierverlauf die Prognosen besser?
- Eingefroren. Die Modelle werden zum Anpfiff eingefroren und nicht mehr neu trainiert. Sie reagieren auf Ergebnisse, weil jede Simulation vom aktualisierten Turnierbaum startet, aber die Modellparameter bleiben unverändert.
- Rundenweise. Die Hyperparameter bleiben fix, doch die erlernten Parameter werden nach jedem kompletten Gruppenspieltag und jeder K.o.‑Runde auf allen verfügbaren Daten neu fit gemacht – die Modelle lernen also während des Turniers weiter.
Beide nebeneinander zu fahren erlaubt nachher den Vergleich entlang zweier Achsen: reine Prognosegüte und die Geschwindigkeit, mit der sich die Unsicherheit abbaut, je kleiner das Feld wird. Gewinnt „rundenweise“, lohnt sich regelmäßiges Retraining; hält „eingefroren“ mit, ist der Mehraufwand vielleicht nicht nötig.
Von Prognosen zum Turnier: die Monte‑Carlo‑Simulation
Ein einzelnes Spiel vorherzusagen ist das eine. Daraus „Wie hoch ist die Titelchance jedes Teams?“ zu machen, ist die Aufgabe der Monte‑Carlo‑Simulation.
Zuerst die Inferenz. Statt nur die bekannten Spiele zu prognostizieren, sagt das Modell jede mögliche Paarung der 48 Teams voraus. Klingt übertrieben, ist aber nötig: In einem Turnier kann im K.o.‑Teil theoretisch jeder auf jeden treffen.
Als Nächstes müssen die Regeln kodiert werden, was 2026 besonders knifflig ist. Aus 12 Gruppen ziehen die Top 2 automatisch weiter, dazu die acht besten Gruppendritten. Welche K.o.‑Slots diese acht belegen, hängt davon ab, aus welchen Gruppen sie kommen.
Es gibt 495 Möglichkeiten, acht von zwölf Gruppen zu wählen („zwölf über acht“), und jede führt zu anderen Paarungen im Sechzehntelfinale. Es gibt keine elegante Formel dafür; die FIFA veröffentlicht schlicht eine Tabelle. Also habe ich (genauer: mein sehr fähiger Kollege Cursor) alle 495 Kombinationen anhand der offiziellen Tabelle in ein Mapping gegossen.
"best_third_mappings": {
"EFGHIJKL": {
"74": "3F",
"77": "3G",
"79": "3E",
"80": "3K",
"81": "3I",
"82": "3H",
"85": "3J",
"87": "3L"
},
"DFGHIJKL": ...
Jeder Schlüssel wie EFGHIJKL listet, aus welchen acht Gruppen die drittplatzierten Qualifikanten kommen, und die Werte ordnen diese Teams (3E, 3F usw.) konkreten Partien im Sechzehntelfinale zu. Das ist ein Eintrag; vollständig wiederholt sich das Mapping 495‑mal – einmal pro Kombination.
Für die drei Gastgeber (USA, Kanada, Mexiko) gibt es eine Sonderbehandlung. Spielt ein Gastgeber im eigenen Land, wendet die Simulation einen Heimvorteil für diese Partie an; der Rest des Turniers gilt als neutrales Terrain.
Mit Prognosen und Regeln an Bord läuft die Simulation das Turnier 10.000‑mal durch. Pro Lauf folgt sie diesem Ablauf:
- Einen Spielstand für jedes Match ziehen, indem Heim‑ und Auswärtstore aus den vorhergesagten Verteilungen gesampelt werden
- Die Gruppenphase nach realen Punkte‑ und Tiebreak‑Regeln ausspielen
- Die Tabelle der besten Dritten ermitteln
- Den K.o.‑Baum per obigem Mapping befüllen
- Bis zum Champion durchspielen.
Über 10.000 simulierte Turniere wird der Anteil, in dem ein Team das Finale erreicht oder den Titel holt, zu seiner Wahrscheinlichkeit. Ein Durchlauf ist eine Schätzung; zehntausend sind eine Prognose.
Alles tracken mit MLflow
Jeder beschriebene Lauf – in beiden Modi – wird in MLflow (gehostet auf DagsHub) protokolliert. Experiment‑Tracking heißt, Eingaben, Einstellungen, Ergebnisse und Artefakte jedes Laufs systematisch zu erfassen – vergleichbar und exakt reproduzierbar. Ein paar Punkte sind hervorzuheben:
- Reproduzierbarkeit. Die Simulation nutzt einen festen Zufallssamen pro Turnierrunde, der zwischen eingefrorenem und rundenweisem Modus geteilt wird. Unterschiede stammen somit aus den Modellen – nicht aus Losglück in der Simulation. Jeder Lauf loggt außerdem den genauen Daten‑Snapshot (Anzahl Gold‑Zeilen und Timestamp), sodass Ergebnisse immer auf Inputs zurückführbar sind.
- Das Experiment. Jeder Lauf ist mit seinem Modus (eingefroren oder rundenweise) und seinem Lifecycle‑Stadium getaggt – von Experiment und QA bis zu Live‑Inference und Refit – entsprechend dem Promotionsfluss oben.
- Vergleich. Der Holdout‑RPS wird als Auswahlmetrik geloggt, plus Referenz auf den aktuellen Champion‑Run zur Ahnenlinie. Auch die Fit‑Zeit wird erfasst – hier wird der etwa 100‑fach langsamere Fit des Bayes‑Modells schwarz auf weiß sichtbar.
Die trainierten Modelle und die Vorhersagedateien selbst (Turnierwahrscheinlichkeiten, Gruppentabellen, Spielprognosen) werden als Run‑Artefakte gespeichert – genau diese Dateien liest das Live‑Dashboard. Damit ist der Kreis geschlossen: von Rohdaten über Training und Simulation bis zu den Zahlen online.
Drift überwachen
Der letzte Baustein läuft, sobald Spiele beendet sind. Echte Ergebnisse treffen ein, die dazugehörigen Vorhersagen werden bewertet und mit der simplen Mean‑Rate‑Baseline verglichen. Wenn die Vollmodelle gegen ein Modell verlieren, das nichts über die Teams weiß, ist das ein Warnsignal für Drift: Die vor dem Turnier gelernten Muster passen möglicherweise nicht mehr zum Geschehen auf dem Platz.
Darauf zu achten, ist Standard für jedes System mit Live‑Vorhersagen. Mehr dazu in diesem Guide zu Data‑Drift und Model‑Drift.
Also: Wer wird Weltmeister?
Nach all der Technik kommt hier der Zweck.
Die Favoriten
Stand 10. Juni 2026, dem Tag vor dem Eröffnungsspiel, ist das Urteil an der Spitze klar – und dahinter eng. Spanien und Argentinien führen mit je rund 16% Titelchance. Dass der amtierende Weltmeister (Argentinien) und der amtierende Europameister (Spanien) oben stehen, ist ein guter Realitätscheck.
Dahinter folgt ein dichtes Verfolgerfeld: Frankreich, England, Brasilien und Kolumbien komplettieren die wahrscheinlichsten Sieger. Diese Werte sind live und ändern sich, sobald echte Ergebnisse eintrudeln – betrachte sie als Momentaufnahme vom 10. Juni, nicht als Weissagung. Das Dashboard zeigt immer die aktuellen Zahlen, mit maximal zwei Stunden Verzögerung.
Das Live‑Dashboard
Wo wir schon dabei sind: Alle Zahlen in diesem Artikel stammen aus einer Live‑Streamlit‑App, die sich automatisch mit der Pipeline aktualisiert. Du findest sie unter wc2026-predictions.streamlit.app und kannst das Turnier begleiten. Vier Hauptansichten warten:
- Turnierüberblick: auf einen Blick, wie weit jedes Team voraussichtlich kommt.
- Gruppenstand: pro Gruppe die Wahrscheinlichkeit, Erster, Zweiter, Dritter (aufgeteilt in „Dritter und weiter“ vs. „Dritter und raus“ wegen der Best‑Third‑Regel) oder Vierter zu werden.
- Spielprognosen: für jedes Gruppenspiel die Chance auf Heimsieg, Remis oder Auswärtssieg – plus der wahrscheinlichste K.o.‑Baum.
- Häufigste K.o.‑Duelle: die Paarungen, die die Simulation am häufigsten erzeugt.
Eine erwähnenswerte Besonderheit in der Spielansicht: Manche Teams tauchen zeitgleich in zwei möglichen Sechzehntelfinal‑Slots auf. Das ist kein Bug. Es passiert, wenn eine Gruppe so ausgeglichen ist, dass das Modell die genaue Quali‑Position nicht sicher bestimmen kann. Zusammen mit der Unsicherheit bei den besten Dritten führt das zu verschiedenen K.o.‑Slots. Bei der Türkei stand das Team dadurch sogar zweimal im Achtelfinale.
Die folgende Grafik zeigt die Schlussrunden (Viertelfinale bis Finale), die das XGBoost‑Modell vor Turnierstart projiziert:

Das Münzwurf‑Team: USA
Der Reiz eines solchen Modells liegt in den Teams, die dem Bauchgefühl widersprechen – am deutlichsten bei den USA. Im Turnierüberblick sticht die USA farblich direkt ins Auge.
Als Co‑Gastgeber mit Heimkulisse könnte man einen entspannten Start erwarten, doch das Modell ist vorsichtig: Nur rund 54,6% Chance aufs Weiterkommen – die 13‑niedrigste Quote des gesamten Feldes (denk daran: zwei Drittel kommen weiter!) –, weil die Gruppe mit Australien, Paraguay und der Türkei ungewöhnlich ausgeglichen ist.
Spannend ist, was danach kommt. Haben sie sich durchgewurschtelt, liegen die USA in jeder folgenden Runde etwa bei Münzwurf‑Wahrscheinlichkeit. Stapelt man diese Münzwürfe, ergibt sich rund 2% Titelchance – die 13‑höchste von allen 48 Teams.
Ein Team, das beim Gruppenaus 13‑von‑unten und beim Titel 13‑von‑oben rangiert, ist die perfekte Definition eines Münzwurf‑Teams: nie Topfavorit, aber nie chancenlos.
Zum Schluss
Das Projekt war viel Arbeit und deckt mehr ab, als in einen Artikel passt. Im Repo findest du Vieles, das hier nicht unterkam: die komplette Kandidatenliste der Modelle, die Feature‑Engineering‑Schritte und die Orchestrierung, die alles am Laufen hält.
Fürs Erste hat das Modell seine Tipps abgegeben – das Turnier wird sie prüfen. Ob du wegen MLOps oder wegen Fußball hier bist: Ich hoffe, du hast genauso viel Spaß beim Verfolgen wie ich. Die Live‑Prognose aktualisiert sich mit jedem Spiel, sodass du sehen kannst, wie gut die Vorhersagen halten.
Wenn du einige der erwähnten Konzepte vertiefen willst, empfehle ich unseren Kurs MLOps Concepts.
Datenwissenschaftsredakteur bei DataCamp | Prognosen erstellen und mit APIs arbeiten ist genau mein Ding.

