Prédiction du vainqueur de la Coupe du monde 2026 : un guide MLOps

Découvrez comment un pipeline MLOps de bout en bout prédit les résultats de la Coupe du monde 2026, de l'entraînement automatisé et DVC à une simulation Monte Carlo du tableau en 10 000 itérations.

Actualisé 17 juin 2026 · 15 min lire

Explorer avec l’IA

Ouvrir dans ChatGPT Ouvrir dans Claude Ouvrir dans Perplexity

Prédire le football n'est pas simple. C'est un sport à faible score où une frappe déviée peut renverser un match, et où une bonne part du résultat tient à la chance. Le football international complique encore l'exercice : les sélections ne disputent que quelques rencontres compétitives par an, ce qui laisse bien moins de données qu'en club.

Et comme si cela ne suffisait pas, la FIFA a corsé l'affaire pour cette Coupe du monde. L'édition élargie à 48 équipes introduit un nouveau format : les deux premiers de chacun des douze groupes se qualifient, ainsi que huit des douze meilleurs troisièmes — rendant les issues de la phase de groupes très difficiles à anticiper. Comme j'aime les défis (et le football), c'est exactement ce que j'ai voulu prédire.

Cet article fait suite à mon projet de prédiction de l'EURO 2024, presque entièrement reconstruit. La dernière fois, je travaillais uniquement dans des notebooks Jupyter et je prédisais, pour chaque match, un seul score le plus probable. Cette fois, j'ai bâti un pipeline MLOps de bout en bout qui ingère les nouveaux résultats, se réentraîne automatiquement et exécute une simulation Monte Carlo de tout le tournoi 10 000 fois, pour transformer des prédictions de buts par match en probabilités d'avancement pour chaque équipe.

Dans cet article, je vous présente le projet dans ses grandes lignes : les données et les variables, les bonnes pratiques MLOps qui garantissent la reproductibilité, l'architecture du pipeline, et le modèle qui s'avère le plus performant pour le football international. Vous trouverez tout le code dans le dépôt du projet. Et bien sûr, je vous dirai qui le modèle voit vainqueur. (Spoiler : il mise sur l'Espagne et l'Argentine, autour de 16 % chacune — mais l'intéressant, c'est comment il y arrive.)

Si cela vous met dans l'ambiance du tournoi, je vous recommande de regarder les enregistrements de nos sessions de la Data & AI World Cup, ou de participer à notre compétition FIFA World Cup 2026 Prediction. Le ou la gagnant·e remporte non seulement un maillot officiel de la Coupe du monde, mais aussi un abonnement de 3 mois à Claude Enterprise. Restez à jour grâce au classement en direct.

FIFA World Cup 2026 Prediction

En bref

Un pipeline MLOps de bout en bout prédit la Coupe du monde 2026, récupère les résultats internationaux frais et se réentraîne automatiquement sur Google Cloud, toutes les deux heures pendant le tournoi.
Les données d'API-Football et les classements Elo sont traitées via une architecture « médaillon » Bronze–Silver–Gold et versionnées avec DVC pour une reproductibilité totale.
Dix modèles issus de cinq familles ont été comparés sur un jeu de 347 matchs en réserve : XGBoost l'emporte de justesse, les cinq premiers sont quasi indissociables, et l'écart Elo entre équipes explique l'essentiel du pouvoir prédictif.
Une simulation Monte Carlo joue le tournoi complet 10 000 fois, transformant les prédictions de buts par match en chances d'avancer puis de gagner pour chaque équipe.
Au 10 juin 2026, les favoris du modèle sont l'Espagne et l'Argentine, à environ 16 % chacune. Les prédictions en direct sont visibles sur un tableau de bord Streamlit actualisé toutes les deux heures.

Développez dès aujourd'hui vos compétences en matière de MLOps

Partez de zéro et acquérez des compétences MLOps qui vous permettront de développer votre carrière.

Commencez À Apprendre Gratuitement

Les données derrière les prédictions

Une prédiction ne vaut que par ce qu'on y met. Autant commencer par la matière première. Le modèle apprend à partir de deux sources de données en direct et les transforme en une table de variables propre et unifiée.

D'où viennent les données

Tout part de deux sources. API-Football fournit le calendrier et les statistiques par match : qui a joué contre qui, quand, où et avec quel score. eloratings.net fournit les classements Elo de chaque sélection nationale.

Un classement Elo est un nombre qui résume la force d'une équipe. Chaque équipe se situe sur l'échelle, et après chaque match, la note bouge : battre plus fort que soi rapporte beaucoup ; perdre contre plus faible coûte cher. Le concept vient des échecs et s'adapte très bien au football. Pour l'intuition complète, cet article DataCamp le détaille dans le contexte de la Coupe du monde 2022.

Ensemble, ces deux sources donnent un jeu de données Gold d'environ 6 900 matchs internationaux depuis 2018.

Ce que le modèle prédit

Voici un premier choix de conception important. Plutôt que de prédire directement l'issue (victoire, nul, défaite), le modèle prédit quelque chose de plus fin : le nombre de buts marqués par chaque équipe dans un match. Les buts au football suivent, à une bonne approximation, une loi de Poisson, la référence pour modéliser la survenue d'événements rares dans une fenêtre de temps fixe.

Prédire les buts plutôt que le résultat rend tout le reste possible. Une fois que le modèle sait générer un score plausible pour n'importe quelle affiche, on peut répondre aux vraies questions — qui sort des groupes, qui soulève le trophée — en simulant ces scores des milliers de fois.

Les variables qui comptent

Chaque match est décrit par un petit ensemble de variables soigneusement choisies :

Écart Elo : la différence de note entre les deux équipes. C'est de loin la variable la plus importante du modèle, avec une importance environ deux ordres de grandeur au-dessus de la suivante. Cela colle à l'intuition : l'écart de niveau en dit plus que presque tout le reste.
Somme des Elo : l'addition des deux notes, un proxy de la qualité globale de l'affiche. La seule différence ne distingue pas Argentine–Espagne de Saint-Marin–Andorre, deux matchs équilibrés mais à des niveaux sans commune mesure. La somme réintroduit cette information.
Variation Elo glissante (5 derniers matchs) : l'évolution récente de la note de chaque équipe. Cela capte la forme en tenant compte de la force des adversaires.
Buts pour et contre glissants (5 derniers matchs) : la production offensive et défensive récente en valeur absolue, pour chaque équipe.
Contexte du match : le niveau de compétition (une Coupe du monde ne vaut pas un qualificatif ou une Ligue des nations), match à élimination directe ou non, et terrain neutre ou non.

Toutes les variables sont étanches à toute fuite d'information : elles n'utilisent que ce qui est disponible avant le coup d'envoi. Cela semble évident, mais c'est l'un des meilleurs moyens, sinon, de construire un modèle brillant en test et friable en production.

Une idée écartée : j'avais prévu des variables de « style de jeu » via un apprentissage non supervisé en regroupant les équipes selon leurs statistiques en match. En pratique, les groupes n'étaient pas parlants. Plutôt que d'injecter du bruit, je les ai retirées. Un résultat négatif reste un résultat.

Garantir la reproductibilité des données

Avec des données arrivant en continu de deux sources, le chemin des fichiers bruts aux variables prêt-à-modéliser doit être identique à chaque exécution. C'est ce que fournit une architecture médaillon. Elle organise les données en trois couches :

Bronze : la donnée brute, telle qu'elle arrive, inchangée.
Silver : nettoyée et standardisée. Ici, j'aligne les noms d'équipes entre les deux sources (les graphies divergent souvent), je valide le schéma, j'assemble les notes Elo aux feuilles de match et je traite les valeurs manquantes ou invalides.
Gold : la couche de modélisation, une ligne propre par match avec toutes les variables calculées et prêtes à l'entraînement.

Chaque couche alimente la suivante, ce qui permet de remonter pas à pas en cas d'anomalie, plutôt que de tout démêler d'un bloc. Pour rendre tout le processus reproductible, j'utilise DVC (Data Version Control). À chaque nouveaux résultats, une simple commande dvc repro reconstruit Silver et Gold depuis Bronze, ne relançant une étape que si ses entrées ont changé, et versionne les datasets pour pouvoir revenir exactement à tout état antérieur.

Choisir le meilleur modèle

La prédiction de buts est bien étudiée et il n'existe pas d'outil unique évident. Plutôt que de choisir d'emblée, j'en ai construit dix et les ai laissés se départager.

Les prétendants

Les dix modèles couvrent cinq familles, plus un simple point de référence. Pas besoin d'en connaître les entrailles : ils reposent sur des hypothèses très différentes sur la façon dont les buts surviennent.

Famille	Modèles	Idée de base
Référence	Poisson à taux moyen	Suppose que chaque équipe marque simplement sa moyenne de long terme, en ignorant toutes les variables. Le plancher à dépasser.
Statistique	Poisson bivarié, Binomiale négative	Modélise directement les deux comptes de buts avec des lois de probabilité adaptées aux événements comptables.
Bayésien	Poisson bayésien (MCMC)	Même idée de comptage, mais renvoie une incertitude complète autour de chaque estimation. Bien plus coûteux en calcul : environ 100 fois plus lent à ajuster que les autres.
Séries temporelles	SARIMAX	Considère les résultats d'une équipe comme une séquence dans le temps et projette cette séquence.
Apprentissage automatique	Ridge, Random forest, XGBoost	Apprend les motifs directement à partir des variables sans imposer d'équation fixe.
Deep learning	LSTM, CNN 1D	Réseaux neuronaux qui détectent des motifs séquentiels et locaux dans les données.

Comment ils ont été évalués

Avec dix candidats, impossible de choisir au jugé. Chaque modèle passe donc par trois étapes, et le code décide s'il progresse. C'est ce qu'on entend par déploiement piloté par le code : les modèles sont promus d'un environnement au suivant via des contrôles automatisés plutôt que par des ajustements manuels, ce qui rend la sélection reproductible et facile à auditer.

Expérimentation. Chaque modèle est entraîné uniquement sur des matchs internationaux antérieurs à la Coupe du monde 2022. Tous ne comptent pas autant : les rencontres récentes et importantes pèsent davantage (pondération par obsolescence et importance), de sorte qu'un résultat compétitif récent influence plus qu'un amical ancien. Les hyperparamètres sont ensuite réglés pour minimiser la vraisemblance négative de Poisson (NLL) via la validation croisée. La NLL mesure l'adéquation entre les taux de buts prévus et les buts réellement marqués (plus bas est mieux). On obtient ainsi la meilleure version de chaque modèle.
Assurance qualité. Ces modèles réglés sont testés sur des matchs jamais vus : la Coupe du monde 2022 plus six grands tournois depuis (l'EURO, deux CAN, la Copa América, la Coupe d'Asie et la Gold Cup), soit 347 matchs. Ici, on passe au ranked probability score (RPS), qui évalue une prévision probabiliste lorsque les issues sont ordonnées (défaite, nul, victoire) et valorise la confiance dans la bonne direction. Plus bas est mieux là aussi. Le meilleur devient le challenger. Le RPS est le bon indicateur, car l'objectif final est de prédire jusqu'où vont les équipes, pas seulement les totaux de buts.
Déploiement. Le challenger est comparé au champion en titre. S'il l'emporte, il est promu et réentraîné sur tous les matchs disponibles, afin d'aborder le tournoi avec l'ensemble des données.

Le vainqueur

Alors, quelle approche sort du lot ? Voici le classement complet sur le jeu de réserve, au RPS (plus bas est mieux) :

Modèle	RPS holdout
XGBoost	0.18289
Poisson bayésien	0.18316
Binomiale négative	0.18373
Poisson bivarié	0.18389
Random forest	0.18392
SARIMAX	0.18583
Ridge	0.18813
LSTM	0.19299
CNN 1D	0.20916
Poisson à taux moyen (référence)	0.22872

Quatre points marquants se dégagent :

XGBoost gagne, mais de peu. Les cinq premiers (XGBoost, Poisson bayésien, Binomiale négative, Poisson bivarié et Random forest) se tiennent en ~0,0011 de RPS. Quand des approches si différentes convergent autant, c'est généralement que le plafond est dicté par les données et les variables, pas par l'algorithme. Ici, l'écart Elo fait l'essentiel du travail, et le choix du modèle pèse peu.
Une variable domine. L'écart Elo est de loin le meilleur prédicteur, environ cent fois plus influent que le suivant. Rassurant plutôt que surprenant : sur un match, l'écart de force raconte l'essentiel.
Le deep learning ferme la marche (hors baseline). La CNN 1D et la LSTM sont les plus faibles hors modèle naïf. Avec ~7 000 matchs, il n'y a simplement pas assez de données pour nourrir des réseaux à autant de paramètres ; les méthodes classiques gèrent mieux des jeux restreints et structurés.
Pas de surapprentissage côté modèles classiques. D'ordinaire, un modèle fait un peu moins bien sur des données inédites qu'en entraînement. Ici, presque tous (sauf la LSTM) font mieux sur les tournois en réserve que lors de la validation croisée. Probable raison : le football de tournoi est plus prévisible que le calendrier international courant : enjeux plus élevés, équipes plus fortes et familières, terrains neutres — autant de facteurs qui réduisent le hasard.

Pour le direct, je ne lance pas les dix modèles. Je garde une sélection réduite : la baseline à taux moyen comme point de repère, plus les trois meilleurs. XGBoost et Poisson bayésien occupent les deux premières places.

La troisième place est un quasi ex æquo : la Binomiale négative et le Poisson bivarié sont à 0,0002 de RPS l'un de l'autre et échangent selon la graine aléatoire. Entre deux modèles statistiquement indiscernables, j'ai retenu le Poisson bivarié, mieux établi dans la littérature de prédiction footballistique (Karlis et Ntzoufras, 2004).

La sélection finale retient XGBoost (apprentissage automatique), Poisson bivarié (statistiques classiques) et Poisson bayésien (inférence bayésienne). La suite explique comment ces modèles tournent, se réentraînent et transforment des prédictions de matchs en prévisions de tournoi.

Passer en production

Un modèle coincé dans un notebook n'est utile que quand vous êtes devant. Pour couvrir un mois de compétition, tout doit tourner en autonomie : récupérer, réentraîner, resimuler, actualiser — sans intervention humaine. C'est le rôle du pipeline.

Le pipeline bi-horaire sur GCP

L'ensemble tourne comme une tâche planifiée sur Google Cloud Run. Avant le tournoi, une exécution quotidienne ; dès le match d'ouverture le 11 juin, toutes les deux heures. À chaque cycle :

Vérifier les nouveautés. S'il n'y a aucun match terminé depuis la dernière exécution, on s'arrête là.
Ingérer et reconstruire. Si des résultats sont arrivés, ils sont extraits des sources, et un dvc repro reconstruit les couches Silver et Gold pour remettre les variables à jour.
Réentraîner, prédire, simuler. Les modèles sélectionnés sont remis à niveau (détails ci-dessous), on prédit toutes les affiches à venir, puis on simule le tournoi.
Scorer. Chaque match étant joué, les prédictions correspondantes sont notées, alimentant le suivi décrit plus loin.

Parce que tout est déclenché par du code à horaires fixes, personne n'a de bouton à presser pendant le tournoi. Nouveau résultat en entrée, prévision rafraîchie en sortie.

Deux modes : figé vs. par tour

Le projet sert aussi d'expérience contrôlée. Pendant le tournoi, deux modes tournent en parallèle. L'objectif est de répondre empiriquement à la question : réentraîner au fil de l'eau améliore-t-il les prédictions ?

Figué. Les modèles sont gelés au coup d'envoi et ne sont jamais réentraînés. Ils reflètent tout de même les résultats, car chaque simulation repart du tableau mis à jour, mais les paramètres appris ne bougent pas.
Par tour. Les hyperparamètres restent fixes, mais les paramètres appris sont réajustés sur toutes les données disponibles après chaque journée de groupes et après chaque tour à élimination directe, de sorte que les modèles apprennent du tournoi en cours.

Les faire tourner côte à côte permet de les comparer, après coup, sur deux axes : la précision brute et la vitesse à laquelle l'incertitude se réduit à mesure que le champ se resserre. Si le mode « par tour » gagne, le réentraînement régulier se justifie ; si le mode figé tient la route, l'appareil supplémentaire n'est peut-être pas nécessaire.

Des prédictions au tournoi : la simulation Monte Carlo

Prédire un match est une chose. En déduire « quelles sont les chances de chaque équipe de gagner le tournoi » requiert la simulation Monte Carlo.

D'abord, l'inférence. Plutôt que de prédire seulement les affiches déjà connues, le modèle évalue tous les duels possibles entre les 48 équipes. Cela peut paraître excessif, mais en tournoi, n'importe quelle équipe peut affronter n'importe quelle autre en phase finale : il faut donc une prédiction prête pour chaque paire.

Ensuite, il faut encoder les règles — et le format 2026 n'aide pas. Dans les 12 groupes, les deux premiers avancent automatiquement, tout comme les huit meilleurs troisièmes, et l'emplacement de ces huit-là dans le tableau des 32e dépend des groupes d'où ils proviennent.

Il y a 495 manières de choisir huit groupes qualifiés sur douze (douze parmi huit), et chacune produit une configuration différente des 32e. Il n'y a pas de formule élégante ; la FIFA publie simplement un tableau. J'ai donc (ou plutôt mon collègue Cursor) codé en dur les 495 combinaisons en m'appuyant sur le tableau officiel.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

Chaque clé, comme EFGHIJKL, liste les groupes dont les troisièmes se sont qualifiés, et les valeurs positionnent chacune de ces équipes (3E, 3F, etc.) dans un numéro de match précis des 32e. Une entrée parmi 495.

Les trois pays hôtes (États-Unis, Canada et Mexique) nécessitent un traitement spécifique. Lorsqu'un hôte joue dans son pays, la simulation applique un avantage terrain pour ce match, le reste du tournoi étant traité comme terrain neutre.

Munie des prédictions et des règles, la simulation déroule 10 000 éditions du tournoi. À chaque itération :

Tirer un score pour chaque match en échantillonnant les buts domicile et extérieur depuis les distributions prédites
Jouer la phase de groupes avec le vrai barème et ses départages
Résoudre le tableau des meilleurs troisièmes
Remplir le tableau final à partir des correspondances ci-dessus
Jouer jusqu'au champion.

Sur 10 000 tournois simulés, la part d'itérations où une équipe atteint la finale ou soulève le trophée devient sa probabilité. Une itération est une hypothèse ; dix mille donnent une prévision.

Tout tracer avec MLflow

Chaque exécution, dans les deux modes, est journalisée dans MLflow (hébergé sur DagsHub). Le suivi d'expériences consiste à enregistrer systématiquement les entrées, paramètres, résultats et sorties, pour pouvoir comparer et reproduire à l'identique. Quelques éléments notables :

Reproductibilité. La simulation utilise une graine fixe dérivée du tour du tournoi, partagée entre modes figé et par tour. Toute différence provient donc des modèles, pas du tirage interne. Chaque run journalise aussi l'instantané de données vu (nombre de lignes Gold et horodatage), pour remonter des résultats aux entrées.
L'expérience. Chaque run est étiqueté par son mode (figé ou par tour) et son étape de cycle de vie, de l'expérimental et QA jusqu'aux inférences live et réajustements, en miroir du flux de promotion décrit plus haut.
Comparaison. Le RPS holdout est journalisé comme métrique de sélection, avec une référence au run champion courant pour la lignée. Le temps d'ajustement est aussi consigné, mettant noir sur blanc l'entraînement ~100 fois plus lent du modèle bayésien.

Les modèles entraînés et les fichiers de prédiction (probabilités du tournoi, classements de groupes, prévisions de matchs) sont stockés comme artefacts, et ce sont exactement ces fichiers que lit le tableau de bord en direct. La boucle est bouclée : des résultats bruts, jusqu'à la simulation, aux chiffres visibles en ligne.

Surveiller la dérive

Dernière brique, une fois les matchs terminés. À mesure que les résultats réels arrivent, les prédictions correspondantes sont scorées et comparées à la baseline à taux moyen. Si les modèles complets cèdent du terrain face à un modèle qui ignore tout des équipes, c'est un signal d'alarme : les motifs appris avant le tournoi ne collent peut-être plus à ce qui se passe sur le terrain.

C'est une pratique standard pour tout système de prédictions live. Pour en savoir plus : data drift et model drift.

Alors, qui gagne la Coupe du monde ?

Après toute cette machinerie, voici l'essentiel.

Les favoris

Au 10 juin 2026, veille du match d'ouverture, le verdict du modèle est net en tête, et serré juste derrière. L'Espagne et l'Argentine mènent, chacune avec environ 16 % de chances de soulever le trophée. Voir les champions du monde en titre (Argentine) et les champions d'Europe (Espagne) en tête est un bon test de réalité.

Derrière, un peloton très compact : France, Angleterre, Brésil et Colombie complètent les prétendants. Ces chiffres évoluent dès que les résultats tombent : considérez-les comme un instantané au 10 juin, pas une prophétie figée. Le tableau de bord affiche en permanence les valeurs actuelles, avec au plus deux heures de décalage.

Le tableau de bord live

Justement : tous les chiffres cités proviennent d'une application Streamlit qui s'actualise automatiquement au rythme du pipeline. Vous pouvez la consulter sur wc2026-predictions.streamlit.app pendant tout le tournoi. Quatre vues principales :

Vue d'ensemble du tournoi : jusqu'où chaque équipe devrait aller, en un coup d'œil.
Classements de groupes : pour chaque groupe, la probabilité de finir premier, deuxième, troisième (découpé en « troisième qualifié » vs « troisième éliminé », grâce à la règle des meilleurs troisièmes) ou quatrième.
Prédictions de matchs : pour chaque match de groupes, les chances de victoire domicile, nul, victoire extérieur, et le tableau final le plus probable.
Affiches à élimination les plus fréquentes : les duels que la simulation produit le plus souvent.

Un point à noter dans la vue matchs : certaines équipes apparaissent en deux emplacements possibles des 32e en même temps. Ce n'est pas un bug. Cela arrive quand un groupe est si équilibré que le modèle ne peut pas trancher le rang de qualification. Combiné à l'incertitude des meilleurs troisièmes, les deux issues mènent à des positions différentes dans le tableau. Dans le cas de la Turquie, cela les a même placés deux fois en huitièmes.

Le graphique suivant montre les dernières phases (quarts jusqu'à la finale) projetées par le modèle XGBoost avant le coup d'envoi :

L'équipe « pile ou face » : les États-Unis

L'intérêt d'un tel modèle, ce sont les équipes qui contredisent l'intuition visuelle, et l'exemple le plus net est celui des États-Unis. Sur la vue d'ensemble, leur couleur saute aux yeux.

En tant que coorganisateurs, on pourrait attendre un départ serein, mais le modèle est plus prudent : il ne leur accorde qu'environ 54,6 % de chances de sortir des groupes, le 13e plus faible total du plateau (alors que deux équipes sur trois y parviennent), car leur groupe avec l'Australie, le Paraguay et la Turquie est particulièrement homogène.

L'intéressant, c'est la suite. Une fois sortis, les USA naviguent autour d'un pile ou face à chaque tour. Empilez ces lancers, et on arrive à ~2 % de chances de remporter le tournoi, 13e total le plus élevé sur 48 équipes.

Être 13e en partant du bas pour sortir des groupes et 13e en partant du haut pour tout gagner, c'est presque la définition parfaite d'une équipe « pile ou face » : jamais favorite, jamais condamnée.

Derniers mots

Ce projet a demandé beaucoup de travail et couvre bien plus que ce qu'un article peut contenir. Le repo regorge d'éléments non abordés ici : l'ensemble des modèles candidats, l'ingénierie des variables, et l'orchestration qui fait tout tourner, pour n'en citer que quelques-uns.

Pour l'heure, le modèle a fait ses choix, et le terrain tranchera. Que vous soyez venu pour le MLOps ou pour le foot, j'espère que vous prendrez autant de plaisir que moi à suivre le déroulé. Vous pouvez consulter la prévision en direct au fil des matchs et voir comment tiennent les prédictions.

Si vous souhaitez creuser certaines notions évoquées, je vous recommande notre cours MLOps Concepts.

Qui va gagner la Coupe du monde 2026 ?

Jusqu'à quel point un modèle de machine learning peut-il prédire le football ?

Pourquoi prédire le nombre de buts plutôt que l'issue du match ?

Qu'est-ce qu'une simulation Monte Carlo et pourquoi en lancer 10 000 ?

Une simulation Monte Carlo rejoue de façon répétée un processus aléatoire pour estimer des probabilités difficiles à calculer directement. Ici, chaque exécution tire un score pour chaque match à partir des prédictions du modèle et déroule le tournoi jusqu'au vainqueur ; répété 10 000 fois, cela transforme des prédictions par match en pourcentages stables, du type « l'Espagne gagne environ 16 % du temps ». Une simulation est un scénario possible ; dix mille approchent la vraie distribution des possibles.

De quels outils avez-vous besoin pour construire un pipeline MLOps comme celui-ci ?

Les éléments clés sont la gestion de versions des données (DVC dans ce projet), le suivi d'expériences (MLflow), un ordonnanceur pour exécuter régulièrement (Google Cloud Run avec Cloud Scheduler), et un moyen de servir les résultats (tableau de bord Streamlit).

Les modèles s'appuient sur un mélange de bibliothèques Python : scikit-learn (Ridge et random forest), XGBoost (le champion), statsmodels et SciPy (régressions Poisson, Poisson bivarié, binomiale négative, plus SARIMAX), PyMC (le modèle bayésien) et Keras (LSTM et CNN), avec pandas et NumPy pour la manipulation des données.

Aucune n'est strictement indispensable pour un one-shot, mais ensemble, elles rendent le pipeline reproductible et capable de se réentraîner et se rafraîchir sans intervention manuelle.

Author

Tom Farnschläder

Sujets

MLOps

Apprentissage automatique

Science des données

Les meilleurs cours de machine learning

Cours

Comprendre le Machine Learning

2 h

299.3K

Une introduction au machine learning sans codage.

Afficher les détails

Commencer Le Cours

Cours

Concepts MLOps

2 h

43.7K

Découvrez comment les MLOps permettent de passer des notebooks locaux aux modèles machine learning déployés en production, générant une vraie valeur.

Afficher les détails

Commencer Le Cours

Cours

Concevoir des pipelines de prévision pour la production

4 h

1.4K

Découvrez comment concevoir, automatiser et surveiller des pipelines de prévision évolutifs en Python.

Afficher les détails

Commencer Le Cours

Contenus associés

blog

ROI de l'IA en 2026 : pourquoi les compétences des équipes déterminent le retour sur investissement

Seuls 21 % des dirigeants font état d'un retour sur investissement « significatif » de leurs investissements dans l'IA.

Lynn Heidmann

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.

Nathaniel Taylor-Leach

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.

Nathaniel Taylor-Leach

8 min

blog

Guide complet des salaires des analystes commerciaux en 2026

Découvrez combien vous pouvez gagner et comment augmenter votre salaire actuel en tant qu'analyste commercial.

Matt Crabtree

14 min

Tutoriel

Cursor AI : Un guide avec 10 exemples pratiques

Apprenez à installer Cursor AI sur Windows, macOS et Linux, et découvrez comment l'utiliser à travers 10 cas d'utilisation différents.

Tutoriel

Python Switch Case Statement : Guide du débutant

Découvrez le match-case de Python : un guide sur sa syntaxe, ses applications en data science, ML, et une analyse comparative avec le switch-case traditionnel.

Matt Crabtree

Voir Plus Voir Plus

En bref

Développez dès aujourd'hui vos compétences en matière de MLOps

Les données derrière les prédictions

D'où viennent les données

Ce que le modèle prédit

Les variables qui comptent

Garantir la reproductibilité des données

Choisir le meilleur modèle

Les prétendants

Comment ils ont été évalués

Le vainqueur

Passer en production

Le pipeline bi-horaire sur GCP

Deux modes : figé vs. par tour

Des prédictions au tournoi : la simulation Monte Carlo

Tout tracer avec MLflow

Surveiller la dérive

Alors, qui gagne la Coupe du monde ?

Les favoris

Le tableau de bord live

L'équipe « pile ou face » : les États-Unis

Derniers mots

FAQ sur la prédiction du vainqueur de la Coupe du monde 2026

Pourquoi prédire le nombre de buts plutôt que l'issue du match&nbsp;?

Qu'est-ce qu'une simulation Monte Carlo et pourquoi en lancer 10&nbsp;000&nbsp;?

De quels outils avez-vous besoin pour construire un pipeline MLOps comme celui-ci&nbsp;?

ROI de l'IA en 2026 : pourquoi les compétences des équipes déterminent le retour sur investissement

Q2 2023 DataCamp Donates Digest

2022-2023 Rapport annuel DataCamp Classrooms

Guide complet des salaires des analystes commerciaux en 2026

Cursor AI : Un guide avec 10 exemples pratiques

Python Switch Case Statement : Guide du débutant

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Comprendre le Machine Learning

Concepts MLOps

Concevoir des pipelines de prévision pour la production

ROI de l'IA en 2026 : pourquoi les compétences des équipes déterminent le retour sur investissement

Q2 2023 DataCamp Donates Digest

2022-2023 Rapport annuel DataCamp Classrooms

Guide complet des salaires des analystes commerciaux en 2026

Cursor AI : Un guide avec 10 exemples pratiques

Python Switch Case Statement : Guide du débutant

Pourquoi prédire le nombre de buts plutôt que l'issue du match ?

Qu'est-ce qu'une simulation Monte Carlo et pourquoi en lancer 10 000 ?

De quels outils avez-vous besoin pour construire un pipeline MLOps comme celui-ci ?

Comprendre le Machine Learning