Vai al contenuto principale

Previsione del vincitore dei Mondiali FIFA 2026: una guida MLOps

Scopri come una pipeline MLOps end-to-end prevede i Mondiali 2026: dal retraining automatico e DVC a una simulazione Monte Carlo da 10.000 esecuzioni del tabellone.
Aggiornato 11 giu 2026  · 15 min leggi

Prevedere il calcio è difficile. È uno sport a basso punteggio in cui un tiro deviato può ribaltare un risultato, e una buona parte di ogni partita dipende dalla fortuna. Il calcio internazionale è ancora più complicato: le nazionali giocano solo poche partite competitive all’anno, quindi ci sono molti meno dati da cui apprendere rispetto ai campionati di club.

E come se non bastasse, la FIFA ha reso il compito ancora più arduo per i Mondiali di quest’anno. Il torneo ampliato a 48 squadre introduce un nuovo formato in cui passano le prime due di ognuno dei dodici gironi, insieme a otto delle dodici migliori terze classificate, rendendo il destino della fase a gironi imprevedibile. Dato che mi piacciono le sfide (e il calcio), è proprio questo che mi sono messo a prevedere.

Questo è il seguito del mio progetto di previsione su EURO 2024, ricostruito quasi da zero. La volta scorsa ho lavorato interamente in Jupyter notebook e ho previsto un singolo risultato più probabile per partita. Questa volta ho creato una pipeline MLOps end-to-end che acquisisce risultati aggiornati, si allena di nuovo in autonomia e lancia una simulazione Monte Carlo dell’intero torneo 10.000 volte, trasformando le previsioni a livello di partita in probabilità su fin dove può arrivare ogni squadra.

In questo articolo ti guiderò a livello alto attraverso il progetto: i dati e le feature, le pratiche MLOps che ne garantiscono la riproducibilità, l’architettura della pipeline e quale modello si dimostra il migliore nel predire il calcio delle nazionali. Puoi trovare il codice completo nella repo del progetto. E naturalmente ti dirò chi pensa il modello che vincerà. (Spoiler: gli piacciono Spagna e Argentina intorno al 16% ciascuna, ma la parte interessante è come ci arriva.)

Se questo ti ha messo nell’atmosfera del torneo, ti consiglio di seguire la nostra settimana della Data & AI World Cup, una serie di sessioni su come dati e AI stanno cambiando il calcio, gratuite da vedere in diretta o on demand.

In breve

  • Questa è una pipeline MLOps end-to-end che prevede i Mondiali FIFA 2026, recupera risultati internazionali aggiornati e si riallena automaticamente su Google Cloud, ogni due ore durante il torneo.
  • I dati da API-Football e dai rating Elo sono processati tramite un’architettura a medaglioni Bronze-Silver-Gold e versionati con DVC per garantire piena riproducibilità.
  • Dieci modelli di cinque famiglie sono stati confrontati su un holdout di 347 partite; XGBoost ha vinto di misura, i primi cinque sono quasi indistinguibili e la differenza Elo tra le squadre fa gran parte del lavoro predittivo.
  • Una simulazione Monte Carlo gioca l’intero torneo 10.000 volte, trasformando le previsioni di gol a livello di partita nelle probabilità di avanzamento e di vittoria di ciascuna squadra.
  • Al 10 giugno 2026, le favorite del modello sono Spagna e Argentina, intorno al 16% ciascuna. Le previsioni live si possono seguire in un dashboard Streamlit che si aggiorna ogni due ore.

I dati dietro le previsioni

Una previsione è valida solo quanto lo sono gli input, quindi vale la pena partire dalle materie prime. Il modello apprende da due fonti dati live e le trasforma in un’unica tabella ordinata di feature.

Da dove arrivano i dati

Tutto nasce da due fonti. API-Football fornisce calendario e statistiche per partita: chi ha giocato contro chi, quando, dove e come è finita. eloratings.net fornisce i rating Elo per ogni nazionale.

Un rating Elo è un singolo numero che cattura quanto è forte una squadra. Ogni squadra si colloca da qualche parte sulla scala e dopo ogni partita il rating si aggiorna: se batti un avversario più forte guadagni molto; se perdi con uno più debole, cali nettamente. L’idea viene dagli scacchi e si adatta bene al calcio. Se vuoi l’intuizione completa, questo articolo DataCamp lo spiega nel contesto dei Mondiali 2022.

Insieme, le due fonti danno un dataset Gold di circa 6.900 partite internazionali dal 2018 da cui apprendere.

Cosa prevede il modello

Ecco la prima scelta di progettazione importante. Invece di prevedere direttamente l’esito come vittoria, pareggio o sconfitta, il modello stima qualcosa di più granulare: il numero di gol che ciascuna squadra segna in una partita. I conteggi dei gol nel calcio seguono, con buona approssimazione, una distribuzione di Poisson, il modo standard per modellare quante volte si verifica un evento relativamente raro in una finestra di tempo fissa.

Prevedere i gol anziché i risultati è ciò che rende possibile tutto il resto. Una volta che il modello può produrre un punteggio plausibile per qualsiasi accoppiamento, le domande che interessano a tutti, chi esce dal girone e chi alza il trofeo, possono essere affrontate simulando quei punteggi migliaia di volte.

Le feature che contano

Ogni partita è descritta da un set piccolo e accuratamente scelto di feature:

  • Differenza Elo: il divario di rating tra le due squadre. È di gran lunga la singola feature più importante del modello, con un’importanza circa due ordini di grandezza sopra la successiva. È intuitivo: il gap di forza tra le due squadre dice più del risultato probabile di quasi qualsiasi altra cosa.
  • Somma Elo: i due rating sommati, un proxy per la qualità complessiva dell’incontro. La sola differenza non distingue Argentina-Spagna da San Marino-Andorra, due gare equilibrate ma a livelli completamente diversi; la somma ripristina quell’informazione.
  • Variazione Elo mobile (ultime 5 partite): quanto è cambiato di recente il rating di ciascuna squadra. Cattura la forma tenendo già conto della forza degli avversari affrontati.
  • Gol fatti e subiti mobili (ultime 5 partite): produzione offensiva e difensiva recente in termini assoluti, calcolata per ciascuna squadra.
  • Contesto della partita: il livello della competizione (una gara dei Mondiali pesa diversamente rispetto a un qualificazione o a una Nations League), se è a eliminazione diretta e se si gioca in campo neutro.

Ogni feature è rigorosamente priva di leakage, cioè usa solo informazioni disponibili prima del calcio d’inizio. Sembra ovvio, ma è uno dei modi più facili per costruire per errore un modello che in test sembra brillante e poi crolla nel mondo reale.

Un’idea che non ha superato il taglio: avevo previsto un set di feature di “stile di gioco” ricavate raggruppando le squadre dalle loro statistiche in partita, un passaggio di apprendimento non supervisionato. In pratica le squadre non si sono separate in gruppi significativi, quindi invece di alimentare il modello con rumore, le ho scartate. Anche i risultati negativi sono risultati.

Mantenere i dati riproducibili

Con dati che arrivano da due fonti in modo continuo, il percorso dai file grezzi alle feature pronte per il modello deve essere identico ogni singola volta. È ciò che fornisce un’architettura a medaglioni. Organizza i dati in tre livelli:

  • Bronze: i dati grezzi, esattamente come arrivano, lasciati intatti.
  • Silver: puliti e standardizzati. Qui mappo i nomi delle squadre tra le due fonti (raramente concordano sulle grafie), valido lo schema, unisco i rating Elo ai record delle partite e gestisco ciò che manca o è malformato.
  • Gold: il livello di modellazione, una riga ordinata per partita con ogni feature calcolata e pronta per l’addestramento.

Ogni livello alimenta il successivo, quindi quando qualcosa non torna posso risalire uno stadio alla volta invece di districare tutto in blocco. Per rendere riproducibile l’intero percorso, uso DVC (Data Version Control). Quando arrivano risultati nuovi, un singolo dvc repro ricostruisce Silver e Gold da Bronze, rieseguendo uno step solo se i suoi input sono cambiati, e versiona i dataset risultanti così che qualsiasi stato precedente possa essere recuperato esattamente.

Scegliere il modello migliore

Prevedere i gol è un problema ben studiato e non esiste uno strumento unico e ovvio. Quindi, invece di sposare un approccio a priori, ne ho costruiti dieci e li ho messi in competizione.

I contendenti

I dieci modelli coprono cinque famiglie più un semplice baseline. Non serve conoscerne gli interni; il punto è che fanno assunzioni molto diverse su come nascono i gol.

Famiglia Modelli L’idea di base
Baseline Poisson a tasso medio Suppone che ogni squadra segni semplicemente una media di lungo periodo, ignorando tutte le feature. Un pavimento da superare per gli altri.
Statistica Poisson bivariata, Binomiale negativa Modellano direttamente i due conteggi di gol con distribuzioni di probabilità pensate per contare eventi.
Bayesiana Poisson bayesiana (MCMC) La stessa idea di conteggio, ma restituisce un intero range di incertezza attorno a ogni stima. Molto più esigente dal punto di vista computazionale: circa 100 volte più lenta da addestrare rispetto alle altre.
Serie storiche SARIMAX Tratta i risultati di una squadra come una sequenza nel tempo e la proietta in avanti.
Machine learning Ridge, Random Forest, XGBoost Imparano i pattern direttamente dalle feature senza vincolarsi a un’equazione fissa.
Deep learning LSTM, CNN 1D Reti neurali che cercano pattern sequenziali e locali nei dati.

Come sono stati valutati

Con dieci candidati, scegliere il vincitore a occhio non avrebbe funzionato. Invece, ogni modello passa attraverso tre fasi, e il codice decide se prosegue. Questo è ciò che si intende per deployment basato su codice: i modelli vengono promossi da un ambiente al successivo tramite controlli automatici anziché tarature manuali, così l’intera selezione resta riproducibile e facile da auditare.

  • Esperimento. Ogni modello è addestrato solo sulle partite internazionali giocate prima dei Mondiali 2022. Non tutte contano allo stesso modo: alle gare più recenti e a quelle più importanti viene dato più peso (ponderazione per decadimento temporale e importanza della partita), così un risultato competitivo recente influisce più di un’amichevole vecchia. Le impostazioni di ogni modello vengono poi regolate per minimizzare la Poisson negative log-likelihood (NLL) tramite cross-validation. La NLL è semplicemente un punteggio di quanto bene i tassi di gol previsti corrispondono ai gol effettivamente segnati; più basso è, meglio è. Il risultato è la versione meglio ottimizzata di ciascun modello.
  • Quality assurance. Quei modelli tarati vengono poi testati su partite mai viste: i Mondiali 2022 più sei grandi tornei successivi (l’EURO, due Coppe d’Africa, la Copa América, la Coppa d’Asia e la Gold Cup), 347 partite in totale. Qui la metrica passa al ranked probability score (RPS), che misura la bontà di una previsione probabilistica quando gli esiti hanno un ordine naturale, come sconfitta, pareggio, vittoria, e premia l’essere fiduciosi nella direzione giusta. Anche qui più basso è, meglio è. Il modello più forte qui diventa il challenger. L’RPS è il metro giusto perché il vero obiettivo è prevedere fin dove arrivano le squadre, non solo i totali dei gol.
  • Deploy. Il challenger viene confrontato con il campione in carica. Se vince, è promosso e riaddestrato su tutte le partite disponibili, così entra nel torneo avendo imparato da tutti i dati.

Chi ha vinto

Quale approccio è arrivato in cima? Ecco la classifica completa dell’holdout, valutata con RPS (più basso è meglio):

Modello RPS holdout
XGBoost 0.18289
Poisson bayesiana 0.18316
Binomiale negativa 0.18373
Poisson bivariata 0.18389
Random Forest 0.18392
SARIMAX 0.18583
Ridge 0.18813
LSTM 0.19299
CNN 1D 0.20916
Poisson a tasso medio (baseline) 0.22872

Quattro aspetti spiccano da questi risultati:

  • XGBoost ha vinto, ma di poco. I primi cinque modelli (XGBoost, Poisson bayesiana, Binomiale negativa, Poisson bivariata e Random Forest) sono arrivati entro circa 0,0011 RPS l’uno dall’altro. Quando cinque approcci molto diversi finiscono così vicini, di solito significa che il soffitto è fissato dai dati e dalle feature, non dal modello. Qui, la differenza Elo fa così tanto del lavoro che la scelta del modello incide poco.
  • Una feature domina. La differenza Elo è stata il predittore più importante con ampio margine, circa cento volte più influente della successiva. È rassicurante più che sorprendente: in una singola partita, il divario di forza tra due squadre è davvero gran parte della storia.
  • Il deep learning è arrivato ultimo, a parte il baseline. La CNN 1D e l’LSTM sono stati i modelli più deboli dopo il baseline ingenuo. Con solo circa 7.000 partite da cui apprendere, non ci sono abbastanza dati per alimentare reti con così tanti parametri; i metodi classici gestiscono molto meglio dataset piccoli e strutturati.
  • Nessun segno di overfitting nei modelli classici. Di norma, un modello va un po’ peggio sui dati non visti rispetto all’addestramento. Qui, quasi ogni modello (tranne l’LSTM) ha fatto meglio nei tornei tenuti da parte che in cross-validation. La ragione probabile è che il calcio dei tornei è più prevedibile del calendario internazionale ordinario: posta più alta, squadre più forti e familiari e campi neutri eliminano parte della casualità.

Elo difference dominates football predictionPer il torneo live non eseguo tutti e dieci. Tengo una rosa più piccola: il baseline a tasso medio come punto di riferimento, più i tre migliori performer. XGBoost e Poisson bayesiana occupano i primi due posti a pieno titolo.

Il terzo posto è praticamente un pari: Binomiale negativa e Poisson bivariata finiscono entro 0,0002 RPS l’una dall’altra e si scambiano di posizione a seconda del seed casuale, quindi tra due modelli statisticamente indistinguibili ho scelto la Poisson bivariata, la cui formulazione ha basi più solide nella letteratura sulle previsioni calcistiche (Karlis e Ntzoufras, 2004).

Resta quindi una rosa composta da XGBoost (machine learning), Poisson bivariata (statistica classica) e Poisson bayesiana (inferenza bayesiana). La prossima sezione spiega come questi modelli vengono eseguiti, riallenati e trasformano le previsioni delle singole partite in una previsione completa del torneo.

Metterlo in produzione

Un modello che vive in un notebook è utile solo mentre ci stai davanti. Per prevedere le partite lungo un mese di torneo, tutto deve girare da solo: recuperare nuovi risultati, riallenarsi, risimulare e aggiornare le previsioni senza che nessuno lo tocchi. Questo è il compito della pipeline.

La pipeline bioraria su GCP

L’intero progetto gira come un singolo job pianificato su Google Cloud Run. Prima del torneo si attiva una volta al giorno; dalla partita inaugurale dell’11 giugno, gira ogni due ore. Ogni esecuzione segue lo stesso ciclo:

  • Verifica di nuovi dati. Se non si sono concluse partite dall’ultima esecuzione, non c’è nulla da fare e il job termina in anticipo.
  • Ingestione e ricostruzione. Quando arrivano nuovi risultati, vengono recuperati dalle fonti e un singolo dvc repro ricostruisce i livelli Silver e Gold così che le feature siano aggiornate.
  • Riallenamento, previsione, simulazione. I modelli della rosa vengono aggiornati (tra poco vediamo come), si prevedono tutte le prossime partite e si simula l’intero torneo.
  • Valutazione. Una volta definito l’esito di una partita, le previsioni fatte per essa vengono valutate, alimentando il monitoraggio descritto sotto.

Poiché ogni step è attivato da codice secondo una schedulazione, non ci sono pulsanti da premere manualmente durante il torneo. Nuovo risultato in ingresso, previsione aggiornata in uscita.

Due modalità: congelata vs. per-round

Qui il progetto raddoppia come esperimento. Durante il torneo, la rosa gira in due modalità parallele, e la differenza tra le due è la domanda a cui spero di rispondere con i dati: il riallenamento man mano che il torneo procede migliora le previsioni?

  • Congelata. I modelli vengono bloccati al fischio d’inizio del torneo e non sono più riallenati. Reagiscono comunque ai risultati, perché ogni simulazione parte dal tabellone aggiornato, ma i parametri del modello non cambiano.
  • Per-round. Gli iperparametri (le impostazioni di alto livello) restano fissi, ma i parametri appresi dal modello vengono riadattati su tutti i dati disponibili dopo ogni giornata della fase a gironi e dopo ogni turno a eliminazione diretta, così i modelli continuano a imparare dal torneo mentre si svolge.

Eseguirle entrambe affiancate mi permette di confrontarle su due fronti alla fine: l’accuratezza predittiva grezza e la velocità con cui l’incertezza di ciascuna si riduce mano a mano che il campo si restringe. Se vince la per-round, il riallenamento regolare si giustifica; se la congelata regge il confronto, la complessità extra potrebbe non valere la pena.

Dalle previsioni al torneo: la simulazione Monte Carlo

Prevedere una singola partita è una cosa. Trasformarlo in “quante sono le probabilità che ogni squadra vinca il torneo” è il compito della simulazione Monte Carlo.

Per prima cosa, l’inferenza. Invece di prevedere solo gli incontri già noti, il modello stima ogni possibile accoppiamento tra le 48 squadre. Sembra eccessivo, ma in un torneo qualsiasi squadra potrebbe incontrarne un’altra nella fase a eliminazione diretta, quindi bisogna avere una previsione pronta per ogni coppia.

Poi bisogna codificare le regole, e il formato 2026 rende la cosa particolarmente scomoda. Nei 12 gironi, le prime due passano automaticamente, ma anche le otto migliori terze classificate, e lo slot di tabellone che ciascuna di queste otto occupa dipende dai gironi di provenienza.

Ci sono 495 modi per scegliere otto gironi qualificati su dodici (dodici su otto), e ognuno produce un set diverso di accoppiamenti per i sedicesimi (round of 32). Non esiste una formula elegante; la FIFA pubblica semplicemente una tabella. Così io (o meglio la mia capace collega Cursor) ho codificato a mano tutte le 495 combinazioni in una mappatura, usando la tabella ufficiale come fonte.

"best_third_mappings": {
  "EFGHIJKL": {
    "74": "3F",
    "77": "3G",
    "79": "3E",
    "80": "3K",
    "81": "3I",
    "82": "3H",
    "85": "3J",
    "87": "3L"
  }, 
  "DFGHIJKL": ...

Ogni chiave, come EFGHIJKL, elenca quali otto gironi hanno fornito le terze classificate qualificate, e i valori inseriscono ciascuna di quelle squadre (3E, 3F e così via) in uno specifico numero di partita dei sedicesimi. Questo è un esempio; la mappatura completa lo ripete 495 volte, una per combinazione.

Le tre nazioni ospitanti (Stati Uniti, Canada e Messico) ricevono una gestione in più. Quando un’ospitante gioca una partita nel proprio paese, la simulazione applica un aggiustamento per il fattore campo a quell’incontro, mentre il resto del torneo è trattato come campo neutro.

Con previsioni e regole pronte, la simulazione esegue l’intero torneo 10.000 volte. In ogni run segue questa procedura:

  1. Estrae un punteggio per ogni partita campionando i gol casa e trasferta dalle distribuzioni previste dal modello
  2. Gioca la fase a gironi con regole reali di punti e spareggi
  3. Risolve la tabella delle migliori terze
  4. Compila il tabellone a eliminazione diretta dalle mappature sopra
  5. Gioca fino a un’unica campionessa.

Sulle 10.000 simulazioni, la quota di run in cui una squadra raggiunge la finale o alza il trofeo diventa la sua probabilità. Una run è un’ipotesi; diecimila run sono una previsione.

Tracciamento con MLflow

Ogni esecuzione descritta finora, in entrambe le modalità, viene registrata su MLflow (ospitato su DagsHub). Il tracciamento degli esperimenti significa registrare in modo sistematico input, impostazioni, risultati e output di ogni esecuzione, così da poterle confrontare o riprodurre esattamente. Vale la pena evidenziare alcune cose che cattura:

  • Riproducibilità. La simulazione usa un seed casuale fisso derivato dal turno del torneo, condiviso tra modalità congelata e per-round. Ciò significa che ogni differenza tra le due proviene dai modelli stessi, non dalla fortuna dell’estrazione nella simulazione. Ogni esecuzione registra anche l’istantanea esatta dei dati visti (numero di righe Gold e timestamp), così i risultati possono sempre essere ricondotti agli input.
  • L’esperimento. Ogni run è etichettata con la sua modalità (congelata o per-round) e con la sua fase nel ciclo di vita, dall’esperimentale e QA fino alle esecuzioni live di inferenza e refit, rispecchiando il flusso di promozione della sezione precedente.
  • Confronto. L’RPS dell’holdout è registrato come metrica di selezione, insieme al riferimento alla run campione attuale per la lineage. Si registra anche il tempo di fitting, dove appare nero su bianco l’addestramento circa 100 volte più lento del modello bayesiano.

I modelli addestrati e i file di previsione stessi (le probabilità del torneo, le classifiche dei gironi e le previsioni delle partite) sono salvati come artifact delle run, e sono esattamente i file letti dal dashboard live. Questo chiude il cerchio: dai risultati grezzi, passando per training e simulazione, fino ai numeri che vedi online.

Monitoraggio del drift

L’ultimo tassello si attiva quando le partite si concludono. Man mano che arrivano i risultati reali, le previsioni fatte per essi vengono valutate e confrontate con il semplice baseline a tasso medio. Se i modelli completi iniziano a perdere terreno rispetto a un modello che non sa nulla delle squadre, è un segnale di drift: i pattern appresi prima del torneo potrebbero non corrispondere più a ciò che accade in campo.

Osservare questo è una pratica standard per qualsiasi sistema che produce previsioni live, e puoi approfondire come viene rilevato in questa guida su data drift e model drift.

Quindi, chi vince i Mondiali?

Dopo tutta questa macchina, ecco a cosa serve.

Le favorite

Al 10 giugno 2026, il giorno prima della partita inaugurale, il verdetto del modello è chiaro in cima e affollato subito dietro. Spagna e Argentina guidano il gruppo, ciascuna con circa il 16% di probabilità di alzare il trofeo. Che le campionesse del mondo in carica (Argentina) e le campionesse d’Europa in carica (Spagna) risultino in testa è un rassicurante controllo di sanità mentale che il modello sia ancorato alla realtà.

Dietro c’è un folto gruppo all’inseguimento: Francia, Inghilterra, Brasile e Colombia completano le più probabili vincitrici. Queste sono cifre live e si muoveranno non appena arriveranno i risultati reali, quindi trattale come un’istantanea del 10 giugno e non come una profezia scolpita nella pietra. Il dashboard mostra sempre i numeri correnti, con un ritardo massimo di due ore.

Il dashboard live

A proposito: ogni numero in questo articolo proviene da un’app Streamlit live che si aggiorna automaticamente all’esecuzione della pipeline. Puoi aprirla su wc2026-predictions.streamlit.app e seguirla per tutto il torneo. Ha quattro viste principali:

  • Panoramica del torneo: a colpo d’occhio fin dove ci si aspetta che arrivi ogni squadra.
  • Classifiche dei gironi: per ogni girone, la probabilità per ciascuna squadra di finire prima, seconda, terza (distinta tra terza e qualificata vs. terza ed eliminata, grazie alla regola delle migliori terze) o quarta.
  • Previsioni delle partite: per ogni gara della fase a gironi, la probabilità di vittoria in casa, pareggio o vittoria in trasferta, insieme al tabellone a eliminazione più probabile.
  • Accoppiamenti più comuni nella fase a eliminazione: le sfide che la simulazione produce più spesso.

Una particolarità da segnalare nella vista delle partite: un paio di squadre compaiono contemporaneamente in due possibili slot dei sedicesimi. Non è un bug. Succede quando un girone è così equilibrato che il modello non può dire con fiducia quale posizione di qualificazione occuperà una squadra. Combinato con l’incertezza sulle migliori terze, i due esiti portano a slot diversi nel tabellone a eliminazione. Nel caso della Turchia, ha persino portato a vederla due volte agli ottavi.

La grafica seguente mostra le fasi finali (dai quarti alla finale) che il modello XGBoost proietta prima del calcio d’inizio del torneo:

ChatGPT Image Jun 11, 2026, 04_37_40 PM.png

La squadra “moneta”: Stati Uniti

Il bello di un modello come questo sta nelle squadre che sfidano il colpo d’occhio, e l’esempio più chiaro sono gli Stati Uniti. Se vai alla panoramica del torneo sul dashboard, noterai subito che gli USA risaltano per colore.

Da co-ospitanti davanti a tifosi di casa, potresti aspettarti un inizio confortevole, ma il modello è molto più cauto: dà loro solo circa il 54,6% di probabilità di uscire dal girone, la 13ª più bassa di tutto il gruppo (ricorda che si qualifica due terzi delle squadre!), perché il loro girone con Australia, Paraguay e Turchia è insolitamente equilibrato.

La parte interessante viene dopo. Una volta scampato il girone, gli USA restano intorno al lancio della monetina in ogni turno successivo. Mettendo in fila quei testa o croce, arrivano a circa il 2% di probabilità di vincere l’intero torneo, che è la 13ª più alta tra tutte le 48 squadre.

Una squadra che è 13ª dal fondo per superare il girone e 13ª dall’alto per vincere tutto è praticamente la definizione perfetta di squadra “moneta”: mai favorita, mai fuori dai giochi.

Considerazioni finali

Questo progetto ha richiesto molto lavoro e copre molto più di quanto possa contenere un articolo. La repo include molto materiale che qui non è entrato: l’intero set dei modelli candidati, l’ingegneria delle feature e l’orchestrazione che tiene tutto in piedi, per citarne alcuni.

Per ora, il modello ha fatto le sue scelte e sarà il torneo a giudicare. Che tu sia qui per l’MLOps o per il calcio, spero che ti divertirai a seguirlo quanto me. Puoi seguire le previsioni live man mano che arrivano le partite e vedere quanto resistono le previsioni.

Se vuoi approfondire alcuni dei concetti che ho citato, ti consiglio il nostro corso MLOps Concepts.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom è un data scientist e formatore tecnico. Scrive e gestisce i tutorial e i post del blog di DataCamp su data science. In precedenza, Tom ha lavorato nella data science presso Deutsche Telekom.

Argomenti

I migliori corsi di Machine Learning

Corso

Capire il Machine Learning

2 h
292.4K
Un'introduzione all'apprendimento automatico senza bisogno di programmare.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

Mostra altroMostra altro