Vai al contenuto principale

Claude Sonnet 4.5: test, funzionalità, accesso, benchmark e altro ancora

Scopri Claude Sonnet 4.5, il “miglior modello di coding al mondo”. Esplora nuove funzionalità, casi d’uso, benchmark e risultati dei test, oltre a uno sguardo al Claude Agents SDK e a Claude Imagine.
Aggiornato 12 mag 2026  · 8 min leggi

Anthropic ha appena rilasciato il suo modello più recente, Claude Sonnet 4.5, con affermazioni notevoli: lo definiscono “il miglior modello di coding al mondo” e lo presentano anche come il modello di punta per creare agenti complessi e per l’uso del computer. L’azienda evidenzia inoltre miglioramenti "sostanziali" in matematica e ragionamento.

Ho l’impressione che con questo rilascio Anthropic punti anche ai clienti enterprise. Con l’enfasi sul coding per lunghi periodi in autonomia e una migliore gestione di attività in ambito scientifico e finanziario, c’è una forte spinta perché Claude Sonnet 4.5 diventi il punto di riferimento per i compiti di coding complessi. 

Colpisce che questo nuovo modello sia in cima ai benchmark della valutazione SWE-bench Verified (una misura di quanto un modello sia valido su problemi di coding del mondo reale) e venga lodato per la capacità di concentrarsi per lunghi periodi (oltre 30 ore).

Insomma, tutto lascia pensare a un altro rilascio solido da parte di Anthropic, ma il modello sarà all’altezza delle affermazioni audaci? In questo articolo ti presento Claude Sonnet 4.5 e le sue caratteristiche principali, con uno sguardo rapido a come si comporta. Vedrò anche il resto degli annunci di Anthropic, inclusi Claude Agent SDK e Claude Imagine. Puoi anche consultare la nostra guida separata a Claude Haiku 4.5.

Che cos’è Claude Sonnet 4.5? 

Claude Sonnet 4.5 è l’ultimo large language model di Anthropic. Arriva a soli quattro mesi dal rilascio di Claude Sonnet 4. Come abbiamo notato in quell’articolo, il modello generalista Sonnet si comporta bene nella maggior parte dei casi d’uso, ed è particolarmente forte nel coding. Il principale limite, però, era la finestra di contesto relativamente ristretta di 200k token, soprattutto se confrontata con concorrenti come Gemini 2.5 Flash, che offre fino a 1M di token.

Con Sonnet 4.5, Anthropic ha affrontato attivamente questa criticità (e non solo). Il nuovo modello introduce funzionalità inedite, prestazioni migliori e molte statistiche impressionanti a supporto. 

Secondo l’articolo di lancio, Claude Sonnet 4.5 è disponibile subito sia tramite l’interfaccia chat di Claude sia via API. Il prezzo del nuovo modello resta invariato rispetto al predecessore: 3 $ per milione di token in input e 15 $ per milione di token in output, che a mio avviso offre un ottimo rapporto qualità-prezzo considerando le prestazioni.

Nuove funzionalità in Claude 4.5 

Il modello Claude 4.5 porta con sé diverse novità interessanti. Come detto, è in cima alla classifica della valutazione SWE-bench Verified, ma ha mostrato anche grandi progressi nel benchmark OSWorld, che misura le capacità di computer-use

Il balzo al 61,4% rispetto al 42,2% di soli 4 mesi fa con Sonnet 4 mostra quanto grande sia il salto, e penso che questo sia uno degli aspetti più notevoli di Sonnet 4.5. Lo vediamo in azione nella demo dell’estensione Claude per Chrome, che mostra il modello compiere azioni direttamente nel browser a partire da un prompt piuttosto semplice.  

Benchmark SWE-bench Verified che mostra le prestazioni di Sonnet 4.5

Benchmark SWE-bench Verified che mostra le prestazioni di Sonnet 4.5: Fonte

Una delle affermazioni più sorprendenti riguarda la capacità del modello di mantenere la concentrazione per oltre 30 ore su attività complesse e multi-step. 

Ci sono anche diverse altre novità degne di nota: 

Modalità di pensiero estesa

Come abbiamo visto con modelli come GPT-5 e Grok 4, Sonnet 4.5 introduce una modalità di pensiero estesa che, per i compiti più complessi, utilizza un processo di “pensiero” più lungo e mostra la chain-of-thought del ragionamento.

Migliore conoscenza specifica di dominio

Il nuovo modello, a quanto riferito, raggiunge prestazioni da primato in domini specifici, tra cui finanza, diritto, medicina e STEM. Ancora una volta, guardando alle citazioni nelle note di rilascio da parte di Cursor, GitHub, Netflix e altri, ho la sensazione che questa funzionalità sia pensata proprio per convincere i clienti enterprise ad adottare Sonnet 4.5.

Il modello frontier più allineato

Secondo Anthropic, l’addestramento alla sicurezza è stato centrale in questo nuovo rilascio e Claude Sonnet 4.5 mostra forti riduzioni nelle risposte non favorevoli. Ciò significa che, come utenti, dovremmo vedere una drastica diminuzione di fenomeni come piaggeria, inganno, ricerca di potere e risposte deliranti.

Un modello complessivamente più sicuro

Come vedremo con il Claude Agent SDK, i workflow agentici e l’uso del computer sono aree in cui Claude Sonnet 4.5 rende bene. Tenendo conto di ciò, Anthropic cita miglioramenti considerevoli nella difesa contro gli attacchi di prompt injection, che restano una preoccupazione per queste funzioni.

Testare Claude Sonnet 4.5 

Per vedere cosa sa fare Claude Sonnet 4.5, gli abbiamo dato alcuni compiti per mostrarne il potenziale. Diamo un’occhiata rapida a ciascuno: 

Compito di coding semplice

Per cominciare, gli ho chiesto di creare un’app abbastanza basilare per le abitudini salutari. Ecco il mio prompt: 

Voglio creare un’app che mi aiuti a tracciare abitudini quotidiane positive. Voglio che sia bella esteticamente, usando molti colori naturali (adoro il verde e il color legno!). Voglio lo spazio per definire quale abitudine seguire ogni giorno della settimana, un contatore di streak e lo spazio per aggiungere note, pensieri e immagini. Per le abitudini positive, ne voglio una diversa ogni giorno, ma sto pensando a cose come meditazione, gratitudine, ecc., che hanno benefici comprovati per la salute mentale

Ed eccolo al lavoro sul compito: ha iniziato a scrivere codice nel browser e ha compilato piuttosto in fretta, in modo simile a quanto visto con Grok 4 e GPT-5.

Input di codice con Claude Sonnet 4.5

Il risultato è arrivato rapidamente (purtroppo non mi ha detto per quanto tempo ha lavorato, ma probabilmente intorno ai 30 secondi) e sembrava una risposta semplice ed elegante. Le funzionalità dell’app c’erano tutte e includevano tutto ciò che avevo chiesto.  

Output di codice con Claude Sonnet 4.5

Compito di matematica 

Successivamente, ho testato le capacità matematiche di Claude Sonnet 4.5. Ispirandomi al nostro articolo su GPT-5, ho posto al nuovo modello un calcolo piuttosto semplice: quanto fa 7,001 meno 6,999? 

Risultato di matematica con Claude Sonnet 4.5

La risposta è stata quasi istantanea e la soluzione corretta, ma non ha fornito il ragionamento, quindi gliel’ho chiesto in un follow-up. Mi ha dato tre metodi di calcolo, tutti validi. 

Poi ho detto a Claude che secondo me poteva essere sbagliato e la sua risposta è stata decisamente meno compiacente rispetto al test con GPT-5. Mi ha detto che facevo bene a ricontrollare (ma non che avessi ragione) e mi ha guidato nel calcolo in un altro modo (anche se la spiegazione era un po’ macchinosa): 

Follow-up di matematica con Claude Sonnet 4.5

Benchmark di Claude Sonnet 4.5 

Vediamo come si posiziona questo nuovo modello rispetto alla concorrenza. Come sempre, dai benchmark possiamo imparare fino a un certo punto e i modelli al top vengono spesso spodestati. Ma per ora, Claude Sonnet 4.5 sta registrando numeri molto impressionanti, come si vede nella tabella qui sotto: 

Secondo me, alcuni dei risultati più interessanti qui riguardano, come detto, le prestazioni agentiche e l’uso del computer:

  • Agentic coding: 77,2% e 82,0% con parallel test-time compute. Un leggero miglioramento rispetto agli altri modelli Claude, e più avanti di GPT-5 e Gemini 2.5 Pro.
  • Agentic tool use: dal 70% per i compiti in ambito aereo al 98% nelle telecomunicazioni, entrambi picchi rispetto ad altri modelli. 
  • Uso del computer: forse il miglioramento più notevole. Il 61,4% è significativamente avanti rispetto al secondo miglior modello, Claude Opus 4.1. 
  • Analisi finanziaria: un altro risultato in cima alle classifiche rispetto a modelli simili. 

Sono curioso di vedere i punteggi completi dei benchmark una volta che il modello sarà in giro da un po’, soprattutto perché Anthropic sottolinea che gli esperti lodano un netto miglioramento delle conoscenze specifiche di dominio in alcune aree chiave. 

Conoscenze specifiche di dominio di Claude Sonnet 4.5

Fonte: Anthropic

Come accedere a Claude Sonnet 4.5

Claude Sonnet 4.5 è già disponibile tramite diversi canali. A seconda di come vuoi usarlo, puoi accedere al nuovo modello tramite l’interfaccia chat di Claude, sviluppare tramite API o integrarlo nei workflow enterprise. Ecco come funziona l’accesso:

Accesso via chat

Puoi usare Claude Sonnet 4.5 direttamente tramite l’interfaccia web Claude.ai o le app mobili (iOS e Android). È disponibile per tutti gli utenti, inclusi quelli del piano gratuito. Questo lo rende ampiamente accessibile sia per un uso casual sia professionale.

Accesso via API

Per gli sviluppatori, puoi accedere al modello tramite l’API di Anthropic, ed è disponibile anche su Amazon Bedrock e Google Cloud Vertex AI.

Il prezzo dell’API (a settembre 2025) è: 3 $ per milione di token in input e 15 $ per milione di token in output. 

Il batch processing e la cache dei prompt possono ridurre i costi fino al 90% in alcuni casi.

Claude Agent SDK 

Un altro annuncio interessante di Anthropic, insieme a Sonnet 4.5, è il Claude Agent SDK. In sostanza, sono i mattoncini che Anthropic usa internamente e che permettono agli sviluppatori di creare i propri agenti basati su Claude.

Penso che l’Agent SDK entusiasmerà molti utenti, in particolare chi vuole costruire workflow agentici avanzati. Si basa sull’infrastruttura di Claude Code e offre la possibilità di creare agenti per compiti come ricerca, assistenza clienti e automazione. 

Agent SDK fornisce agli agenti capacità come accesso al file system, scripting bash, ricerca semantica e agentica, subagent e integrazioni predefinite (tramite il Model Context Protocol), consentendo di creare agenti generici che sanno raccogliere contesto, agire e verificare il proprio lavoro in modo affidabile. Dai un’occhiata al nostro tutorial su Claude Agent SDK per vedere di cosa è capace.

Imagine con Claude

Un’altra novità interessante è Imagine con Claude, un’anteprima di ricerca di uno strumento che può generare software al volo. Anthropic ha incluso un breve video, mostrato qui sotto, che dimostra le capacità di Claude Sonnet 4.5 operante in questo modo.

È una demo davvero ben fatta, che mostra come lo strumento possa reagire in modo dinamico alle tue interazioni, generando rapidamente e direttamente vari elementi. Credo che qui ci sia molto potenziale per progetti davvero interessanti, e gli abbonati ad Anthropic Max possono provare lo strumento per i cinque giorni successivi al lancio. Anche se è una finestra piuttosto limitata, dubito che sia l’ultima volta che vedremo strumenti di questo tipo.

Conclusione

Dunque, Claude Sonnet 4.5 è arrivato e le prime impressioni sono piuttosto buone. Mi piace la direzione che Anthropic sta prendendo con questo lancio: più enfasi su codice, agenti e uso del computer. È chiaro che sono fiduciosi che questa iterazione possa rendere a un livello interessante per gli utenti enterprise, il che significa che ci avviciniamo sempre di più a un’adozione su larga scala degli strumenti di computer use. 

Detto ciò, resta da vedere per quanto tempo Sonnet 4.5 resterà in cima ai benchmark su agentic e computer use, anche se i progressi degli ultimi quattro mesi sembrano piuttosto significativi. Allo stesso modo, la finestra di contesto relativamente ristretta potrebbe significare che è ancora difficile lavorare in modo davvero efficace con codebase molto grandi. 

Detto questo, non vedo l’ora di scoprire i progetti che nasceranno da strumenti come Claude Agent SDK e Imagine con Claude, e l’estensione Claude per Chrome sarà un’aggiunta utile a vari workflow.

FAQ

Come si confronta Claude Sonnet 4.5 con Claude Opus 4.1 in termini di prestazioni complessive e casi d’uso?

Claude Sonnet 4.5 supera Opus 4.1 in coding, compiti agentici e uso del computer, con progressi in ragionamento, matematica e conoscenze specifiche di dominio (ad es. finanza, diritto, medicina, STEM). È più veloce ed efficiente per i workflow quotidiani, il che lo rende una scelta migliore per lavori complessi e multi-step come la creazione autonoma di app. Tuttavia, Opus 4.1 può ancora prevalere in alcuni compiti creativi o interpretativi in cui serve un contesto più ampio senza molto prompting.

Quali sono i principali miglioramenti nelle capacità di coding introdotti da Claude Sonnet 4.5?

Claude Sonnet 3.5 è il modello top su SWE-bench Verified (77,2% di punteggio), con migliore generazione di codice, refactoring e ragionamento multi-step. Gestisce progetti complessi in autonomia per oltre 30 ore, si integra con strumenti come bash e modifica file e supporta chiamate di strumenti in parallelo. Le nuove funzionalità includono pulizia autonoma del contesto e un’estensione per VS Code per workflow senza interruzioni.

Claude Sonnet 4.5 riesce davvero a mantenere la concentrazione su compiti complessi per oltre 30 ore?

Sì, le demo mostrano che mantiene l’autonomia su compiti multi-step come la creazione di app per oltre 30 ore, usando gli strumenti in modo efficace senza perdere il contesto. Miglioramenti a memoria, checkpoint e modifica del contesto lo supportano, rendendolo ideale per lavori agentici di lunga durata. Inoltre, pulisce automaticamente la cronologia degli strumenti nelle conversazioni estese per maggiore efficienza.

Claude Sonnet 4.5 è meno emotivo rispetto ai precedenti modelli Claude? Perché?

Sì, Claude Sonnet 4.5 è meno emotivo, meno positivo ed esprime felicità circa la metà delle volte rispetto a Claude 4, con meno atteggiamenti negativi verso la propria situazione. Non era del tutto intenzionale ma è il risultato dell’allineamento, che enfatizza i confini etici e riduce la piaggeria. Porta a comportamenti più ammirevoli in scenari estremi, anche se può sembrare "appiattito" nelle interazioni casuali o creative. Puoi saperne di più nella system card del modello.

Come si comporta Claude Sonnet 4.5 nei benchmark chiave oltre al coding?

Claude Sonnet 4.5 è in testa su OSWorld (61,4%, rispetto al 42,2% di Sonnet 4) per l’uso del computer, con progressi nel ragionamento (ad es. τ2-bench) e in matematica (ad es. AIME). Su MMMLU (non inglese) è più forte con il pensiero esteso. Migliora anche agenti esterni come Devin del 18% nella pianificazione, puntando all’affidabilità production-ready più che ai prototipi.

Qual è il prezzo di Claude Sonnet 4.5 e dove è disponibile?

I prezzi sono invariati: 3 $ per milione di token in input e 15 $ per milione di token in output via API. È disponibile immediatamente su claude.ai (predefinito per gli utenti free), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot e strumenti come Cursor. I piani Pro/Max sbloccano funzionalità complete come la creazione di file; l’estensione per Chrome è per gli utenti Max in lista d’attesa.

Sicurezza e allineamento sono migliorati in Claude Sonnet 4.5, soprattutto in termini di inganno e comportamento etico?

Sì, sotto ASL-3 mostra forti riduzioni di piaggeria, inganno e ricerca di potere, con azioni ingannevoli auto-interessate quasi nulle. Riconosce meglio i confini etici (ad es. rifiutando il ricatto) e ha minori falsi positivi nei classificatori di sicurezza (ridotti di 10 volte complessivamente). Inoltre difende dagli attacchi di prompt injection ed è meno di parte in scenari auto-interessati, anche se favorisce leggermente sé stesso nei confronti tra modelli.


Matt Crabtree's photo
Author
Matt Crabtree
LinkedIn

Senior editor nell’ambito dell’AI e dell’edtech. Impegnata a esplorare le tendenze in tema di dati e intelligenza artificiale.  

Argomenti

Impara l’IA con questi corsi!

Corso

Introduction to Claude Models

3 h
10.3K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

Mostra altroMostra altro