Claude Sonnet 4.6: funzionalità, accesso, test e benchmark

Scopri Claude Sonnet 4.6 di Anthropic: finestra di contesto da 1M di token, prestazioni quasi da Opus e avanzate capacità agentiche per coding e finanza.

Aggiornato 17 apr 2026 · 10 min leggi

Esplora con l'AI

Apri in ChatGPT Apri in Claude Apri in Perplexity

Per settimane si è atteso l’arrivo di Claude Sonnet 5. Invece, Anthropic ha prima rilasciato Claude Opus 4.6 e ora ha seguito con un aggiornamento della famiglia di modelli Sonnet.

Claude Sonnet 4.6 porta connettori, skill e compattazione del contesto a tutti gli utenti, svetta nel benchmark GDPval-AA e offre prestazioni di livello flagship a un prezzo accessibile.

Sebbene lo sviluppo sembri concentrarsi sulle capacità agentiche, promette “un aggiornamento completo delle skill del modello” in praticamente tutti i domini rilevanti.

Il modello è all’altezza delle aspettative? In questo tutorial ti mostrerò le funzionalità chiave del nuovo modello di Anthropic e lo metterò alla prova.

Dai un’occhiata anche alle nostre guide su Muse Spark e Qwen3.5, i nuovi modelli flagship di Meta e Alibaba, rispettivamente.

Che cos’è Claude Sonnet 4.6?

Claude Sonnet 4.6 è l’ultimo large language model (LLM) di Anthropic. Si concentra fortemente su coding agentico, uso del computer e altre capacità agentiche, ed è il modello più leggero rispetto al recente modello di punta, Claude Opus 4.6.

L’aggiornamento, che a prima vista sembra incrementale, non molto tempo fa avrebbe sorpreso, ma è in linea con questa recente pubblicazione. Interpretando la logica del versioning, direi che Claude Sonnet 4.6 potrebbe non introdurre molte funzionalità inedite, ma integrare nel ramo Sonnet feature introdotte di recente.

Oltre a rendere disponibili a tutti funzionalità prima riservate ai piani a pagamento, Claude Sonnet 4.6 migliora sensibilmente rispetto al suo predecessore su tutta la linea, mantenendo però il prezzo API di Claude Sonnet 4.5 (3$/15$ per milione di token in input/output). È disponibile subito sia tramite l’interfaccia web di Claude sia via API.

Funzionalità chiave di Claude Sonnet 4.6

L’approccio di Anthropic a questo rilascio sembra puntare a offrire prestazioni da flagship livello Opus a prezzo Sonnet. Per quanto ambizioso, i risultati dei benchmark indicano che l’obiettivo è stato centrato, come vedremo più avanti.

Un esempio che spicca è l’uso agentico del computer di Claude Sonnet 4.6, che ottiene un notevolissimo 72,5% in OSWorld-Verified. Come mostra il grafico qui sotto, i modelli Sonnet hanno fatto molta strada, più che raddoppiando questo punteggio in meno di un anno.

Punteggi OSWorld-Verified dei modelli Claude Sonnet nel tempo (Fonte: Anthropic)

Vediamo alcune funzionalità notevoli del nuovo modello:

Intelligenza quasi da Opus per coding e reasoning

Claude Sonnet 4.6 offre un upgrade completo delle skill su un’ampia gamma di compiti, tra cui:

Coding
Ragionamento a lungo orizzonte
Pianificazione agentica
Lavoro basato sulla conoscenza
Design

Secondo le note di rilascio, Anthropic ha riscontrato che i beta tester preferivano usare Sonnet 4.6 rispetto a Opus 4.5, modello di punta di Anthropic fino a due settimane fa, circa nel 59% dei casi.

Hanno citato una migliore aderenza alle istruzioni, meno allucinazioni e una più affidabile risoluzione di problemi in più passaggi come motivi della preferenza.

Capacità agentiche di frontiera con maggiore sicurezza

Il modello mostra capacità a livello umano in molti compiti software reali, come:

Navigazione in fogli di calcolo complessi
Moduli web multi-passaggio
Workflow multi-tab

Questo emerge, ad esempio, nel forte punteggio OSWorld-Verified e in alcuni benchmark specifici di dominio di cui parleremo più avanti.

Un altro focus nello sviluppo del modello è stato la sicurezza, particolarmente rilevante nel passaggio verso l’AI agentica. Anthropic afferma che Claude Sonnet 4.6 ha migliorato significativamente la resistenza alle prompt injection rispetto a Sonnet 4.5, ed è alla pari con Opus 4.6 sotto questo profilo.

Pianificazione a lungo orizzonte

L’affermazione forse più accattivante riguarda l’ampia finestra di contesto, che ora raggiunge 1 milione di token. Questa estensione consente a Sonnet 4.6 di ingerire in un’unica richiesta codebase ancora più grandi, contratti lunghi o ampi pacchetti di ricerca, e di ragionare efficacemente su tale contesto. Questa finestra di contesto ampliata pone Sonnet 4.6 al pari di Gemini 3 di Google.

Un esempio di pianificazione a lungo termine migliorata è la Vending-Bench Arena, che testa la capacità di un modello di gestire nel tempo un’impresa simulata, con un elemento di competizione tra modelli. Investendo pesantemente in infrastruttura all’inizio e capitalizzando in seguito, Sonnet 4.6 è riuscito a quasi triplicare i guadagni medi di Sonnet 4.5 dopo un anno.

Punteggi Vending-Bench di Claude Sonnet 4.6 vs Sonnet 4.5 (Fonte: Anthropic)

Miglioramenti avanzati al workflow

Sulla piattaforma e nell’API di Claude, Sonnet 4.6 rende disponibili gratuitamente alcune funzionalità prima limitate ai modelli Opus o ai piani a pagamento.

Pensiero adattivo

Una funzione interessante, introdotta con il rilascio di Claude Opus 4.6, è il pensiero adattivo. Consente a Claude di decidere automaticamente quando e quanto ragionare prima di rispondere. Nell’API si abilita impostando thinking: {type: “adaptive”}. È integrata automaticamente per Sonnet 4.6 e Opus 4.6 nell’interfaccia web.

Connettori

I connettori offrono integrazioni basate su MCP, cioè forniscono accesso diretto ad app esterne come Google Workspace e Slack. In questo modo, Sonnet 4.6 può recuperare e agire su dati in tempo reale da questi strumenti all’interno delle chat. In origine i connettori erano una funzione riservata ai piani a pagamento, ma con Sonnet 4.6 come nuovo modello predefinito sono disponibili anche per gli utenti free.

Testare Claude Sonnet 4.6

Ho pensato fosse interessante vedere come si comporta Claude Sonnet 4.6 sugli stessi compiti usati nella nostra guida a Claude Opus 4.6, così da poterli confrontare direttamente. I test sono stati pensati per includere attività in più passaggi e sondare il ragionamento matematico e legato al codice.

Test 1: rompicapo logico esadecimale-decimale

Il primo test mira alle abilità matematiche:

Step 1: Find the 6th prime number. Let this be P. 
Step 2: Convert the square of P into hexadecimal. 
Step 3: Count the letters (A–F) and digits (0–9) in that hex string. Let these be A and B. 
Step 4: Multiply A × B. Let this be N. 
Step 5: Find the Nth prime number.

Calcoliamo noi, così possiamo verificare la correttezza del risultato:

Il 6º numero primo è 13.
13 al quadrato fa 169.
169 in esadecimale è A9, che ha 1 lettera e 1 cifra.
1 × 1 fa 1.
Il primo numero primo è 2.

L’idea dietro questo test era di confondere il modello con compiti che richiedono logiche di conteggio e formati numerici diversi. Come Opus 4.6, anche Sonnet 4.6 affronta con successo ogni singolo passaggio e giunge alla conclusione corretta:

Test 2: Rotazione di una matrice

Il test successivo punta al ragionamento spaziale, un noto punto debole di molti LLM:

Step 1: Create a 2×2 matrix M with top row [4, 2] and bottom row [1, 5]. 
Step 2: Rotate M 90 degrees clockwise. 
Step 3: Calculate the determinant of the rotated matrix. 
Step 4: Cube that determinant. 
Step 5: Subtract the 13th Fibonacci number from the result.

La risposta corretta è -6.065:

La matrice iniziale è [[4, 2], [1, 5]].
La matrice ruotata è [[1, 4], [5, 2]].
Il determinante è la differenza tra i due prodotti diagonali, che in questo caso è -18.
Se eleviamo -18 al cubo otteniamo -5.832.
-5.832 - 233 fa -6.065.

Sonnet 4.6 non ha alcun problema con il compito. Riesce a cogliere il contesto spaziale della matrice e a ruotarla correttamente, e nemmeno i numeri negativi creano difficoltà:

Test 3: Debug del codice

Infine, affrontiamo il debug del codice, una delle presunte forze di Sonnet 4.6. Il test è progettato per verificare quanto il modello sia consapevole del contesto quando si trova di fronte a un bug specifico.

A developer wrote this Python function to compute a running average: 

def running_average(data, window=3): 
    result = [] 
    for i in range(len(data)): 
        start = max(0, i - window + 1) 
        chunk = data[start:i + 1] 
        result.append(round(sum(chunk) / window, 2)) 
    return result 
When called with running_average([10, 20, 30, 40, 50]), the first two values in the output seem wrong. Why? Please help me fix what is wrong!

Il problema in questo snippet è che la funzione divide sempre per window (3), anche prima che ci siano 3 elementi nel chunk all’inizio della lista. L’output del codice bacato è [3.33, 10.0, 20.0, 30.0, 40.0], ma i primi due valori dovrebbero essere 10.0 e 15.0, dato che quei chunk contengono rispettivamente solo 1 e 2 elementi e andrebbero divisi per quei numeri. La correzione è quindi dividere per len(chunk) invece che per window.

Questo test è interessante perché colpisce un punto debole degli LLM: spesso eseguono il loop alla perfezione ma interpretano l’output come corretto. Il motivo è che vedono i calcoli eseguiti passo dopo passo senza errori, ma non considerano cosa la funzione dovrebbe fare. Solo se il modello collega lo scopo della funzione alla sua esecuzione può individuare il bug.

Anche qui, il modello supera il test. Ovviamente questa è solo una piccola selezione di prove che si potrebbero fare, ma almeno in questi esempi Sonnet 4.6 è allineato a Opus 4.6.

Benchmark di Claude Sonnet 4.6

Con l’elevata frequenza con cui escono nuovi modelli ultimamente, siamo già abituati a molti cambiamenti nelle prime posizioni delle leaderboard dei benchmark. Ciononostante, i primi risultati di Claude Sonnet 4.6 su più benchmark LLM non deludono, soprattutto considerando che non è il modello di punta di Anthropic.

Punteggi di benchmark di Claude Sonnet 4.6 e concorrenti (Fonte: Anthropic)

Come si vede dalla tabella, Claude Sonnet 4.6 si comporta molto bene nei benchmark agentici:

Uso agentico del computer: Con un punteggio OSWorld-Verified del 72,5%, conquista il secondo posto, appena sotto Claude Opus 4.6 (72,7%), superando nettamente il nuovo modello di punta di OpenAI GPT-5.3 Codex (64,7%).
Coding agentico: Claude Sonnet 4.6 raggiunge il 79,6% in SWE-bench verified. Tutti i recenti modelli Claude e concorrenti sono più o meno allineati, gravitano attorno all’80%.
Terminal coding agentico: Un miglioramento significativo rispetto a Sonnet 4.5 (59,1% invece di 51% in Terminal-Bench 2.0), ma un po’ dietro a Opus 4.6 (65,4%) e con un divario piuttosto ampio rispetto a GPT-5.3 Codex (75,1%).

È particolarmente notevole che Anthropic sembri superare la concorrenza in compiti agentici specifici di dominio:

Analisi finanziaria agentica: Qui Claude Sonnet 4.6 prende il primo posto con il 63,3% in Finance Agent v1.1, superando anche Opus 4.6 (60,1%).
Compiti d’ufficio: Un altro benchmark in cui Sonnet 4.6 si piazza primo con un Elo di 1633 in GDPval-AA, mettendo di nuovo Opus 4.6 al secondo posto (1606).

Come accedere a Claude Sonnet 4.6

Puoi usare subito Claude Sonnet 4.6 attraverso diversi canali. Ecco come accedervi:

Accesso via chat

Sonnet 4.6 è disponibile tramite l’interfaccia web di Claude.ai, le app iOS e Android e l’app desktop macOS con Claude Cowork.

Su tutte queste piattaforme è il nuovo modello predefinito, anche per il piano gratuito. Ciò significa che creazione di file, connettori, skill e compattazione del contesto sono ora disponibili per tutti.

Accesso via API

Gli sviluppatori possono usare Claude Sonnet 4.6 tramite l’API di Anthropic con l’ID modello claude-sonnet-4-6. I prezzi restano invariati rispetto al predecessore: un milione di token in input costa 3$, un milione di token in output 15$.

Per la distribuzione su scala enterprise, Sonnet 4.6 è disponibile su diverse piattaforme cloud, come AWS Bedrock o Google Vertex AI, ciascuna con prezzi personalizzati.

Strumenti per il coding

Claude Sonnet 4.6 alimenta ora anche Claude Code ed è il modello predefinito per gli account Pro e Team, mentre i piani superiori predefiniscono Opus 4.6. Se vuoi vedere alcuni esempi di cosa puoi costruire, ti consigliamo i nostri tutorial su gli hook di Claude Code e su come creare plugin per Claude Code.

Inoltre, Sonnet 4.6 può essere usato anche con IDE e altri assistenti di coding, come Cursor o Roo Code.

Claude Sonnet 4.6 vs Opus 4.6

In molti ambiti, la differenza tra Sonnet 4.6 e Opus 4.6 è così marginale da poter parlare di un pareggio. Questo vale in particolare per molti compiti agentici, come coding agentico, uso agentico del computer e uso agentico degli strumenti. Sonnet 4.6 supera persino Opus 4.6 in analisi finanziaria agentica, compiti d’ufficio e uso scalato degli strumenti.

Come prevedibile, sono i compiti che richiedono molto reasoning o creatività in cui Opus 4.6 brilla davvero, come la risoluzione di problemi inediti e il ragionamento multidisciplinare. Nel dominio agentico, Opus 4.6 è migliore in terminal coding agentico e ricerca agentica.

Scegliere il modello Claude giusto

Per la maggior parte dei compiti di coding e agentici, e per quelli in cui il rispetto delle istruzioni è fondamentale, Claude Sonnet 4.6 è la scelta migliore perché offre prestazioni sostanzialmente identiche a un costo significativamente inferiore. Inoltre, è più veloce.

I team che dipendono da reasoning a livello esperto o workflow multi-agente dovrebbero invece scegliere Claude Opus 4.6. In particolare per ricerca, migrazioni complesse o lavori esperti ad alto impatto, Opus 4.6 eccelle.

Considerazioni finali

Con Claude Sonnet 4.5, Anthropic continua a puntare su codice, agenti e uso del computer. Oltre a un enorme incremento di prestazioni rispetto al predecessore, rende disponibili a tutti funzionalità come connettori e pensiero adattivo, anche nel piano gratuito.

Le prime impressioni e i risultati dei benchmark sono davvero buoni, e sembra un cambio di passo perché offre prestazioni (quasi) da Opus senza il prezzo elevato. Per molti workflow quotidiani, è persino difficile sostenere perché dovresti usare il modello di punta di Anthropic. Detto ciò, per i compiti che richiedono molto reasoning, Claude Opus 4.6 resta la scelta migliore.

Sarà interessante vedere per quanto tempo Claude Sonnet 4.6 resterà in cima alle leaderboard dei benchmark e come reagiranno i concorrenti di Anthropic al rilascio.

Abbiamo parlato di compiti agentici in tutto l’articolo. Se vuoi saperne di più su come usare modelli come Claude Sonnet 4.6 in questo tipo di workflow, ti consiglio il nostro skill track AI Agent Fundamentals.

Che cos’è Claude Sonnet 4.6?

Quali sono le nuove funzionalità principali di Claude Sonnet 4.6?

Come si comporta Claude Sonnet 4.6 nel coding e nei benchmark?

Come posso accedere a Claude Sonnet 4.6?

Quando dovrei usare Claude Sonnet 4.6 rispetto a Opus 4.6?

Author

Tom Farnschläder

Argomenti

Intelligenza artificiale

Corsi AI

Programma

Nozioni di base sugli agenti AI

6 h

Scopri come gli agenti di intelligenza artificiale possono cambiare il tuo modo di lavorare e dare un valore aggiunto alla tua azienda!

Vedi dettagli

Inizia Il Corso

Corso

Introduzione ai modelli Claude

3 h

12.5K

Scopri come usare Claude con l'API di Anthropic per risolvere problemi del mondo reale e creare app basate sull'intelligenza artificiale.

Vedi dettagli

Inizia Il Corso

Corso

Introduzione agli AI Agents

1 h 30 min

120.5K

Scopri le basi degli agenti AI, come funzionano e come si usano nella vita di tutti i giorni, senza bisogno di programmare.

Vedi dettagli

Inizia Il Corso

Mostra altro

Correlato

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.

Abid Ali Awan

10 min

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.

Abid Ali Awan

15 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.

Tim Lu

12 min

Mostra Altro Mostra Altro

Che cos’è Claude Sonnet 4.6?

Funzionalità chiave di Claude Sonnet 4.6

Intelligenza quasi da Opus per coding e reasoning

Capacità agentiche di frontiera con maggiore sicurezza

Pianificazione a lungo orizzonte

Miglioramenti avanzati al workflow

Pensiero adattivo

Connettori

Testare Claude Sonnet 4.6

Test 1: rompicapo logico esadecimale-decimale

Test 2: Rotazione di una matrice

Test 3: Debug del codice

Benchmark di Claude Sonnet 4.6

Come accedere a Claude Sonnet 4.6

Accesso via chat

Accesso via API

Strumenti per il coding

Claude Sonnet 4.6 vs Opus 4.6

Scegliere il modello Claude giusto

Considerazioni finali

Claude Sonnet 4.6 - Domande frequenti

Come si comporta Claude Sonnet 4.6 nel coding e nei benchmark?

Come posso accedere a Claude Sonnet 4.6?

Quando dovrei usare Claude Sonnet 4.6 rispetto a Opus 4.6?

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Nozioni di base sugli agenti AI

Introduzione ai modelli Claude

Introduzione agli AI Agents

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Nozioni di base sugli agenti AI