Vai al contenuto principale

Qwen3.5: funzionalità, accesso e benchmark

Scopri la nuova serie di modelli Qwen3.5: caratteristiche principali, costi, come accedervi e come si confrontano con modelli simili.
Aggiornato 16 apr 2026  · 8 min leggi

Alibaba ha appena presentato il suo ultimo large language model, Qwen3.5.  Questo nuovo modello arriva in risposta a recenti rilasci come GPT-5.3 Codex e Claude Opus 4.6, che ci hanno entrambi colpito. 

Secondo Alibaba, Qwen 3.5 è "costruito per l’era dell’AI agentica" e il modello vision-language sarebbe più economico ed efficiente del suo predecessore, con statistiche di performance di frontiera in diversi benchmark. 

Alibaba rilascia anche Qwen3.5-Plus, una versione premium del modello con una finestra di contesto da 1 milione di token, che punta direttamente a Gemini 3

In questo articolo ti guiderò tra le novità principali di Qwen3.5 e Qwen3.5-Plus, esaminando come se la cavano rispetto ai concorrenti, cosa dicono i benchmark e come puoi accedere ai nuovi modelli. 

Dai un’occhiata anche alle nostre guide sui modelli concorrenti più recenti, come Claude Sonnet 4.6 o GPT-5.3 Instant.

Che cos’è Qwen3.5?

Qwen3.5 è l’ultima generazione della serie di large language model (LLM) di Alibaba, Qwen3.5-397B-A17B. A differenza della precedente famiglia di modelli Qwen3, Qwen3.5 combina modelli specializzati in un unico modello nativo vision-language. Come i precedenti Qwen, è open source sotto licenza Apache 2.0.

È proposto come foundation model generico per casi d’uso consumer e enterprise ed è progettato per workflow nativamente multimodali e agentici. Qwen3.5-397B-A17B offre due modalità: 

  • “Thinking” per compiti che richiedono ragionamento più profondo
  • “Fast” per inferenza rapida con attività di routine

Qwen3.5 vs Qwen3.5-Plus

Qwen3.5-Plus è un servizio hosted, solo API, corrispondente a Qwen3.5-397B-A17B e non è di per sé un modello con pesi aperti. Le note di rilascio su questo punto erano un po’ ambigue: il riferimento a Qwen3.5-Plus potrebbe far pensare a un modello separato, ma in realtà è il servizio proprietario di Alibaba costruito sullo stesso modello.

Sebbene Qwen3.5-Plus si basi sul modello Qwen3.5-397B-A17B, ci sono alcune differenze da notare. È accessibile solo tramite Alibaba Cloud Model Studio con pagamento a token, e tramite la Qwen Chat UI con accesso limitato. 

Qwen3.5-Plus utilizza una finestra di contesto estesa di 1 milione di token, rispetto alla finestra da 256K token del modello Qwen3.5 standard. Oltre a “Thinking” e “Fast”, Qwen3.5-Plus include anche una modalità “Auto” con thinking adattivo che, oltre al ragionamento, può usare strumenti come la ricerca e un interprete di codice.

Caratteristiche principali di Qwen3.5

Vediamo alcune delle nuove funzionalità disponibili con Qwen3.5: 

Capacità multimodali native

Analogamente a OpenAI, che ha unito i suoi modelli standard e Codex nel recente rilascio di GPT-5.3 Codex, Alibaba ha combinato testo, visione e interazione con l’interfaccia in un unico modello.

Qwen3.5 è stato addestrato congiuntamente su testo, immagini, screenshot di interfacce e contenuti strutturati. Supporta il visual question answering, la comprensione di documenti e l’interpretazione di grafici/tabelle, e gestisce il grounding a livello di pixel per identificare e interagire con elementi a schermo.

Capacità agentiche visive

Questo ci porta al prossimo punto focale del nuovo Qwen3.5. Grazie all’ampio addestramento su screenshot di UI, il modello può riconoscere e agire su interfacce mobile e desktop. Questo consente di eseguire workflow multi-step come:

  • Compilare moduli
  • Navigare tra le app
  • Modificare le impostazioni di sistema
  • Organizzare file 

Questo rende Qwen3.5 ideale per l’automazione della produttività. Usando istruzioni in linguaggio naturale, puoi consentire all’agente visivo Qwen di agire su più app, completando workflow complessi. Può persino mantenere uno stato su lunghe sequenze di interazione, abilitando un’orchestrazione solida di strumenti e app. 

Prestazioni ed efficienza migliorate

Qwen3.5 è un modello piuttosto grande, con 397 miliardi di parametri totali, anche se solo 17 miliardi sono attivati per token, grazie all’architettura mixture-of-experts. In sostanza, significa che ha l’intelligenza di un modello gigante, con la velocità e l’efficienza di costo di uno molto più piccolo. 

In pratica, rispetto a Qwen3-Max, Qwen3.5 397B-A17B è 19 volte più veloce nel decodificare compiti a lungo contesto (256k token) e 8,6 volte più veloce per i workflow standard. Fondamentale, questa velocità non compromette l’intelligenza; eguaglia comunque il ragionamento e le prestazioni di coding di Qwen3-Max e supera Qwen3-VL, grazie alla fusione precoce di testo e video.  

Efficienza dei costi migliorata

Con le migliori prestazioni, vediamo anche efficienze sui costi con questo modello. 

Allo stesso modo, una pipeline nativa FP8 (elaborazione dei dati a 8 bit di precisione, piuttosto che i canonici 16 bit) fa sì che Qwen3.5 dimezzi la memoria necessaria all’esecuzione. Questo consente calcoli più rapidi, migliorando le velocità di oltre il 10% alla scala del trilione di token. 

Qwen3.5 ha anche un lessico notevole da 250k, che gli permette di esprimere concetti complessi con meno token. Insieme alle predizioni multi-token, il modello può “indovinare” diverse parole future in un singolo step, riducendo i costi in token dal 10% al 60% in 201 lingue. 

Come è stato sviluppato Qwen3.5

Lo sviluppo di Qwen3.5 ha utilizzato un’infrastruttura personalizzata che rende l’addestramento di modelli multimodali e agentici (quasi) veloce ed economico quanto quello dei modelli puramente testuali. L’approccio speciale all’addestramento di Qwen3.5 si basa su tre componenti chiave:

  • Qualità dei dati
  • Infrastruttura eterogenea
  • Reinforcement learning (RL) asincrono

Qualità dei dati

Il team di Alibaba ha raccolto molti più dati visivo-testuali rispetto alla famiglia Qwen3, ma li ha filtrati in modo molto rigoroso per garantire input di alta qualità. Il dataset risultante consente al modello da 397B parametri di eguagliare le capacità di modelli molto più grandi da 1T parametri, come Qwen3-Max.

Infrastruttura eterogenea

Le parti di visione e linguaggio sono state addestrate separatamente ma in parallelo. Poiché nessuna delle due deve attendere i calcoli dell’altra, la sovrapposizione risultante offre una velocità di addestramento quasi al 100% rispetto ai modelli puramente testuali.

Reinforcement learning asincrono

Usando la compressione FP8 (in sostanza memorizzando i numeri con metà dei bit) e la decodifica speculativa (anticipando le previsioni), gli agenti eseguono migliaia di task simultaneamente mentre l’addestramento procede in background senza attese. Questo ha accelerato l’addestramento senza perdite significative di qualità, così Qwen3.5 ha imparato abilità agentiche complesse, come il clic su UI o i task multi-step, 3-5 volte più velocemente.

L’infrastruttura di addestramento di Qwen3.5

Benchmark di Qwen3.5

Le prestazioni del nuovo modello di Alibaba sono già state validate su molti compiti. Ci concentreremo sui risultati nelle aree chiave di workflow agentici e multimodali, oltre che sulle capacità generali di ragionamento.

Prestazioni ai benchmark di Qwen3.5 rispetto a Qwen3-Max-Thinking, Qwen3-VL-235B-A22B, GPT-5.2, Claude Opus 4.5 e Gemini 3 Pro

Workflow agentici

L’area in cui Qwen3.5 è migliorato di più rispetto alla famiglia Qwen3 sono i workflow agentici. 

  • Coding agentico da terminale: Il salto più significativo si registra in Terminal-Bench 2.0, dove Qwen3.5 raggiunge 52,5 rispetto ai soli 22,5 di Qwen3-Max-Thinking, riuscendo a competere con Gemini 3 Pro (54,2). Detto ciò, resta ben dietro all’attuale leader, il recente GPT-5.3 Codex (77,3).
  • Ricerca agentica: Questa sembra essere la forza principale di Qwen3.5. Raggiunge un notevole 78,6 in BrowseComp, superando di molto Gemini 3 Pro (59,2) e piazzandosi al secondo posto dietro a Claude Opus 4.6 (84,0)

Multimodalità

La multimodalità è un altro ambito che ha visto miglioramenti significativi rispetto alla famiglia precedente. Ciò è particolarmente vero per l’embodied reasoning e il riconoscimento di documenti:

  • Embodied reasoning: Qwen3.5 ottiene 67,5 in ERQA, molto superiore a Qwen3-VL (52,5); quasi in linea con Gemini 3 Pro (70,5)
  • Riconoscimento documenti: Qwen3.5 supera la soglia del 90% in OmniDocBench v1.5 con un impressionante 90,8, superando GPT-5.2 (85,7), Claude Opus 4.5 (87,7) e Gemini 3 Pro (88,5)
  • Ragionamento visivo: Qui Qwen3.5 è solo leggermente sotto Gemini 3 Pro, con 79,0 in MMMU-Pro e 87,5 in Video-MME (Gemini 3 Pro: 81,0 e 88,4)

Ragionamento, conoscenza e affidabilità

Ragionamento e conoscenza non sono chiaramente le aree principali di questo rilascio. Ciononostante, ci sono lievi miglioramenti, soprattutto in termini di affidabilità.

  • Rispetto delle istruzioni: Con 76,5 in IFBench, Qwen3.5 sembra essere molto affidabile e si posiziona in alto in classifica. Per confronto, l’attuale leader, AWS Nova 2.0 Pro, ottiene 79,0
  • Ragionamento a livello graduate: Il punteggio GPQA Diamond di 88,4 è solo un miglioramento incrementale rispetto a Qwen3-Max-Thinking (87,4)
  • Conoscenza multilingue: Qwen3.5 raggiunge un punteggio MMMLU di 88,5, inferiore a Gemini 3 Pro (90,6) ma un miglioramento significativo rispetto al modello precedente (84,4)

Come accedere a Qwen3.5

Come per i modelli precedenti, i modelli Qwen3.5 sono open source e possono essere utilizzati in vari modi: direttamente nell’app di chat, via API, scaricati per il deploy locale o integrati in setup personalizzati.

Interfaccia chat

Puoi accedere a Qwen3.5 direttamente su chat.qwen.ai nella consueta interfaccia di chat. 

Il menu a tendina per la selezione del modello offre sia Qwen3.5-397B-A17B che Qwen3.5-Plus, oltre ad alcuni modelli precedenti della famiglia Qwen3 e Qwen2.5-Max.

Accesso via API

L’accesso API a Qwen 3.5 funziona come per Qwen3: endpoint compatibili con OpenAI tramite ModelScope (free tier, quote giornaliere) o DashScope/Model Studio (a pagamento, include Qwen3.5-Plus). Aggiorna l’ID modello a qwen3.5-397b-a17b o qwen3.5-plus e sei pronto.

Pesi aperti e deploy locale

Come detto, i pesi del modello Qwen3.5-397B-A17B sono stati rilasciati sotto licenza Apache 2.0. Puoi eseguire Qwen3.5 in locale con strumenti come Ollama, LM Studio o vLLM.

I pesi possono essere scaricati da:

Considerazioni finali

Con nuovi agenti visivi, prestazioni migliorate e ottimizzazione dei costi, il rilascio di Qwen3.5 è notevole e mette pressione non solo sugli altri modelli cinesi ma anche su quelli di OpenAI e Anthropic. 

Come per altri rilasci di quest’anno, come GPT-5.3-Codex e Claude Opus 4.6, l’attenzione si sta chiaramente spostando verso l’AI agentica. Il rapido successo di OpenClaw ha dimostrato che le persone desiderano usi pratici dell’AI, e modelli come Qwen3.5, Seedance 2.0 e il presunto prossimo rilascio di DeepSeek mostrano che la Cina sta rapidamente diventando il leader di mercato nei modelli di AI.

Qwen3.5 FAQ

Qual è la differenza tra Qwen3.5 e Qwen3.5-Plus?

Qwen3.5-397B-A17B è il modello con pesi aperti che puoi scaricare ed eseguire in autonomia. Ha una finestra di contesto da 256k e supporta le modalità "Thinking" (ragionamento profondo) e "Fast". Qwen3.5-Plus è la versione hosted via API. Usa la stessa architettura ma aggiunge una enorme finestra di contesto da 1 milione di token e una modalità esclusiva "Auto", che può usare in modo adattivo strumenti come la ricerca sul web e interpreti di codice senza prompt manuali.

Posso eseguire Qwen3.5 in locale e quale hardware mi serve?

Sì, ma richiede hardware significativo. Anche se Qwen3.5 attiva solo 17B parametri per token (rendendolo veloce), devi comunque caricare in memoria il totale di 397B parametri.

  • Modello completo (FP16/BF16): Richiede ~800GB di VRAM (necessario cluster di livello enterprise).
  • Quantizzato (4 bit): Richiede ~220GB di memoria unificata. Puoi eseguirlo su un Mac Studio/Pro con chip M-series Ultra (256GB di RAM) o su una macchina multi-GPU (es. 3x A100 80GB o 10x RTX 3090/4090).

Qwen3.5 è gratuito per uso commerciale?

Sì. A differenza di molti modelli di frontiera che usano licenze comunitarie restrittive, Qwen3.5 è rilasciato sotto licenza Apache 2.0. Ciò consente uso commerciale senza restrizioni, modifica e distribuzione, rendendolo molto interessante per applicazioni enterprise.

Cosa significa davvero "Nativo Multimodale"?

La maggior parte dei modelli multimodali (come il precedente Qwen3-VL) usa un approccio "agganciato", in cui un modello di visione separato elabora le immagini e le traduce in feature testuali per il modello linguistico. Nativo Multimodale significa che Qwen3.5 è stato addestrato fin dall’inizio per "vedere" e "leggere" simultaneamente usando un unico modello. Questo si traduce in elaborazione più rapida e accuratezza molto superiore per compiti che richiedono un grounding visivo profondo, come la comprensione di UI complesse.

Come si confronta Qwen3.5 con il più grande Qwen3-Max?

Qwen3.5 è progettato come successore più efficiente. Mentre Qwen3-Max è un modello enorme >1 trilione di parametri, Qwen3.5 ne eguaglia le prestazioni nei principali benchmark di ragionamento e coding essendo al contempo 19 volte più veloce nella generazione di testo. Pensa a Qwen3.5 come alla stessa "potenza cerebrale" di Max, ma con un pensiero significativamente più rapido ed economico.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom è un data scientist e formatore tecnico. Scrive e gestisce i tutorial e i post del blog di DataCamp su data science. In precedenza, Tom ha lavorato nella data science presso Deutsche Telekom.


Senior editor nell’ambito dell’AI e dell’edtech. Impegnata a esplorare le tendenze in tema di dati e intelligenza artificiale.  

Argomenti

I migliori corsi di AI

Programma

Nozioni di base sugli agenti AI

6 h
Scopri come gli agenti di intelligenza artificiale possono cambiare il tuo modo di lavorare e dare un valore aggiunto alla tua azienda!
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

Mostra altroMostra altro