Programa
A Alibaba acaba de apresentar seu mais novo modelo de linguagem, o Qwen3.5. Ele chega na esteira de lançamentos como o GPT-5.3 Codex e o Claude Opus 4.6, que nos impressionaram.
Segundo a Alibaba, o Qwen 3.5 foi "feito para a era da IA agentiva". O modelo de visão e linguagem promete ser mais barato e eficiente que seu antecessor, entregando números de performance de ponta em vários benchmarks.
A Alibaba também está lançando o Qwen3.5-Plus, uma versão premium com janela de contexto de 1 milhão de tokens, mirando diretamente no Gemini 3.
Neste artigo, eu mostro os novos recursos do Qwen3.5 e do Qwen3.5-Plus, comparo com os concorrentes, trago os benchmarks e explico como acessar os novos modelos.
Aproveite para conferir também nossos guias sobre os modelos concorrentes mais recentes, como o Claude Sonnet 4.6 e o GPT-5.3 Instant.
O que é o Qwen3.5?
O Qwen3.5 é a nova geração da série de modelos de linguagem (LLM) da Alibaba, Qwen3.5-397B-A17B. Diferente da família de modelos Qwen3 anterior, o Qwen3.5 unifica modelos especializados em um único modelo nativo de visão e linguagem. Assim como versões anteriores do Qwen, ele é open source sob a licença Apache 2.0.
Ele é posicionado como um foundation model de uso geral para casos de uso de consumo e corporativos, projetado para fluxos de trabalho multimodais e agentivos nativos. O Qwen3.5-397B-A17B oferece dois modos:
- "Thinking" para tarefas que exigem raciocínio mais profundo
- "Fast" para inferência rápida em tarefas rotineiras
Qwen3.5 vs Qwen3.5-Plus
O Qwen3.5-Plus é um serviço hospedado, acessível apenas por API, correspondente ao Qwen3.5-397B-A17B e não é um modelo com pesos abertos. A nota de lançamento gerou um pouco de confusão: a menção ao Qwen3.5-Plus pode parecer um modelo separado, mas na prática é o serviço proprietário da Alibaba construído sobre o mesmo modelo.
Embora baseado no Qwen3.5-397B-A17B, há algumas diferenças. O acesso é apenas via Alibaba Cloud Model Studio, com cobrança por token, e pela interface Qwen Chat com acesso limitado.
O Qwen3.5-Plus usa uma janela de contexto estendida de 1 milhão de tokens, ante os 256 mil tokens do Qwen3.5 padrão. Além dos modos "Thinking" e "Fast", o Qwen3.5-Plus inclui ainda o modo "Auto", com raciocínio adaptativo, que além de pensar consegue usar ferramentas como busca e interpretador de código.
Principais recursos do Qwen3.5
Veja alguns dos novos recursos do Qwen3.5:
Capacidades multimodais nativas
Assim como a OpenAI unificou seus modelos padrão e Codex no recente GPT-5.3 Codex, a Alibaba combinou texto, visão e interação com UI em um único modelo.
O Qwen3.5 foi treinado conjuntamente com texto, imagens, capturas de tela de interfaces e conteúdo estruturado. Ele suporta perguntas e respostas visuais, entendimento de documentos e interpretação de gráficos/tabelas, além de fazer grounding em nível de pixel para identificar e interagir com elementos na tela.
Capacidades agentivas visuais
Esse é outro foco central do novo Qwen3.5. Graças ao treinamento extenso com capturas de tela de interfaces, o modelo reconhece e age em interfaces móveis e de desktop. Isso permite executar fluxos de trabalho de múltiplas etapas, como:
- Preenchimento de formulários
- Navegação em apps
- Alteração de configurações do sistema
- Organização de arquivos
Isso torna o Qwen3.5 ideal para automação de produtividade. Com instruções em linguagem natural, você pode permitir que o agente visual do Qwen atue em vários apps, concluindo fluxos de trabalho complexos. Ele ainda mantém estado ao longo de sequências longas de interação, possibilitando uma orquestração robusta de ferramentas e aplicativos.
Mais performance e eficiência
O Qwen3.5 é um modelo bem grande, com 397 bilhões de parâmetros no total, embora apenas 17 bilhões sejam ativados por token graças à arquitetura de mixture-of-experts. Em essência, ele tem a inteligência de um modelo gigante, com a velocidade e o custo de um modelo bem menor.
Na prática, isso significa que, em comparação ao Qwen3-Max, o Qwen3.5 397B-A17B é 19x mais rápido para decodificar tarefas de longo contexto (256k tokens) e 8,6x mais rápido em fluxos padrão. O mais importante: essa velocidade não compromete a inteligência; ele mantém o desempenho de raciocínio e código do Qwen3-Max e supera o Qwen3-VL, graças à fusão precoce de texto e vídeo.
Melhor custo-benefício
Com a performance melhor, também vêm ganhos de custo.
Da mesma forma, um pipeline nativo em FP8 (processando dados em 8 bits, em vez dos 16 bits padrão) reduz em 50% a memória necessária para rodar o modelo. Isso acelera os cálculos, aumentando a velocidade em mais de 10% na escala de trilhões de tokens.
O Qwen3.5 também traz um vocabulário robusto de 250k, permitindo expressar conceitos complexos com menos tokens. Com predições multi-token, o modelo consegue "prever" várias palavras futuras em um único passo, reduzindo o custo de tokens entre 10% e 60% em 201 idiomas.
Como o Qwen3.5 foi desenvolvido
O desenvolvimento do Qwen3.5 usou uma infraestrutura personalizada que torna o treino de modelos multimodais e agentivos quase tão rápido e barato quanto o de modelos apenas de texto. A abordagem especial no treinamento do Qwen3.5 se resume a três pilares:
- Qualidade de dados
- Infraestrutura heterogênea
- Reforço assíncrono (RL)
Qualidade de dados
A equipe da Alibaba coletou muito mais dados visuais e de texto do que para a família Qwen3, mas fez uma filtragem rígida para garantir alta qualidade. O conjunto resultante permite que o modelo de 397B parâmetros atinja a inteligência de modelos de 1T parâmetros, como o Qwen3-Max.
Infraestrutura heterogênea
As partes de visão e linguagem foram treinadas separadamente, porém em paralelo. Como uma não precisa esperar a outra, o overlap resultante entrega quase 100% da taxa de treinamento de modelos puramente textuais.
Aprendizado por reforço assíncrono
Usando compressão FP8 (armazenando números com metade dos bits) e decodificação especulativa (prevendo adiante), agentes executam milhares de tarefas simultaneamente enquanto o treino ocorre em background, sem espera. Isso acelerou o treinamento sem perda significativa de qualidade, fazendo o Qwen3.5 aprender habilidades agentivas complexas, como cliques em UI e tarefas de múltiplas etapas, de 3 a 5 vezes mais rápido.

Benchmarks do Qwen3.5
O desempenho do novo modelo da Alibaba já foi validado em muitas tarefas. Vamos focar nos resultados para fluxos agentivos e multimodais e em habilidades gerais de raciocínio.

Fluxos agentivos
A maior evolução do Qwen3.5 em relação à família Qwen3 está nos fluxos agentivos.
- Coding em terminal agentivo: O salto mais expressivo foi no Terminal-Bench 2.0: o Qwen3.5 atinge 52,5, ante apenas 22,5 do Qwen3-Max-Thinking, competindo com o Gemini 3 Pro (54,2). Ainda assim, fica bem atrás do líder atual, o recém-lançado GPT-5.3 Codex (77,3).
- Busca agentiva: Este parece ser o maior ponto forte do Qwen3.5. Ele alcança 78,6 no BrowseComp, superando com folga o Gemini 3 Pro (59,2) e ficando em segundo lugar, atrás apenas do Claude Opus 4.6 (84,0)
Multimodalidade
A multimodalidade também apresentou avanços significativos em relação à família anterior, especialmente em raciocínio incorporado e reconhecimento de documentos:
- Raciocínio incorporado: o Qwen3.5 marca 67,5 no ERQA, bem acima do Qwen3-VL (52,5) e quase no nível do Gemini 3 Pro (70,5)
- Reconhecimento de documentos: o Qwen3.5 ultrapassa 90% no OmniDocBench v1.5 com 90,8, superando o GPT-5.2 (85,7), o Claude Opus 4.5 (87,7) e o Gemini 3 Pro (88,5)
- Raciocínio visual: aqui, o Qwen3.5 fica apenas um pouco abaixo do Gemini 3 Pro, com 79,0 no MMMU-Pro e 87,5 no Video-MME (Gemini 3 Pro: 81,0 e 88,4)
Raciocínio, conhecimento e confiabilidade
Raciocínio e conhecimento claramente não foram o foco principal deste release. Ainda assim, há leves melhorias, especialmente em confiabilidade.
- Follow de instruções: com 76,5 no IFBench, o Qwen3.5 demonstra alta confiabilidade e figura no topo do ranking. Para comparação, o líder atual, AWS Nova 2.0 Pro, marca 79,0
- Raciocínio nível pós-graduação: o GPQA Diamond de 88,4 é apenas um avanço incremental em relação ao Qwen3-Max-Thinking (87,4)
- Conhecimento multilíngue: o Qwen3.5 atinge 88,5 no MMMLU, abaixo do Gemini 3 Pro (90,6), mas um avanço significativo frente ao modelo anterior (84,4)
Como acessar o Qwen3.5
Como nos modelos anteriores, os Qwen3.5 são open source e podem ser usados de várias formas: direto no app de chat, via API, baixando para uso local ou integrando em setups personalizados.
Interface de chat
Você pode acessar o Qwen3.5 diretamente em chat.qwen.ai, na interface de chat já conhecida.
No seletor de modelos, você encontra o Qwen3.5-397B-A17B e o Qwen3.5-Plus, além de alguns modelos anteriores da família Qwen3 e o Qwen2.5-Max.

Acesso via API
O acesso à API do Qwen 3.5 funciona como no Qwen3: endpoints compatíveis com OpenAI via ModelScope (camada gratuita, cotas diárias) ou DashScope/Model Studio (pago, inclui Qwen3.5-Plus). Atualize o ID do modelo para qwen3.5-397b-a17b ou qwen3.5-plus e pronto.
Pesos abertos e deployment local
Como mencionado, os pesos do Qwen3.5-397B-A17B foram lançados sob a licença Apache 2.0. Você pode rodar o Qwen3.5 localmente com ferramentas como Ollama, LM Studio ou vLLM.
Os pesos podem ser baixados em:
Considerações finais
Com novos agentes visuais, mais performance e otimização de custos, o lançamento do Qwen3.5 impressiona e pressiona não só outros modelos chineses, como também rivais da OpenAI e da Anthropic.
Assim como em outros lançamentos deste ano, como GPT-5.3-Codex e Claude Opus 4.6, o foco está migrando para a IA agentiva. O sucesso rápido do OpenClaw mostrou que as pessoas querem usos práticos de IA, e modelos como Qwen3.5, Seedance 2.0 e o rumor do próximo lançamento da DeepSeek indicam que a China caminha para a liderança no mercado de modelos de IA.
Qwen3.5: perguntas frequentes
Qual é a diferença entre Qwen3.5 e Qwen3.5-Plus?
Qwen3.5-397B-A17B é o modelo com pesos abertos que você pode baixar e rodar. Ele tem janela de contexto de 256k e suporta os modos "Thinking" (raciocínio profundo) e "Fast". O Qwen3.5-Plus é a versão hospedada via API. Usa a mesma arquitetura, mas adiciona uma janela de contexto de 1 milhão de tokens e um modo "Auto" exclusivo, que consegue usar de forma adaptativa ferramentas como busca na web e interpretadores de código sem prompts manuais.
Posso rodar o Qwen3.5 localmente? Qual hardware preciso?
Sim, mas exige hardware robusto. Embora o Qwen3.5 apenas ative 17B parâmetros por token (o que o torna rápido), ainda é preciso carregar o total de 397B parâmetros na memória.
- Modelo completo (FP16/BF16): requer ~800 GB de VRAM (cluster de nível corporativo).
- Quantizado (4 bits): requer ~220 GB de memória unificada. Você pode rodar em um Mac Studio/Pro com chip M-series Ultra (256 GB de RAM) ou um setup multi-GPU (ex.: 3x A100 80 GB ou 10x RTX 3090/4090).
O Qwen3.5 é gratuito para uso comercial?
Sim. Ao contrário de muitos modelos de fronteira com licenças comunitárias restritivas, o Qwen3.5 é lançado sob a licença Apache 2.0. Ela permite uso comercial irrestrito, modificação e distribuição, o que o torna muito atraente para aplicações empresariais.
O que significa "multimodal nativo" na prática?
A maioria dos modelos multimodais (como o antigo Qwen3-VL) usa uma abordagem "parafusada", em que um modelo de visão separado processa imagens e as traduz em features de texto para o modelo de linguagem. Multimodal nativo significa que o Qwen3.5 foi treinado desde o início para "ver" e "ler" simultaneamente em um único modelo. Isso resulta em processamento mais rápido e muito mais precisão em tarefas que exigem grounding visual profundo, como entender telas de UI complexas.
Como o Qwen3.5 se compara ao Qwen3-Max, que é maior?
O Qwen3.5 foi projetado para ser um sucessor mais eficiente. Enquanto o Qwen3-Max tem mais de 1 trilhão de parâmetros, o Qwen3.5 iguala seu desempenho em benchmarks-chave de raciocínio e código, sendo 19x mais rápido ao gerar texto. Pense no Qwen3.5 como tendo o mesmo "poder de cérebro" do Max, mas pensando muito mais rápido e barato.

Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.

Escritor e editor de conteúdo na área de edtech. Comprometido com a exploração de tendências de dados e entusiasmado com o aprendizado da ciência de dados.




