Qwen3.5: recursos, acesso e benchmarks

Conheça a nova série de modelos Qwen3.5: principais recursos, custos, como acessar e como ela se compara a modelos similares.

Atualizado 17 de abr. de 2026 · 8 min lido

A Alibaba acaba de apresentar seu mais novo modelo de linguagem, o Qwen3.5. Ele chega na esteira de lançamentos como o GPT-5.3 Codex e o Claude Opus 4.6, que nos impressionaram.

Segundo a Alibaba, o Qwen 3.5 foi "feito para a era da IA agentiva". O modelo de visão e linguagem promete ser mais barato e eficiente que seu antecessor, entregando números de performance de ponta em vários benchmarks.

A Alibaba também está lançando o Qwen3.5-Plus, uma versão premium com janela de contexto de 1 milhão de tokens, mirando diretamente no Gemini 3.

Neste artigo, eu mostro os novos recursos do Qwen3.5 e do Qwen3.5-Plus, comparo com os concorrentes, trago os benchmarks e explico como acessar os novos modelos.

Aproveite para conferir também nossos guias sobre os modelos concorrentes mais recentes, como o Claude Sonnet 4.6 e o GPT-5.3 Instant.

O que é o Qwen3.5?

O Qwen3.5 é a nova geração da série de modelos de linguagem (LLM) da Alibaba, Qwen3.5-397B-A17B. Diferente da família de modelos Qwen3 anterior, o Qwen3.5 unifica modelos especializados em um único modelo nativo de visão e linguagem. Assim como versões anteriores do Qwen, ele é open source sob a licença Apache 2.0.

Ele é posicionado como um foundation model de uso geral para casos de uso de consumo e corporativos, projetado para fluxos de trabalho multimodais e agentivos nativos. O Qwen3.5-397B-A17B oferece dois modos:

"Thinking" para tarefas que exigem raciocínio mais profundo
"Fast" para inferência rápida em tarefas rotineiras

Qwen3.5 vs Qwen3.5-Plus

O Qwen3.5-Plus é um serviço hospedado, acessível apenas por API, correspondente ao Qwen3.5-397B-A17B e não é um modelo com pesos abertos. A nota de lançamento gerou um pouco de confusão: a menção ao Qwen3.5-Plus pode parecer um modelo separado, mas na prática é o serviço proprietário da Alibaba construído sobre o mesmo modelo.

Embora baseado no Qwen3.5-397B-A17B, há algumas diferenças. O acesso é apenas via Alibaba Cloud Model Studio, com cobrança por token, e pela interface Qwen Chat com acesso limitado.

O Qwen3.5-Plus usa uma janela de contexto estendida de 1 milhão de tokens, ante os 256 mil tokens do Qwen3.5 padrão. Além dos modos "Thinking" e "Fast", o Qwen3.5-Plus inclui ainda o modo "Auto", com raciocínio adaptativo, que além de pensar consegue usar ferramentas como busca e interpretador de código.

Principais recursos do Qwen3.5

Veja alguns dos novos recursos do Qwen3.5:

Capacidades multimodais nativas

Assim como a OpenAI unificou seus modelos padrão e Codex no recente GPT-5.3 Codex, a Alibaba combinou texto, visão e interação com UI em um único modelo.

O Qwen3.5 foi treinado conjuntamente com texto, imagens, capturas de tela de interfaces e conteúdo estruturado. Ele suporta perguntas e respostas visuais, entendimento de documentos e interpretação de gráficos/tabelas, além de fazer grounding em nível de pixel para identificar e interagir com elementos na tela.

Capacidades agentivas visuais

Esse é outro foco central do novo Qwen3.5. Graças ao treinamento extenso com capturas de tela de interfaces, o modelo reconhece e age em interfaces móveis e de desktop. Isso permite executar fluxos de trabalho de múltiplas etapas, como:

Preenchimento de formulários
Navegação em apps
Alteração de configurações do sistema
Organização de arquivos

Isso torna o Qwen3.5 ideal para automação de produtividade. Com instruções em linguagem natural, você pode permitir que o agente visual do Qwen atue em vários apps, concluindo fluxos de trabalho complexos. Ele ainda mantém estado ao longo de sequências longas de interação, possibilitando uma orquestração robusta de ferramentas e aplicativos.

Mais performance e eficiência

O Qwen3.5 é um modelo bem grande, com 397 bilhões de parâmetros no total, embora apenas 17 bilhões sejam ativados por token graças à arquitetura de mixture-of-experts. Em essência, ele tem a inteligência de um modelo gigante, com a velocidade e o custo de um modelo bem menor.

Na prática, isso significa que, em comparação ao Qwen3-Max, o Qwen3.5 397B-A17B é 19x mais rápido para decodificar tarefas de longo contexto (256k tokens) e 8,6x mais rápido em fluxos padrão. O mais importante: essa velocidade não compromete a inteligência; ele mantém o desempenho de raciocínio e código do Qwen3-Max e supera o Qwen3-VL, graças à fusão precoce de texto e vídeo.

Melhor custo-benefício

Com a performance melhor, também vêm ganhos de custo.

Da mesma forma, um pipeline nativo em FP8 (processando dados em 8 bits, em vez dos 16 bits padrão) reduz em 50% a memória necessária para rodar o modelo. Isso acelera os cálculos, aumentando a velocidade em mais de 10% na escala de trilhões de tokens.

O Qwen3.5 também traz um vocabulário robusto de 250k, permitindo expressar conceitos complexos com menos tokens. Com predições multi-token, o modelo consegue "prever" várias palavras futuras em um único passo, reduzindo o custo de tokens entre 10% e 60% em 201 idiomas.

Como o Qwen3.5 foi desenvolvido

O desenvolvimento do Qwen3.5 usou uma infraestrutura personalizada que torna o treino de modelos multimodais e agentivos quase tão rápido e barato quanto o de modelos apenas de texto. A abordagem especial no treinamento do Qwen3.5 se resume a três pilares:

Qualidade de dados
Infraestrutura heterogênea
Reforço assíncrono (RL)

Qualidade de dados

A equipe da Alibaba coletou muito mais dados visuais e de texto do que para a família Qwen3, mas fez uma filtragem rígida para garantir alta qualidade. O conjunto resultante permite que o modelo de 397B parâmetros atinja a inteligência de modelos de 1T parâmetros, como o Qwen3-Max.

Infraestrutura heterogênea

As partes de visão e linguagem foram treinadas separadamente, porém em paralelo. Como uma não precisa esperar a outra, o overlap resultante entrega quase 100% da taxa de treinamento de modelos puramente textuais.

Aprendizado por reforço assíncrono

Usando compressão FP8 (armazenando números com metade dos bits) e decodificação especulativa (prevendo adiante), agentes executam milhares de tarefas simultaneamente enquanto o treino ocorre em background, sem espera. Isso acelerou o treinamento sem perda significativa de qualidade, fazendo o Qwen3.5 aprender habilidades agentivas complexas, como cliques em UI e tarefas de múltiplas etapas, de 3 a 5 vezes mais rápido.

Benchmarks do Qwen3.5

O desempenho do novo modelo da Alibaba já foi validado em muitas tarefas. Vamos focar nos resultados para fluxos agentivos e multimodais e em habilidades gerais de raciocínio.

Fluxos agentivos

A maior evolução do Qwen3.5 em relação à família Qwen3 está nos fluxos agentivos.

Coding em terminal agentivo: O salto mais expressivo foi no Terminal-Bench 2.0: o Qwen3.5 atinge 52,5, ante apenas 22,5 do Qwen3-Max-Thinking, competindo com o Gemini 3 Pro (54,2). Ainda assim, fica bem atrás do líder atual, o recém-lançado GPT-5.3 Codex (77,3).
Busca agentiva: Este parece ser o maior ponto forte do Qwen3.5. Ele alcança 78,6 no BrowseComp, superando com folga o Gemini 3 Pro (59,2) e ficando em segundo lugar, atrás apenas do Claude Opus 4.6 (84,0)

Multimodalidade

A multimodalidade também apresentou avanços significativos em relação à família anterior, especialmente em raciocínio incorporado e reconhecimento de documentos:

Raciocínio incorporado: o Qwen3.5 marca 67,5 no ERQA, bem acima do Qwen3-VL (52,5) e quase no nível do Gemini 3 Pro (70,5)
Reconhecimento de documentos: o Qwen3.5 ultrapassa 90% no OmniDocBench v1.5 com 90,8, superando o GPT-5.2 (85,7), o Claude Opus 4.5 (87,7) e o Gemini 3 Pro (88,5)
Raciocínio visual: aqui, o Qwen3.5 fica apenas um pouco abaixo do Gemini 3 Pro, com 79,0 no MMMU-Pro e 87,5 no Video-MME (Gemini 3 Pro: 81,0 e 88,4)

Raciocínio, conhecimento e confiabilidade

Raciocínio e conhecimento claramente não foram o foco principal deste release. Ainda assim, há leves melhorias, especialmente em confiabilidade.

Follow de instruções: com 76,5 no IFBench, o Qwen3.5 demonstra alta confiabilidade e figura no topo do ranking. Para comparação, o líder atual, AWS Nova 2.0 Pro, marca 79,0
Raciocínio nível pós-graduação: o GPQA Diamond de 88,4 é apenas um avanço incremental em relação ao Qwen3-Max-Thinking (87,4)
Conhecimento multilíngue: o Qwen3.5 atinge 88,5 no MMMLU, abaixo do Gemini 3 Pro (90,6), mas um avanço significativo frente ao modelo anterior (84,4)

Como acessar o Qwen3.5

Como nos modelos anteriores, os Qwen3.5 são open source e podem ser usados de várias formas: direto no app de chat, via API, baixando para uso local ou integrando em setups personalizados.

Interface de chat

Você pode acessar o Qwen3.5 diretamente em chat.qwen.ai, na interface de chat já conhecida.

No seletor de modelos, você encontra o Qwen3.5-397B-A17B e o Qwen3.5-Plus, além de alguns modelos anteriores da família Qwen3 e o Qwen2.5-Max.

Acesso via API

O acesso à API do Qwen 3.5 funciona como no Qwen3: endpoints compatíveis com OpenAI via ModelScope (camada gratuita, cotas diárias) ou DashScope/Model Studio (pago, inclui Qwen3.5-Plus). Atualize o ID do modelo para qwen3.5-397b-a17b ou qwen3.5-plus e pronto.

Pesos abertos e deployment local

Como mencionado, os pesos do Qwen3.5-397B-A17B foram lançados sob a licença Apache 2.0. Você pode rodar o Qwen3.5 localmente com ferramentas como Ollama, LM Studio ou vLLM.

Os pesos podem ser baixados em:

Considerações finais

Com novos agentes visuais, mais performance e otimização de custos, o lançamento do Qwen3.5 impressiona e pressiona não só outros modelos chineses, como também rivais da OpenAI e da Anthropic.

Assim como em outros lançamentos deste ano, como GPT-5.3-Codex e Claude Opus 4.6, o foco está migrando para a IA agentiva. O sucesso rápido do OpenClaw mostrou que as pessoas querem usos práticos de IA, e modelos como Qwen3.5, Seedance 2.0 e o rumor do próximo lançamento da DeepSeek indicam que a China caminha para a liderança no mercado de modelos de IA.

Qual é a diferença entre Qwen3.5 e Qwen3.5-Plus?

Posso rodar o Qwen3.5 localmente? Qual hardware preciso?

O Qwen3.5 é gratuito para uso comercial?

O que significa "multimodal nativo" na prática?

Como o Qwen3.5 se compara ao Qwen3-Max, que é maior?

Author

Tom Farnschläder

Author

Matt Crabtree

Tópicos

Inteligência Artificial

Agentes de IA

Principais cursos de IA

Programa

Fundamentos de agentes de IA

6 h

Descubra como os agentes de IA podem transformar sua forma de trabalhar e gerar valor para sua organização!

Ver detalhes

Iniciar curso

Curso

Projetando Sistemas Agentes com LangChain

3 h

12.3K

Entenda os componentes básicos dos agentes LangChain e crie agentes de chat personalizados.

Ver detalhes

Iniciar curso

Curso

Agentes de IA com Hugging Face smolagents

3 h

2.4K

Aprenda a criar agentes inteligentes que raciocinam, agem e resolvem tarefas do mundo real usando Python.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Como aprender IA do zero em 2026: Um guia completo feito por especialistas

Descubra tudo o que você precisa saber sobre aprender IA em 2026, desde dicas para começar, recursos úteis e insights de especialistas do setor.

Adel Nehme

15 min

blog

Tudo o que sabemos sobre o GPT-5

Saiba como o GPT-5 evoluirá para um sistema unificado com recursos avançados, visando um lançamento no verão de 2025, com base no mais recente roteiro da OpenAI e no histórico do GPT.

Josep Ferrer

8 min

blog

As 5 melhores ferramentas de IA para ciência de dados em 2026

Os avanços recentes na IA têm o potencial de mudar drasticamente a ciência de dados. Dá uma olhada nesse artigo pra conhecer as cinco melhores ferramentas de IA que todo cientista de dados precisa saber.

Javier Canales Luna

9 min

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.

Moez Ali

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.

Zoumana Keita

Ver mais Ver mais

O que é o Qwen3.5?

Qwen3.5 vs Qwen3.5-Plus

Principais recursos do Qwen3.5

Capacidades multimodais nativas

Capacidades agentivas visuais

Mais performance e eficiência

Melhor custo-benefício

Como o Qwen3.5 foi desenvolvido

Qualidade de dados

Infraestrutura heterogênea

Aprendizado por reforço assíncrono

Benchmarks do Qwen3.5

Fluxos agentivos

Multimodalidade

Raciocínio, conhecimento e confiabilidade

Como acessar o Qwen3.5

Interface de chat

Acesso via API

Pesos abertos e deployment local

Considerações finais

Qwen3.5: perguntas frequentes

O Qwen3.5 é gratuito para uso comercial?

O que significa "multimodal nativo" na prática?

Como o Qwen3.5 se compara ao Qwen3-Max, que é maior?

Como aprender IA do zero em 2026: Um guia completo feito por especialistas

Tudo o que sabemos sobre o GPT-5

As 5 melhores ferramentas de IA para ciência de dados em 2026

12 Alternativas de código aberto ao GPT-4

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Tutorial da API de assistentes da OpenAI

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de agentes de IA

Projetando Sistemas Agentes com LangChain

Agentes de IA com Hugging Face smolagents

Como aprender IA do zero em 2026: Um guia completo feito por especialistas

Tudo o que sabemos sobre o GPT-5

As 5 melhores ferramentas de IA para ciência de dados em 2026

12 Alternativas de código aberto ao GPT-4

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Tutorial da API de assistentes da OpenAI

Fundamentos de agentes de IA