Pular para o conteúdo principal

Qwen3.5: recursos, acesso e benchmarks

Conheça a nova série de modelos Qwen3.5: principais recursos, custos, como acessar e como ela se compara a modelos similares.
Atualizado 17 de abr. de 2026  · 8 min lido

A Alibaba acaba de apresentar seu mais novo modelo de linguagem, o Qwen3.5.  Ele chega na esteira de lançamentos como o GPT-5.3 Codex e o Claude Opus 4.6, que nos impressionaram. 

Segundo a Alibaba, o Qwen 3.5 foi "feito para a era da IA agentiva". O modelo de visão e linguagem promete ser mais barato e eficiente que seu antecessor, entregando números de performance de ponta em vários benchmarks. 

A Alibaba também está lançando o Qwen3.5-Plus, uma versão premium com janela de contexto de 1 milhão de tokens, mirando diretamente no Gemini 3

Neste artigo, eu mostro os novos recursos do Qwen3.5 e do Qwen3.5-Plus, comparo com os concorrentes, trago os benchmarks e explico como acessar os novos modelos. 

Aproveite para conferir também nossos guias sobre os modelos concorrentes mais recentes, como o Claude Sonnet 4.6 e o GPT-5.3 Instant.

O que é o Qwen3.5?

O Qwen3.5 é a nova geração da série de modelos de linguagem (LLM) da Alibaba, Qwen3.5-397B-A17B. Diferente da família de modelos Qwen3 anterior, o Qwen3.5 unifica modelos especializados em um único modelo nativo de visão e linguagem. Assim como versões anteriores do Qwen, ele é open source sob a licença Apache 2.0.

Ele é posicionado como um foundation model de uso geral para casos de uso de consumo e corporativos, projetado para fluxos de trabalho multimodais e agentivos nativos. O Qwen3.5-397B-A17B oferece dois modos: 

  • "Thinking" para tarefas que exigem raciocínio mais profundo
  • "Fast" para inferência rápida em tarefas rotineiras

Qwen3.5 vs Qwen3.5-Plus

O Qwen3.5-Plus é um serviço hospedado, acessível apenas por API, correspondente ao Qwen3.5-397B-A17B e não é um modelo com pesos abertos. A nota de lançamento gerou um pouco de confusão: a menção ao Qwen3.5-Plus pode parecer um modelo separado, mas na prática é o serviço proprietário da Alibaba construído sobre o mesmo modelo.

Embora baseado no Qwen3.5-397B-A17B, há algumas diferenças. O acesso é apenas via Alibaba Cloud Model Studio, com cobrança por token, e pela interface Qwen Chat com acesso limitado. 

O Qwen3.5-Plus usa uma janela de contexto estendida de 1 milhão de tokens, ante os 256 mil tokens do Qwen3.5 padrão. Além dos modos "Thinking" e "Fast", o Qwen3.5-Plus inclui ainda o modo "Auto", com raciocínio adaptativo, que além de pensar consegue usar ferramentas como busca e interpretador de código.

Principais recursos do Qwen3.5

Veja alguns dos novos recursos do Qwen3.5: 

Capacidades multimodais nativas

Assim como a OpenAI unificou seus modelos padrão e Codex no recente GPT-5.3 Codex, a Alibaba combinou texto, visão e interação com UI em um único modelo.

O Qwen3.5 foi treinado conjuntamente com texto, imagens, capturas de tela de interfaces e conteúdo estruturado. Ele suporta perguntas e respostas visuais, entendimento de documentos e interpretação de gráficos/tabelas, além de fazer grounding em nível de pixel para identificar e interagir com elementos na tela.

Capacidades agentivas visuais

Esse é outro foco central do novo Qwen3.5. Graças ao treinamento extenso com capturas de tela de interfaces, o modelo reconhece e age em interfaces móveis e de desktop. Isso permite executar fluxos de trabalho de múltiplas etapas, como:

  • Preenchimento de formulários
  • Navegação em apps
  • Alteração de configurações do sistema
  • Organização de arquivos 

Isso torna o Qwen3.5 ideal para automação de produtividade. Com instruções em linguagem natural, você pode permitir que o agente visual do Qwen atue em vários apps, concluindo fluxos de trabalho complexos. Ele ainda mantém estado ao longo de sequências longas de interação, possibilitando uma orquestração robusta de ferramentas e aplicativos. 

Mais performance e eficiência

O Qwen3.5 é um modelo bem grande, com 397 bilhões de parâmetros no total, embora apenas 17 bilhões sejam ativados por token graças à arquitetura de mixture-of-experts. Em essência, ele tem a inteligência de um modelo gigante, com a velocidade e o custo de um modelo bem menor. 

Na prática, isso significa que, em comparação ao Qwen3-Max, o Qwen3.5 397B-A17B é 19x mais rápido para decodificar tarefas de longo contexto (256k tokens) e 8,6x mais rápido em fluxos padrão. O mais importante: essa velocidade não compromete a inteligência; ele mantém o desempenho de raciocínio e código do Qwen3-Max e supera o Qwen3-VL, graças à fusão precoce de texto e vídeo.  

Melhor custo-benefício

Com a performance melhor, também vêm ganhos de custo. 

Da mesma forma, um pipeline nativo em FP8 (processando dados em 8 bits, em vez dos 16 bits padrão) reduz em 50% a memória necessária para rodar o modelo. Isso acelera os cálculos, aumentando a velocidade em mais de 10% na escala de trilhões de tokens. 

O Qwen3.5 também traz um vocabulário robusto de 250k, permitindo expressar conceitos complexos com menos tokens. Com predições multi-token, o modelo consegue "prever" várias palavras futuras em um único passo, reduzindo o custo de tokens entre 10% e 60% em 201 idiomas. 

Como o Qwen3.5 foi desenvolvido

O desenvolvimento do Qwen3.5 usou uma infraestrutura personalizada que torna o treino de modelos multimodais e agentivos quase tão rápido e barato quanto o de modelos apenas de texto. A abordagem especial no treinamento do Qwen3.5 se resume a três pilares:

  • Qualidade de dados
  • Infraestrutura heterogênea
  • Reforço assíncrono (RL)

Qualidade de dados

A equipe da Alibaba coletou muito mais dados visuais e de texto do que para a família Qwen3, mas fez uma filtragem rígida para garantir alta qualidade. O conjunto resultante permite que o modelo de 397B parâmetros atinja a inteligência de modelos de 1T parâmetros, como o Qwen3-Max.

Infraestrutura heterogênea

As partes de visão e linguagem foram treinadas separadamente, porém em paralelo. Como uma não precisa esperar a outra, o overlap resultante entrega quase 100% da taxa de treinamento de modelos puramente textuais.

Aprendizado por reforço assíncrono

Usando compressão FP8 (armazenando números com metade dos bits) e decodificação especulativa (prevendo adiante), agentes executam milhares de tarefas simultaneamente enquanto o treino ocorre em background, sem espera. Isso acelerou o treinamento sem perda significativa de qualidade, fazendo o Qwen3.5 aprender habilidades agentivas complexas, como cliques em UI e tarefas de múltiplas etapas, de 3 a 5 vezes mais rápido.

A infraestrutura de treinamento do Qwen3.5

Benchmarks do Qwen3.5

O desempenho do novo modelo da Alibaba já foi validado em muitas tarefas. Vamos focar nos resultados para fluxos agentivos e multimodais e em habilidades gerais de raciocínio.

Desempenho do Qwen3.5 nos benchmarks comparado ao Qwen3-Max-Thinking, Qwen3-VL-235B-A22B, GPT-5.2, Claude Opus 4.5 e Gemini 3 Pro

Fluxos agentivos

A maior evolução do Qwen3.5 em relação à família Qwen3 está nos fluxos agentivos. 

  • Coding em terminal agentivo: O salto mais expressivo foi no Terminal-Bench 2.0: o Qwen3.5 atinge 52,5, ante apenas 22,5 do Qwen3-Max-Thinking, competindo com o Gemini 3 Pro (54,2). Ainda assim, fica bem atrás do líder atual, o recém-lançado GPT-5.3 Codex (77,3).
  • Busca agentiva: Este parece ser o maior ponto forte do Qwen3.5. Ele alcança 78,6 no BrowseComp, superando com folga o Gemini 3 Pro (59,2) e ficando em segundo lugar, atrás apenas do Claude Opus 4.6 (84,0)

Multimodalidade

A multimodalidade também apresentou avanços significativos em relação à família anterior, especialmente em raciocínio incorporado e reconhecimento de documentos:

  • Raciocínio incorporado: o Qwen3.5 marca 67,5 no ERQA, bem acima do Qwen3-VL (52,5) e quase no nível do Gemini 3 Pro (70,5)
  • Reconhecimento de documentos: o Qwen3.5 ultrapassa 90% no OmniDocBench v1.5 com 90,8, superando o GPT-5.2 (85,7), o Claude Opus 4.5 (87,7) e o Gemini 3 Pro (88,5)
  • Raciocínio visual: aqui, o Qwen3.5 fica apenas um pouco abaixo do Gemini 3 Pro, com 79,0 no MMMU-Pro e 87,5 no Video-MME (Gemini 3 Pro: 81,0 e 88,4)

Raciocínio, conhecimento e confiabilidade

Raciocínio e conhecimento claramente não foram o foco principal deste release. Ainda assim, há leves melhorias, especialmente em confiabilidade.

  • Follow de instruções: com 76,5 no IFBench, o Qwen3.5 demonstra alta confiabilidade e figura no topo do ranking. Para comparação, o líder atual, AWS Nova 2.0 Pro, marca 79,0
  • Raciocínio nível pós-graduação: o GPQA Diamond de 88,4 é apenas um avanço incremental em relação ao Qwen3-Max-Thinking (87,4)
  • Conhecimento multilíngue: o Qwen3.5 atinge 88,5 no MMMLU, abaixo do Gemini 3 Pro (90,6), mas um avanço significativo frente ao modelo anterior (84,4)

Como acessar o Qwen3.5

Como nos modelos anteriores, os Qwen3.5 são open source e podem ser usados de várias formas: direto no app de chat, via API, baixando para uso local ou integrando em setups personalizados.

Interface de chat

Você pode acessar o Qwen3.5 diretamente em chat.qwen.ai, na interface de chat já conhecida. 

No seletor de modelos, você encontra o Qwen3.5-397B-A17B e o Qwen3.5-Plus, além de alguns modelos anteriores da família Qwen3 e o Qwen2.5-Max.

Acesso via API

O acesso à API do Qwen 3.5 funciona como no Qwen3: endpoints compatíveis com OpenAI via ModelScope (camada gratuita, cotas diárias) ou DashScope/Model Studio (pago, inclui Qwen3.5-Plus). Atualize o ID do modelo para qwen3.5-397b-a17b ou qwen3.5-plus e pronto.

Pesos abertos e deployment local

Como mencionado, os pesos do Qwen3.5-397B-A17B foram lançados sob a licença Apache 2.0. Você pode rodar o Qwen3.5 localmente com ferramentas como Ollama, LM Studio ou vLLM.

Os pesos podem ser baixados em:

Considerações finais

Com novos agentes visuais, mais performance e otimização de custos, o lançamento do Qwen3.5 impressiona e pressiona não só outros modelos chineses, como também rivais da OpenAI e da Anthropic. 

Assim como em outros lançamentos deste ano, como GPT-5.3-Codex e Claude Opus 4.6, o foco está migrando para a IA agentiva. O sucesso rápido do OpenClaw mostrou que as pessoas querem usos práticos de IA, e modelos como Qwen3.5, Seedance 2.0 e o rumor do próximo lançamento da DeepSeek indicam que a China caminha para a liderança no mercado de modelos de IA.

Qwen3.5: perguntas frequentes

Qual é a diferença entre Qwen3.5 e Qwen3.5-Plus?

Qwen3.5-397B-A17B é o modelo com pesos abertos que você pode baixar e rodar. Ele tem janela de contexto de 256k e suporta os modos "Thinking" (raciocínio profundo) e "Fast". O Qwen3.5-Plus é a versão hospedada via API. Usa a mesma arquitetura, mas adiciona uma janela de contexto de 1 milhão de tokens e um modo "Auto" exclusivo, que consegue usar de forma adaptativa ferramentas como busca na web e interpretadores de código sem prompts manuais.

Posso rodar o Qwen3.5 localmente? Qual hardware preciso?

Sim, mas exige hardware robusto. Embora o Qwen3.5 apenas ative 17B parâmetros por token (o que o torna rápido), ainda é preciso carregar o total de 397B parâmetros na memória.

  • Modelo completo (FP16/BF16): requer ~800 GB de VRAM (cluster de nível corporativo).
  • Quantizado (4 bits): requer ~220 GB de memória unificada. Você pode rodar em um Mac Studio/Pro com chip M-series Ultra (256 GB de RAM) ou um setup multi-GPU (ex.: 3x A100 80 GB ou 10x RTX 3090/4090).

O Qwen3.5 é gratuito para uso comercial?

Sim. Ao contrário de muitos modelos de fronteira com licenças comunitárias restritivas, o Qwen3.5 é lançado sob a licença Apache 2.0. Ela permite uso comercial irrestrito, modificação e distribuição, o que o torna muito atraente para aplicações empresariais.

O que significa "multimodal nativo" na prática?

A maioria dos modelos multimodais (como o antigo Qwen3-VL) usa uma abordagem "parafusada", em que um modelo de visão separado processa imagens e as traduz em features de texto para o modelo de linguagem. Multimodal nativo significa que o Qwen3.5 foi treinado desde o início para "ver" e "ler" simultaneamente em um único modelo. Isso resulta em processamento mais rápido e muito mais precisão em tarefas que exigem grounding visual profundo, como entender telas de UI complexas.

Como o Qwen3.5 se compara ao Qwen3-Max, que é maior?

O Qwen3.5 foi projetado para ser um sucessor mais eficiente. Enquanto o Qwen3-Max tem mais de 1 trilhão de parâmetros, o Qwen3.5 iguala seu desempenho em benchmarks-chave de raciocínio e código, sendo 19x mais rápido ao gerar texto. Pense no Qwen3.5 como tendo o mesmo "poder de cérebro" do Max, mas pensando muito mais rápido e barato.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.


Escritor e editor de conteúdo na área de edtech. Comprometido com a exploração de tendências de dados e entusiasmado com o aprendizado da ciência de dados.

Tópicos

Principais cursos de IA

Programa

Fundamentos de agentes de IA

6 h
Descubra como os agentes de IA podem transformar sua forma de trabalhar e gerar valor para sua organização!
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Como aprender IA do zero em 2026: Um guia completo feito por especialistas

Descubra tudo o que você precisa saber sobre aprender IA em 2026, desde dicas para começar, recursos úteis e insights de especialistas do setor.
Adel Nehme's photo

Adel Nehme

15 min

blog

Tudo o que sabemos sobre o GPT-5

Saiba como o GPT-5 evoluirá para um sistema unificado com recursos avançados, visando um lançamento no verão de 2025, com base no mais recente roteiro da OpenAI e no histórico do GPT.
Josep Ferrer's photo

Josep Ferrer

8 min

AI shaking hands with a human

blog

As 5 melhores ferramentas de IA para ciência de dados em 2026

Os avanços recentes na IA têm o potencial de mudar drasticamente a ciência de dados. Dá uma olhada nesse artigo pra conhecer as cinco melhores ferramentas de IA que todo cientista de dados precisa saber.
Javier Canales Luna's photo

Javier Canales Luna

9 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

Ver maisVer mais