Claude Sonnet 4.6: recursos, acesso, testes e benchmarks

Explore o Claude Sonnet 4.6 da Anthropic, com janela de contexto de 1M de tokens, desempenho próximo ao Opus e recursos agentic avançados para código e finanças.

Atualizado 17 de abr. de 2026 · 10 min lido

Por semanas, a chegada do Claude Sonnet 5 foi aguardada. Em vez disso, a Anthropic primeiro lançou o Claude Opus 4.6 e agora trouxe uma atualização para a família de modelos Sonnet.

Claude Sonnet 4.6 traz conectores, skills e compactação de contexto para todos os usuários, lidera o benchmark GDPval-AA e oferece desempenho de nível flagship por um preço acessível.

Embora o desenvolvimento pareça ter se concentrado em habilidades agentic, a promessa é de “uma atualização completa das habilidades do modelo” em praticamente todos os domínios relevantes.

Será que o modelo entrega o que promete? Neste tutorial, vou mostrar os principais recursos do novo modelo da Anthropic e colocá-lo à prova.

Aproveite para conferir também nossos guias sobre o Muse Spark e o Qwen3.5, os novos modelos flagship da Meta e da Alibaba, respectivamente.

Introdução aos Modelos Claude

Aprenda a trabalhar com o Claude usando a API da Anthropic para resolver tarefas do mundo real e criar aplicativos com inteligência artificial.

Explore o curso

O que é o Claude Sonnet 4.6?

Claude Sonnet 4.6 é o mais recente LLM (modelo de linguagem) da Anthropic. Ele foca fortemente em programação agentic, uso de computador e outras capacidades agentic, e é o modelo mais leve em comparação ao modelo flagship lançado recentemente, o Claude Opus 4.6.

A atualização incremental pode ter surpreendido até pouco tempo atrás, mas está alinhada com este lançamento. Minha leitura sobre a versão é que o Claude Sonnet 4.6 pode não introduzir muitos recursos inéditos isolados, e sim integrar recursos lançados recentemente à família de modelos Sonnet.

Além de disponibilizar para todos recursos que antes eram pagos, o Claude Sonnet 4.6 tem desempenho significativamente melhor que seu antecessor em praticamente tudo, mantendo a mesma tarifa da API do Claude Sonnet 4.5 (US$ 3/US$ 15 por milhão de tokens de entrada/saída). Ele já está disponível tanto na interface web do Claude quanto na API.

Principais recursos do Claude Sonnet 4.6

A estratégia da Anthropic neste lançamento parece ser oferecer desempenho de nível Opus por um preço de Sonnet. Embora ambicioso, os resultados de benchmark indicam que a meta foi alcançada, como veremos adiante.

Um destaque é o uso agentic de computador do Claude Sonnet 4.6, que alcança 72,5% no OSWorld-Verified. Como dá para ver no gráfico abaixo, os modelos Sonnet evoluíram bastante e mais que dobraram essa pontuação em menos de um ano.

Pontuações OSWorld-Verified dos modelos Claude Sonnet ao longo do tempo (Fonte: Anthropic)

Vamos ver alguns recursos de destaque do novo modelo:

Inteligência quase Opus para código e raciocínio

O Claude Sonnet 4.6 traz uma atualização completa de habilidades em uma ampla gama de tarefas, incluindo:

Programação
Raciocínio de longo horizonte
Planejamento agentic
Trabalho baseado em conhecimento
Design

Segundo a nota de lançamento, a Anthropic observou que beta testers preferiram o uso do Sonnet 4.6 ao Opus 4.5, que era o modelo flagship da Anthropic até duas semanas atrás, em cerca de 59% dos casos.

Eles citaram melhor seguimento de instruções, menos alucinações e solução de problemas em múltiplas etapas mais confiável como motivos da preferência.

Habilidades agentic de ponta com mais segurança

O modelo demonstra capacidade em nível humano em muitas tarefas reais de software, como:

Navegar por planilhas complexas
Formulários web em várias etapas
Workflows com múltiplas abas

Isso fica evidente, por exemplo, na forte pontuação do OSWorld-Verified e em alguns benchmarks específicos de domínio que veremos mais adiante.

Outro foco no desenvolvimento do modelo foi a segurança, especialmente relevante nessa transição para IA agentic. A Anthropic afirma que o Claude Sonnet 4.6 melhorou significativamente a resistência a prompt injections em comparação ao Sonnet 4.5, ficando no mesmo nível do Opus 4.6 nesse quesito.

Planejamento de longo horizonte

Talvez a afirmação mais chamativa esteja na janela de contexto expandida, que agora chega a 1 milhão de tokens. Essa extensão permite ao Sonnet 4.6 ingerir bases de código maiores, contratos extensos ou grandes pacotes de pesquisa em uma única solicitação e raciocinar de forma eficaz sobre todo esse contexto. Essa janela ampliada coloca o Sonnet 4.6 no mesmo patamar do Gemini 3 do Google.

Um exemplo de planejamento de longo prazo aprimorado é o Vending-Bench Arena, que testa a capacidade de um modelo de administrar um negócio simulado ao longo do tempo, com um elemento de competição entre modelos. Ao investir pesado em infraestrutura no início e capitalizar sobre isso depois, o Sonnet 4.6 quase triplicou os ganhos médios do Sonnet 4.5 após um ano.

Pontuações do Vending-Bench: Claude Sonnet 4.6 vs Sonnet 4.5 (Fonte: Anthropic)

Aprimoramentos avançados de workflow

Na plataforma e na API do Claude, o Sonnet 4.6 libera para todos alguns recursos que antes eram restritos aos modelos Opus ou a planos pagos.

Raciocínio adaptativo

Um recurso bacana apresentado com o lançamento do Claude Opus 4.6 é o raciocínio adaptativo. Ele permite que o Claude decida automaticamente quando e quanto raciocinar antes de responder. Na API, pode ser ativado com thinking: {type: “adaptive”}. Na interface web, já vem habilitado para o Sonnet 4.6 e o Opus 4.6.

Connectors

Os Connectors oferecem integrações baseadas em MCP, ou seja, acesso direto a apps externos como Google Workspace e Slack. Assim, o Sonnet 4.6 pode buscar e agir sobre dados em tempo real dessas ferramentas dentro dos chats. Originalmente, os conectores eram um recurso apenas do plano pago, mas como o Sonnet 4.6 é o novo modelo padrão, eles também estão disponíveis para usuários gratuitos.

Testando o Claude Sonnet 4.6

Resolvi ver como o Claude Sonnet 4.6 se sai nas mesmas tarefas usadas no nosso guia do Claude Opus 4.6, para comparar diretamente os dois. Os testes envolvem tarefas em múltiplas etapas e investigam raciocínio matemático e relacionado a código.

Teste 1: quebra-cabeça lógico de hexa para decimal

O primeiro teste mira habilidades matemáticas:

Passo 1: Encontre o 6º número primo. Chame-o de P. 
Passo 2: Converta o quadrado de P para hexadecimal. 
Passo 3: Conte as letras (A–F) e dígitos (0–9) nessa string hexa. Chame-os de A e B. 
Passo 4: Multiplique A × B. Chame o resultado de N. 
Passo 5: Encontre o N-ésimo número primo.

Vamos calcular aqui para conferir se o resultado bate:

O 6º primo é 13.
13 ao quadrado é 169.
169 é A9 em hexa, que tem 1 letra e 1 dígito.
1 × 1 é 1.
O primeiro primo é 2.

A ideia deste teste é confundir o modelo com tarefas que exigem lógicas de contagem e formatos numéricos diferentes. Assim como o Opus 4.6, o Sonnet 4.6 resolve cada etapa e chega à conclusão correta:

Teste 2: rotacionando uma matriz

O próximo teste mira o raciocínio espacial, um ponto fraco notório de muitos LLMs:

Passo 1: Crie uma matriz 2×2 M com linha superior [4, 2] e linha inferior [1, 5]. 
Passo 2: Rotacione M 90 graus no sentido horário. 
Passo 3: Calcule o determinante da matriz rotacionada. 
Passo 4: Eleve esse determinante ao cubo. 
Passo 5: Subtraia o 13º número de Fibonacci do resultado.

A resposta correta é -6.065:

A matriz inicial é [[4, 2], [1, 5]].
A matriz rotacionada é [[1, 4], [5, 2]].
O determinante é a diferença dos produtos das diagonais, que dá -18 neste caso.
Se elevarmos -18 ao cubo, obtemos -5.832.
-5.832 - 233 é -6.065.

O Sonnet 4.6 não tem dificuldade com a tarefa. Ele entende o contexto espacial da matriz e a rotaciona corretamente; lidar com números negativos também não é problema:

Teste 3: depuração de código

Por fim, vamos mirar na depuração de código, uma das supostas forças do Sonnet 4.6. O teste verifica o quão consciente de contexto o modelo é diante de um bug específico.

Um desenvolvedor escreveu esta função Python para calcular uma média móvel: 

def running_average(data, window=3): 
    result = [] 
    for i in range(len(data)): 
        start = max(0, i - window + 1) 
        chunk = data[start:i + 1] 
        result.append(round(sum(chunk) / window, 2)) 
    return result 
Quando chamada com running_average([10, 20, 30, 40, 50]), os dois primeiros valores na saída parecem errados. Por quê? Ajude a corrigir o que está errado!

O problema é que a função sempre divide por window (3), mesmo antes de haver 3 elementos no chunk no início da lista. A saída do código com bug é [3.33, 10.0, 20.0, 30.0, 40.0], mas os dois primeiros valores deveriam ser 10,0 e 15,0, já que esses chunks têm apenas 1 e 2 elementos, respectivamente, e deveriam ser divididos por esses números. Logo, a correção é dividir por len(chunk) em vez de window.

Este teste é legal porque mira um ponto fraco dos LLMs: eles frequentemente executam o loop perfeitamente, mas interpretam a saída como correta. Isso ocorre porque veem os cálculos passo a passo sem erro, mas não consideram o que a função deveria fazer. Só quando o modelo conecta o propósito da função com sua execução é que ele consegue identificar o bug.

Mais uma vez, o modelo passa no teste. Claro, este foi apenas um recorte pequeno de testes possíveis, mas, nesses exemplos, o Sonnet 4.6 fica no mesmo nível do Opus 4.6.

Benchmarks do Claude Sonnet 4.6

Com a enxurrada de lançamentos de modelos recentemente, já nos acostumamos a muita movimentação no topo dos leaderboards. Ainda assim, os primeiros resultados do Claude Sonnet 4.6 em vários benchmarks de LLM impressionam, especialmente considerando que ele não é o modelo flagship da Anthropic.

Pontuações de benchmark do Claude Sonnet 4.6 e concorrentes (Fonte: Anthropic)

Como vemos na tabela, o Claude Sonnet 4.6 vai muito bem em benchmarks agentic:

Uso agentic de computador: Com 72,5% no OSWorld-Verified, fica em segundo lugar, bem perto do Claude Opus 4.6 (72,7%), superando com folga o novo modelo flagship da OpenAI, o GPT-5.3 Codex (64,7%).
Programação agentic: O Claude Sonnet 4.6 alcança 79,6% no SWE-bench verified. Os modelos Claude e concorrentes recentes estão todos mais ou menos empatados, gravitanto em torno de 80%.
Programação agentic em terminal: Uma melhora significativa em relação ao Sonnet 4.5 (59,1% contra 51% no Terminal-Bench 2.0), mas um pouco atrás do Opus 4.6 (65,4%) e com uma diferença maior para o GPT-5.3 Codex (75,1%).

O mais interessante é que a Anthropic parece estar à frente em tarefas agentic específicas de domínio:

Análise financeira agentic: Aqui, o Claude Sonnet 4.6 fica em primeiro lugar com 63,3% no Finance Agent v1.1, superando até o Opus 4.6 (60,1%).
Tarefas de escritório: Outro benchmark em que o Sonnet 4.6 lidera, com Elo de 1633 no GDPval-AA, deixando o Opus 4.6 em segundo (1606).

Como acessar o Claude Sonnet 4.6

Você já pode usar o Claude Sonnet 4.6 por vários canais. Veja como acessar:

Acesso via chat

O Sonnet 4.6 está disponível na interface web do Claude.ai, nos apps iOS e Android, e no app para macOS com o Claude Cowork.

Em todas essas plataformas, ele é o novo modelo padrão, inclusive no plano gratuito. Isso significa que criação de arquivos, conectores, skills e compactação de contexto agora estão disponíveis para todos.

Acesso via API

Desenvolvedores podem usar o Claude Sonnet 4.6 pela API da Anthropic com o ID de modelo claude-sonnet-4-6. Os preços permanecem iguais aos do antecessor: um milhão de tokens de entrada custa US$ 3 e um milhão de tokens de saída custa US$ 15.

Para implantação em escala corporativa, o Sonnet 4.6 está disponível em várias plataformas de nuvem, como AWS Bedrock ou Google Vertex AI, cada uma com preços próprios.

Ferramentas de código

O Claude Sonnet 4.6 agora também impulsiona o Claude Code e é o modelo padrão para contas Pro e Team, enquanto planos mais altos usam o Opus 4.6 por padrão. Para ver exemplos do que você pode construir, recomendo nossos tutoriais sobre hooks do Claude Code e como criar plugins para o Claude Code.

Além disso, o Sonnet 4.6 pode ser usado em IDEs e outros assistentes de código, como o Cursor ou o Roo Code.

Claude Sonnet 4.6 vs Opus 4.6

Em muitos domínios, a diferença entre o Sonnet 4.6 e o Opus 4.6 é tão pequena que dá para chamar de empate. Isso é especialmente verdadeiro para várias tarefas agentic, como programação agentic, uso agentic de computador e uso agentic de ferramentas. O Sonnet 4.6 ainda supera o Opus 4.6 em análise financeira agentic, tarefas de escritório e uso de ferramentas em escala.

Como era de se esperar, são as tarefas que exigem raciocínio pesado ou criatividade onde o Opus 4.6 realmente brilha, como solução de problemas inéditos e raciocínio multidisciplinar. No domínio agentic, o Opus 4.6 é melhor em programação agentic no terminal e busca agentic.

Escolhendo o modelo Claude certo

Para a maioria das tarefas de programação e agentic, e para aquelas em que seguir instruções é crucial, o Claude Sonnet 4.6 é a melhor escolha, pois oferece desempenho praticamente idêntico a um custo bem menor. Além disso, ele leva vantagem em velocidade.

Times que dependem de raciocínio em nível especialista ou workflows multiagente devem escolher o Claude Opus 4.6. Especialmente para pesquisa, migrações complexas ou trabalhos críticos de especialistas, o Opus 4.6 se destaca.

Considerações finais

Com o Claude Sonnet 4.5, a Anthropic segue enfatizando código, agentes e uso de computador. Além de um grande salto de desempenho em relação ao antecessor, ele libera recursos como conectores e raciocínio adaptativo para todos, inclusive no plano gratuito.

As primeiras impressões e os benchmarks são muito bons, e a sensação é de mudança de patamar porque ele oferece desempenho (quase) de Opus sem o preço salgado. Para muitos workflows do dia a dia, chega a ser difícil justificar o uso do modelo flagship da Anthropic. Dito isso, para tarefas que exigem raciocínio pesado, o Claude Opus 4.6 continua sendo a melhor escolha.

Vai ser interessante ver por quanto tempo o Claude Sonnet 4.6 se mantém no topo dos leaderboards e como os concorrentes da Anthropic vão responder a este lançamento.

Falamos de tarefas agentic ao longo do artigo. Se você quer aprender mais sobre como usar modelos como o Claude Sonnet 4.6 nesse tipo de workflow, recomendo a nossa trilha de habilidades AI Agent Fundamentals.

O que é o Claude Sonnet 4.6?

Quais são os novos recursos do Claude Sonnet 4.6?

Como o Claude Sonnet 4.6 se sai em programação e benchmarks?

Como posso acessar o Claude Sonnet 4.6?

Quando devo usar o Claude Sonnet 4.6 vs Opus 4.6?

Author

Tom Farnschläder

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Cursos de IA

Programa

Fundamentos de agentes de IA

6 h

Descubra como os agentes de IA podem transformar sua forma de trabalhar e gerar valor para sua organização!

Ver detalhes

Iniciar curso

Curso

Introduction to Claude Models

3 h

11.5K

Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.

Ver detalhes

Iniciar curso

Curso

Introdução a agentes de IA

1 h 30 min

114.6K

Aprenda os fundamentos dos agentes de IA, seus componentes e aplicações reais — sem precisar programar.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.

Dimitri Didmanidze

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.

Josep Ferrer

Ver mais Ver mais

Introdução aos Modelos Claude

O que é o Claude Sonnet 4.6?

Principais recursos do Claude Sonnet 4.6

Inteligência quase Opus para código e raciocínio

Habilidades agentic de ponta com mais segurança

Planejamento de longo horizonte

Aprimoramentos avançados de workflow

Raciocínio adaptativo

Connectors

Testando o Claude Sonnet 4.6

Teste 1: quebra-cabeça lógico de hexa para decimal

Teste 2: rotacionando uma matriz

Teste 3: depuração de código

Benchmarks do Claude Sonnet 4.6

Como acessar o Claude Sonnet 4.6

Acesso via chat

Acesso via API

Ferramentas de código

Claude Sonnet 4.6 vs Opus 4.6

Escolhendo o modelo Claude certo

Considerações finais

Claude Sonnet 4.6: perguntas frequentes

Como o Claude Sonnet 4.6 se sai em programação e benchmarks?

Como posso acessar o Claude Sonnet 4.6?

Quando devo usar o Claude Sonnet 4.6 vs Opus 4.6?

12 Alternativas de código aberto ao GPT-4

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

Ajuste fino do Llama 3.1 para classificação de textos

Guia de Introdução ao Ajuste Fino de LLMs

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de agentes de IA

Introduction to Claude Models

Introdução a agentes de IA

12 Alternativas de código aberto ao GPT-4

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

Ajuste fino do Llama 3.1 para classificação de textos

Guia de Introdução ao Ajuste Fino de LLMs

Fundamentos de agentes de IA