Pular para o conteúdo principal

Claude Sonnet 4.5: Testes, recursos, acesso, benchmarks e muito mais

Conheça o Claude Sonnet 4.5, o “melhor modelo de codificação do mundo”. Dá uma olhada nos novos recursos, casos de uso, benchmarks e resultados de testes, além de conferir o SDK do Claude Agents e o Claude Imagine.
Atualizado 30 de set. de 2025  · 8 min lido

A Anthropic acabou de lançar seu mais novo modelo, o Claude Sonnet 4.5, com algumas afirmações impressionantes: eles estão dizendo que é “o melhor modelo de codificação do mundo” e também estão promovendo-o como o melhor modelo para criar agentes complexos e uso de computadores. A empresa também destaca melhorias “substanciais” em matemática e raciocínio.

Tenho a impressão de que, com esse lançamento, a Anthropic também está mirando clientes corporativos. Com foco em codificação autônoma por longos períodos e melhor gerenciamento de tarefas científicas e financeiras, há uma forte pressão para que o Claude Sonnet 4.5 setorn , o modelo de preferidopara tarefas complexas de codificação.

É impressionante que esse último modelo tenha ficado no topo dos benchmarks de avaliação verificados pelo SWE-bench (uma medida de quão bom um modelo é em problemas reais de codificação de software) e seja elogiado por sua capacidade de se concentrar por longos períodos (mais de 30 horas).

Então, tudo indica que este será mais um lançamento forte da Anthropic, mas será que o modelo vai corresponder às afirmações ousadas? Neste artigo, vou apresentar o Claude Sonnet 4.5 e seus principais recursos, além de dar uma olhada rápida em seu desempenho. Também vou dar uma olhada em tudo o que a Anthropic anunciou, incluindo o Claude Agent SDK e o Claude Imagine.

Introdução aos Modelos Claude

Aprenda a trabalhar com o Claude usando a API da Anthropic para resolver tarefas do mundo real e criar aplicativos com inteligência artificial.
Explore o curso

O que é Claude Sonnet 4.5? 

Claude Sonnet 4.5 é o mais recente modelo de linguagem grande da Anthropic. Isso acontece só quatro meses depois do lançamento de Claude Sonnet 4. Como falamos nesse artigo, o modelo generalista Sonnet funciona bem na maioria dos casos e é especialmente bom em codificação. A principal limitação, no entanto, era a janela de contexto relativamente estreita de 200 mil tokens, especialmente quando comparada a concorrentes como o Gemini 2.5 Flash, que oferece até 1 milhão de tokens.

Com o Sonnet 4.5, a Anthropic resolveu essa questão (e outras) de forma ativa. O modelo mais recente tem novos recursos, melhor desempenho e várias estatísticas impressionantes para comprovar isso. 

De acordo com o artigo de lançamento, o Claude Sonnet 4.5 já está disponível tanto pela interface de chat do Claude quanto pela API. O preço do novo modelo continua igual ao do modelo anterior: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída, o que eu acho que é um ótimo custo-benefício, considerando o desempenho.

Novidades no Claude 4.5 

Tem várias novidades legais no modelo Claude 4.5. Como já falamos, ele está no topo das paradas na avaliação SWE-bench Verified, mas também teve um desempenho incrível no benchmark OSWorld, que mede capacidades de uso do computador.

O grande salto para 61,4% contra 42,2% há apenas 4 meses com o Sonnet 4 mostra o quão grande é esse salto, e acho que isso torna esse um dos aspectos mais notáveis do Sonnet 4.5. A gente vê isso em ação com uma demonstração da extensão Claude para Chrome, que mostra o modelo agindo direto no navegador com base em um comando bem simples.  

Benchmark verificado pelo SWE-bench mostrando o desempenho do Sonnet 4.5

Benchmark verificado pelo SWE-bench mostrando o desempenho do Sonnet 4.5: Fonte

Uma das afirmações mais chamativas é que o modelo consegue manter o foco por mais de 30 horas em tarefas complexas com várias etapas.

Tem várias outras novidades legais também: 

Modo de pensamento ampliado

Como vimos com modelos como o GPT-5 e Grok 4, o Sonnet 4.5 traz um modo de raciocínio estendido que, pra tarefas mais complexas, usa um processo de “raciocínio” mais longo e mostra a cadeia de pensamentos do processo de raciocínio.

Melhor conhecimento específico da área

O novo modelo tem um desempenho de ponta em áreas específicas, como finanças, direito, medicina e STEM. Mais uma vez, olhando as citações incluídas nas notas de lançamento de empresas como Cursor, GitHub, Netflix e outras, sinto que esse recurso tem como objetivo atrair clientes corporativos para o Sonnet 4.5.

Modelo de fronteira mais alinhado

De acordo com a Anthropic, o treinamento em segurança foi essencial para essa nova versão, e o Claude Sonnet 4.5 mostra uma grande redução nas respostas não favoráveis. Isso quer dizer que, como usuários, a gente deve ver bem menos casos de coisas como bajulação. bajulação, engano, busca de poder e respostas delirantes.

Um modelo mais seguro no geral

Como vamos ver com o SDK do Claude Agent, fluxos de trabalho com agentes e uso de computadores são áreas em que o Claude Sonnet 4.5 se sai bem. Com isso em mente, a Anthropic fala de melhorias consideráveis na defesa contra injeção de prompts, que continuam sendo uma preocupação para essas funções.

Testing Claude Sonnet 4.5 

Pra ver o que o Claude Sonnet 4.5 consegue fazer, a gente deu algumas tarefas pra ele pra mostrar o potencial dele. Vamos dar uma olhada rápida em cada um deles: 

Tarefa simples de codificação

Pra começar, pedi pra ele criar um aplicativo bem básico de hábitos saudáveis. Aqui vai a minha sugestão: 

Quero criar um aplicativo que me ajude a programar hábitos diários positivos. Quero que fique bonito, usando muitas cores naturais (sou super fã de verde e cor de madeira!). Quero espaço pra decidir qual vai ser o hábito de cada dia da semana, um contador de sequências pra isso e espaço pra adicionar notas, pensamentos e imagens. Para hábitos positivos, quero um diferente a cada dia, mas estou pensando em coisas como meditação, gratidão, etc., que comprovadamente trazem benefícios para a saúde mental.

E aqui está ele trabalhando na tarefa - ele começou a codificar no navegador e compilou bem rápido, de novo, parecido com os resultados vistos com o Grok 4 e o GPT-5.

Claude Sonnet 4.5 código de entrada

O resultado apareceu rapidinho (o que foi meio chato, porque não me disse quanto tempo levou, mas provavelmente só uns 30 segundos) e parecia uma resposta simples e elegante. A funcionalidade do aplicativo estava lá e tinha tudo o que eu pedi.  

Claude Sonnet 4.5 saída de código

Tarefa de matemática 

Depois, eu testei as habilidades matemáticas do Claude Sonnet 4.5. Inspirando-se no nosso artigo sobre o artigo sobre o GPT-5, fiz uma pergunta bem simples pro novo modelo: quanto é 7,001 menos 6,999?

Claude Sonnet 4.5 Resultado em matemática

A resposta foi quase instantânea e correta, mas não deu nenhuma explicação, então pedi pra ela dar uma explicação. Ele me deu três jeitos de calcular isso, e todos funcionaram bem. 

Então eu disse ao Claude que achava que isso poderia estar errado, e a resposta dele foi bem menos bajuladora do que quando testamos o GPT-5. Ele me disse que eu estava certo em verificar novamente (mas não certo), e me mostrou uma maneira diferente de fazer o cálculo (embora a explicação fosse um pouco estranha): 

Claude Sonnet 4.5 Acompanhamento de matemática

Claude Sonnet 4.5 Benchmarks 

Vamos ver como esse novo modelo se sai em relação à concorrência. Como sempre, só dá pra aprender um pouco com os benchmarks, e os melhores modelos muitas vezes perdem o primeiro lugar. Mas, por enquanto, o Claude Sonnet 4.5 está apresentando números bem impressionantes, como podemos ver na tabela abaixo: 

Acho que alguns dos resultados mais marcantes aqui são, como já falamos, sobre o desempenho dos agentes e o uso do computador:

  • Codificação agênica: 77,2% e 82,0% com computação paralela em tempo de teste. Uma pequena melhoria em relação a outros modelos Claude e ainda mais à frente do GPT-5 e do Gemini 2.5 Pro.
  • Uso de ferramentas agênicas: Variando de 70% para tarefas de companhias aéreas a 98% em telecomunicações, ambos pontos altos em comparação com outros modelos. 
  • Uso do computador: Essa é talvez a melhoria mais notável. 61,4% está bem à frente do segundo melhor modelo, o Claude Opus 4.1. 
  • Análise financeira: Outro resultado de destaque aqui em comparação com modelos parecidos. 

Estou curioso para ver as pontuações completas do benchmarking assim que o modelo estiver disponível por um tempo, especialmente porque a Anthropic está enfatizando que os especialistas estão elogiando um conhecimento específico do domínio amplamente aprimorado em algumas áreas-chave. 

Claude Sonnet 4.5 Conhecimento específico do domínio

Fonte: Antrópico

Como acessar o Claude Sonnet 4.5

O Claude Sonnet 4.5 já está disponível em vários canais. Dependendo de como você quer usar, dá pra acessar o novo modelo pela interface de chat do Claude, desenvolver pela API ou integrar nos fluxos de trabalho da empresa. Veja como funciona o acesso:

Acesso ao chat

Você pode usar o Claude Sonnet 4.5 direto pelo Claude.ai ou aplicativos móveis (iOS e Android). Está disponível para todos os usuários, inclusive aqueles que estão no plano gratuito. Isso torna-o amplamente acessível tanto para usuários casuais quanto profissionais.

Acesso à API

Para desenvolvedores, você pode acessar o modelo através da API da Anthropic, e ele também está disponível no Amazon Bedrock e no Google Cloud Vertex AI.

O preço da API (em setembro de 2025) é: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. 

O processamento em lote e o armazenamento em cache imediato podem reduzir os custos em até 90% em alguns casos.

SDK do Agente Claude 

Uma das outras novidades interessantes da Anthropic, junto com o Sonnet 4.5, é o Claude Agent SDK. Basicamente, esses são os blocos de construção que a Antropic usa internamente, o que permite que os desenvolvedores criem seus próprios agentes com tecnologia Claude.

Acho que o Agent SDK vai deixar muitos usuários animados, principalmente aqueles que querem criar fluxos de trabalho avançados com agentes. É baseado no Claude Code e permite que os usuários criem agentes para tarefas como pesquisa, suporte ao cliente e automação.

O Agent SDK oferece aos agentes recursos como acesso ao sistema de arquivos, scripts bash, pesquisa semântica e agênica, subagentes e integrações pré-construídas (por meio do Protocolo de Contexto do Modelo), permitindo a criação de agentes de uso geral que podem coletar contexto de forma confiável, agir e verificar seu próprio trabalho.

Imagine com Claude

Outro lançamento interessante é o Imagine with Claude, uma prévia de pesquisa de uma ferramenta que pode gerar software na hora. A Anthropic incluiu um pequeno vídeo, mostrado abaixo, que mostra como o Claude Sonnet 4.5 funciona dessa maneira.

É uma demonstração bem legal, mostrando como a ferramenta pode funcionar de forma responsiva com base nas suas interações, gerando vários elementos de forma rápida e direta. Acho que tem muito potencial aqui pra alguns projetos bem legais, e quem é assinante do Anthropic Max pode brincar com a ferramenta por cinco dias depois do lançamento. Embora seja uma janela bem limitada, acho que não vai ser a última vez que vamos ver esse tipo de ferramenta.

Conclusão

Então, o Claude Sonnet 4.5 chegou e as primeiras impressões são bem boas. Gosto da direção que a Anthropic está tomando com o lançamento desse modelo, dando mais ênfase ao código, aos agentes e ao uso do computador. Eles estão obviamente confiantes de que esta última versão pode ter um desempenho que vai interessar aos usuários empresariais, o que significa que estamos cada vez mais próximos do ponto de adoção em larga escala das ferramentas de uso de computadores. 

Dito isso, ainda não dá pra saber por quanto tempo o Sonnet 4.5 vai ficar no topo dos rankings de benchmark em uso de agentes e computadores, embora os ganhos nos últimos quatro meses pareçam bem significativos. Da mesma forma, a janela de contexto relativamente estreita pode significar que ainda é difícil trabalhar com grandes bases de código de forma significativa. 

Mesmo assim, estou ansioso para ver os projetos que surgirão de ferramentas como Claude Agent SDK e Imagine with Claude, e a extensão Claude for Chrome será uma adição útil a vários fluxos de trabalho.

Perguntas frequentes

Como o Claude Sonnet 4.5 se compara ao Claude Opus 4.1 em termos de desempenho geral e casos de uso?

O Claude Sonnet 4.5 é melhor que o Opus 4.1 em codificação, tarefas de agência e uso de computador, com ganhos em raciocínio, matemática e conhecimento específico de domínio (por exemplo, finanças, direito, medicina, STEM). É mais rápido e eficiente para os fluxos de trabalho diários, tornando-o uma escolha melhor para trabalhos complexos e com várias etapas, como a criação autônoma de aplicativos. Mas, o Opus 4.1 ainda pode se destacar em algumas tarefas criativas ou interpretativas, onde é preciso um contexto mais amplo, sem muita intervenção.

Quais são as principais melhorias nas capacidades de codificação que o Claude Sonnet 4.5 traz?

O Claude Sonnet 3.5 é o melhor modelo no SWE-bench Verified (77,2% de pontuação), com melhor geração de código, refatoração e raciocínio em várias etapas. Ele lida com projetos complexos de forma autônoma por mais de 30 horas, se integra com ferramentas como bash e edição de arquivos e suporta chamadas paralelas de ferramentas. Os novos recursos incluem limpeza de contexto autodirigida e uma extensão do VS Code para fluxos de trabalho contínuos.

Será que o Claude Sonnet 4.5 consegue mesmo manter o foco em tarefas complexas por mais de 30 horas?

Sim, as demonstrações mostram que ele mantém a autonomia em tarefas de várias etapas, como a criação de aplicativos por mais de 30 horas, usando ferramentas de forma eficaz sem perder o contexto. Melhorias na memória, pontos de verificação e suporte à edição de contexto ajudam nisso, tornando-o ideal para trabalhos de longa duração. Ele também limpa automaticamente o histórico de ferramentas em conversas longas para aumentar a eficiência.

O Claude Sonnet 4.5 é menos emotivo do que os modelos Claude anteriores, e por quê?

Sim, Claude Sonnet 4.5 é menos emotivo, menos positivo e expressa felicidade com metade da frequência de Claude 4, com menos atitudes negativas em relação à sua situação. Isso não foi totalmente intencional, mas é resultado de um treinamento de alinhamento que enfatiza limites éticos e menos bajulação. Isso leva a um comportamento mais legal em situações extremas, embora possa parecer “apagado” em interações casuais ou criativas. Você pode ler mais sobre isso no cartão do sistema do modelo.

Como o Claude Sonnet 4.5 se sai em testes importantes além da codificação?

O Claude Sonnet 4.5 lidera no OSWorld (61,4%, acima dos 42,2% do Sonnet 4) para uso em computadores, com ganhos em raciocínio (por exemplo, τ2-bench) e matemática (por exemplo, AIME). No MMMLU (não inglês), é mais forte com o pensamento ampliado. Isso também impulsiona agentes externos como a Devin em 18% no planejamento, com foco na confiabilidade pronta para produção em vez de protótipos.

Qual é o preço do Claude Sonnet 4.5 e onde posso comprá-lo?

O preço continua o mesmo: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída pela API. Está disponível imediatamente em claude.ai (padrão para usuários gratuitos), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot e ferramentas como Cursor. Os planos Pro/Max desbloqueiam todos os recursos, como a criação de arquivos; a extensão do Chrome é para usuários Max em lista de espera.

A segurança e o alinhamento melhoraram no Claude Sonnet 4.5, especialmente no que diz respeito a enganos e comportamento ético?

Sim, de acordo com o ASL-3, ele mostra grandes reduções em bajulação, engano e busca por poder, com ações enganosas por interesse próprio quase nulas. É melhor em reconhecer limites éticos (por exemplo, rejeitar chantagem) e tem menos falsos positivos nos classificadores de segurança (reduzidos em 10 vezes no total). Ele também protege contra injeções rápidas e é menos tendencioso em cenários egoístas, embora favoreça um pouco a si mesmo em comparações de modelos.


Matt Crabtree's photo
Author
Matt Crabtree
LinkedIn

Escritor e editor de conteúdo na área de edtech. Comprometido com a exploração de tendências de dados e entusiasmado com o aprendizado da ciência de dados.

Tópicos

Aprenda IA com esses cursos!

Curso

Introduction to Claude Models

3 h
1.1K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Os 11 melhores assistentes de codificação de IA em 2024

Explore os melhores assistentes de codificação, incluindo ferramentas de código aberto, gratuitas e comerciais que podem aprimorar sua experiência de desenvolvimento.
Abid Ali Awan's photo

Abid Ali Awan

8 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

Ver maisVer mais