Pular para o conteúdo principal

Claude 4: Testes, recursos, acesso, benchmarks e muito mais

Saiba mais sobre o Claude Sonnet 4 e o Claude Opus 4, seus recursos, casos de uso, benchmarks e resultados de testes.
Atualizado 23 de mai. de 2025  · 8 min lido

A Anthropic acaba de lançar o Claude 4, que vem em duas versões: Claude 4 Sonnet e Claude 4 Opus.

Claude Sonnet 4 é um modelo generalista que é ótimo para a maioria dos casos de uso de IA e especialmente forte em codificação. Acho que é um dos melhores modelos que você pode usar gratuitamente.

Claude Opus 4 foi projetado para tarefas de raciocínio pesado, como pesquisa agêntica e fluxos de trabalho de código de longa duração. O Anthropic chama o Opus 4 de "o melhor modelo de codificação do mundo", mas acho essa afirmação um pouco vazia.

Sim, ele é atualmente o melhor desempenho no benchmark SWE-bench Verified. Porém, com uma janela de contexto de apenas 200K, não consigo imaginar que ele lide com bases de código muito grandes de forma limpa. E vamos ser honestos: sempre há outro modelo mais forte sendo lançado a cada mês. Você não faz muito sentido reivindicar a coroa por algumas semanas.

Dito isso, o Claude 4 ainda é um lançamento muito forte. Eu orientarei você sobre os detalhes mais importantes - recursos, casos de uso, benchmarks -e também farei alguns testes por conta própria.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

Soneto 4 de Claude

O Claude Sonnet 4 é o modelo menor da família Claude 4. Ele foi projetado para uso geral e tem bom desempenho nas tarefas mais comuns de IA: codificação, escrita, resposta a perguntas e análise de dados. Ele também está disponível para usuários gratuitos, o que o torna excepcionalmente acessível para um modelo dessa qualidade.

claude sonnet 4

O modelo é compatível com uma janela de contexto de 200K, o que permite lidar com prompts grandes e manter a continuidade em interações longas. Isso é útil para casos de uso como análise de documentos longos, revisão de bases de código ou geração de respostas em várias partes com estrutura consistente. No entanto, o Sonnet 4 pode ter dificuldades com grandes bases de código. Para fins de comparação, o Gemini 2.5 Flash tem uma janela de contexto de 1 milhão de tokens.

Em comparação com Claude Sonnet 3.7esta versão é mais rápida, melhor em seguir instruções e mais confiável em fluxos de trabalho com muitos códigos. Ele suporta até 64 mil tokens de saída, o que ajuda com saídas um pouco mais longas, como planos estruturados, respostas com várias partes ou grandes conclusões de código.

Os primeiros relatórios mostram menos erros de navegação e melhor desempenho nas tarefas de desenvolvimento de aplicativos. Ele não é tão forte quanto o Opus 4 quando se trata de raciocínio complexo ou planejamento de tarefas de longo prazo, mas para a maioria dos fluxos de trabalho, é mais do que suficiente.

Claude Opus 4

O Claude Opus 4 é o modelo principal da série Claude 4. Ele foi desenvolvido para tarefas que exigem raciocínio mais profundo, memória de longo prazo e resultados mais estruturados - coisas como pesquisa agêntica, refatoração de código em larga escala, solução de problemas em várias etapas e fluxos de trabalho de pesquisa estendidos.

casos de uso do claude opus 4

Assim como o Sonnet 4, ele suporta uma janela de contexto de 200K, o que pode ser uma desvantagem se você quiser usá-lo com uma grande base de código. Para comparação, Gemini 2.5 Pro (o modelo principal do Google) tem uma janela de contexto de 1 milhão de tokens.

Ele também é capaz de funcionar no modo de "pensamento estendido", no qual muda de respostas rápidas para um raciocínio mais lento e deliberado. Esse modo permite que você execute o uso da ferramenta, rastreie a memória nas etapas e gere resumos de seu próprio processo de pensamento quando necessário.

A Anthropic o posicionou como um modelo de ponta para desenvolvedores, pesquisadores e equipes que criam agentes de IA. Ele é líder no SWE-bench Verified e no Terminal-bench, e os primeiros usuários relatam um bom desempenho em agentes de codificação, fluxos de trabalho de pesquisa e tarefas de várias horas, como refatoração de projetos de código aberto ou simulação de planejamento de longo prazo.

Ao contrário do Sonnet, o Opus 4 só está disponível em planos pagos. Sua execução é mais cara e provavelmente é um exagero para o uso simples do chatbot. Mas, para aplicativos que precisam de raciocínio consistente em muitas partes móveis, é a opção mais capaz.

Testando o Claude 4

Quando testo um novo modelo, normalmente uso as mesmas tarefas - dessa forma, posso ver como ele se compara a outros modelos que testei anteriormente. Não se trata de uma avaliação extensa. O objetivo é apenas ter uma ideia de como esses modelos se comportam na interface de bate-papo.

Vamos experimentar o Claude 4 em duas áreas: matemática e codificação.

Matemática

Gosto de começar com um cálculo simples que muitas vezes confunde os modelos de linguagem. Não se trata de verificar a aritmética básica - eu poderia usar uma calculadora para isso. O objetivo é ver como o modelo aborda um problema ligeiramente complicado e se ele pode recorrer ao uso de ferramentas ou mostrar seu raciocínio claramente quando necessário.

Vamos ver como o Claude Sonnet 4 lidou com isso:

exemplo de soneto 4 de claude

Como você pode ver, ele errou a resposta na primeira tentativa. Mas quando pedi que ele usasse uma ferramenta - uma calculadora - ele respondeu escrevendo um script de uma linha em JavaScript e resolveu o problema corretamente.

Claude Opus 4 respondeu corretamente na primeira tentativa.

Em seguida, eu queria ver como o Claude Sonnet 4 lida bem com um problema mais complexo: usar todos os dígitos de 0 a 9 exatamente uma vez para formar três números x, y, z de modo que x + y = z.

Após cerca de cinco minutos de tentativas aleatórias de força bruta, recebi uma mensagem informando que o limite de saída havia sido atingido e que eu precisava clicar em "Continue" para continuar. Eu tentei, e Claude tentou novamente, mas depois atingiu o limite mais uma vez. O que eu gostei, no entanto, foi o fato de ele não ter inventado uma resposta. Ele simplesmente se recusava a responder se não conseguisse encontrar um. Essa é uma grande vitória, na minha opinião - é mais problemático para você alucinar uma solução.

Em seguida, experimentei o Claude Opus 4 na mesma tarefa. A resposta veio quase instantaneamente e estava correta: 246 + 789 = 1035. O Opus 4 é impressionante!!!

Codificação

Para a tarefa de codificação, decidi ir direto para o Claude Opus 4. Esse tipo de geração criativa parece mais adequado aos seus recursos. Não estou testando-o em grandes bases de código aqui - apenas uma tarefa de codificação relativamente trivial.

Pedi a ele que criasse um jogo rápido em p5.js usando este prompt que usei para Gemini 2.5 Pro e para o o4-mini:

Sugestão: Crie um jogo cativante de corrida sem fim para mim. Instruções-chave na tela. cena p5.js, sem HTML. Gosto de dinossauros pixelados e fundos interessantes.

Normalmente, eu copiaria e colaria o código em um editor p5.js on-line para testá-lo. Você pode usar o código para testar o código. Mas um dos recursos interessantes do Claude 4 é o Artifacts, que me permite visualizar e executar a saída do código diretamente no bate-papo.

Vamos ver o resultado:

Nenhum modelo anterior que eu tenha testado conseguiu abrir a tela inicial logo na primeira tentativa - a maioria deles simplesmente entrou direto no jogo. O Claude Opus 4 realmente exibiu uma tela inicial adequada com instruções, o que foi uma boa surpresa.

No entanto, havia um erro visual: o dinossauro pixelado deixava um rastro confuso ao se mover pela tela. Os pixels não estavam sendo limpos corretamente entre os quadros, o que prejudicava a jogabilidade. Eu chamei a atenção para esse fato e pedi à Opus 4 que o corrigisse.

Perfeito! Nunca obtive uma versão tão limpa e jogável desse jogo em nenhum outro modelo.

Benchmarks do Claude 4

Os modelos Claude 4 foram testados em uma série de benchmarks padrão em tarefas de codificação, raciocínio e agenciamento. Embora essas pontuações não contem toda a história da qualidade do modelo, elas ainda são úteis como ponto de comparação. Abaixo estão os principais resultados do Claude Sonnet 4 e do Claude Opus 4.

Fonte: Antrópico

Soneto 4 de Claude

O Claude Sonnet 4 tem um desempenho surpreendentemente bom para um modelo que está disponível para usuários gratuitos. No SWE-bench Verified, que testa tarefas de codificação do mundo real, ele obteve uma pontuação de 72,7%, superando ligeiramente o Opus 4 (72,5%) e significativamente à frente do Claude 3.7 Sonnet (62,3%). Ele também supera o GPT-4.1 da OpenAI (54,6%) e o Gemini 2.5 Pro (63,2%).

Em outros benchmarks:

  • TerminalBench (codificação baseada em CLI): 35,5% - à frente do GPT-4.1 (30,3%) e do Gemini (25,3%)
  • GPQA Diamond (raciocínio em nível de pós-graduação): 75,4% - forte, embora um pouco abaixo do OpenAI o3 e do Gemini
  • TAU-bench (uso de ferramenta agêntica): 80,5% Varejo / 60,0% Companhia aérea - comparável ao Opus 4 e à frente do GPT-4.1 e do o3
  • MMLU (controle de qualidade multilíngue): 86,5% - logo atrás do Opus e do o3, mas ainda assim sólido
  • MMMU (raciocínio visual): 74,4% - a última pontuação em toda a linha de modelos
  • AIME (competição de matemática): 70,5% - melhor que o Sonnet 3.7, mas não suficientemente competitivo

O Sonnet 4 é, sem dúvida, um dos modelos de camada livre de melhor desempenho atualmente disponíveis e competitivo com modelos que exigem pagamento ou acesso comercial.

Claude Opus 4

O Opus 4 é o modelo carro-chefe da Anthropic e seu desempenho é igual ou próximo do topo na maioria dos benchmarks. No SWE-bench Verified, a pontuação é de 72,5% e, em configurações de alta computação, salta para 79,4% - a mais alta entre todos os modelos comparados.

Ele também lidera ou está próximo do topo em:

  • TerminalBench (codificação de CLI autêntica): 43,2% (50,0% no modo de alta computação) - a pontuação mais forte no gráfico
  • GPQA Diamond (raciocínio em nível de pós-graduação): 79,6% (83,3%) - sólido, um pouco atrás do OpenAI o3 e do Gemini 2.5 Pro
  • TAU-bench (uso de ferramenta agêntica): 81,4% Varejo / 59,6% Companhia aérea - no mesmo nível do Sonnet 4 e 3,7
  • MMLU (controle de qualidade multilíngue): 88,8% - empatado com o OpenAI o3
  • MMMU (raciocínio visual): 76,5% - atrás do o3 e do Gemini 2.5 Pro
  • AIME (competição de matemática): 75,5% (90,0% de alta computação) - significativamente acima do Claude Sonnet 4

Como acessar o Claude 4

O Claude 4 está disponível por meio de vários canais, dependendo de como você deseja usá-lo, seja por meio de bate-papo casual, desenvolvimento via API ou integração em fluxos de trabalho corporativos. Veja como o acesso funciona:

Acesso ao bate-papo

Você pode usar o Claude 4 diretamente por meio do arquivo Claude.ai ou aplicativos móveis (iOS e Android).

  • O Claude Sonnet 4 está disponível para todos os usuários, inclusive os da camada gratuita. Isso o torna um dos modelos mais capazes que você pode experimentar sem pagar.
  • Claude Opus 4 está disponível apenas para usuários pagantes nos planos Pro, Max, Team ou Enterprise.

Acesso à API

Para os desenvolvedores, ambos os modelos podem ser acessados por meio da API do Anthropice também estão disponíveis no Amazon Bedrock e no Google Cloud Vertex AI.

Preços de API (a partir de maio de 2025):

  • Claude Opus 4: US$ 15 por milhão de tokens de entrada, US$ 75 por milhão de tokens de saída
  • Claude Sonnet 4: US$ 3 por milhão de tokens de entrada, US$ 15 por milhão de tokens de saída

O processamento em lote e o armazenamento em cache imediato podem reduzir os custos em até 90% em alguns casos.

Conclusão

O Claude Sonnet 4 oferece valor real como um modelo rápido e capaz, de uso gratuito e com bom desempenho em tarefas de codificação, raciocínio e assistente geral. Para a maioria das necessidades diárias, é mais do que suficiente.

O Opus 4, por outro lado, foi desenvolvido para raciocínio mais profundo e fluxos de trabalho complexos. Os resultados da codificação - especialmente na geração criativa e na solução de problemas - foram alguns dos melhores que já vi em qualquer modelo até agora.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Sou editor e redator de blogs, tutoriais e notícias sobre IA, garantindo que tudo se encaixe em uma estratégia de conteúdo sólida e nas práticas recomendadas de SEO. Escrevi cursos de ciência de dados em Python, estatística, probabilidade e visualização de dados. Também publiquei um romance premiado e passo meu tempo livre escrevendo roteiros e dirigindo filmes.

Tópicos

Aprenda IA com estes cursos!

Programa

Fundamentos de IA

0 min
Descubra os fundamentos da IA, mergulhe em modelos como o ChatGPT e decodifique os segredos da IA generativa para que você possa navegar no dinâmico cenário da IA.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.
Abid Ali Awan's photo

Abid Ali Awan

13 min

Ver maisVer mais