Claude 4: Testes, recursos, acesso, benchmarks e muito mais

Saiba mais sobre o Claude Sonnet 4 e o Claude Opus 4, seus recursos, casos de uso, benchmarks e resultados de testes.

Atualizado 23 de mai. de 2025 · 8 min lido

A Anthropic acaba de lançar o Claude 4, que vem em duas versões: Claude 4 Sonnet e Claude 4 Opus.

Claude Sonnet 4 é um modelo generalista que é ótimo para a maioria dos casos de uso de IA e especialmente forte em codificação. Acho que é um dos melhores modelos que você pode usar gratuitamente.

Claude Opus 4 foi projetado para tarefas de raciocínio pesado, como pesquisa agêntica e fluxos de trabalho de código de longa duração. O Anthropic chama o Opus 4 de "o melhor modelo de codificação do mundo", mas acho essa afirmação um pouco vazia.

Sim, ele é atualmente o melhor desempenho no benchmark SWE-bench Verified. Porém, com uma janela de contexto de apenas 200K, não consigo imaginar que ele lide com bases de código muito grandes de forma limpa. E vamos ser honestos: sempre há outro modelo mais forte sendo lançado a cada mês. Você não faz muito sentido reivindicar a coroa por algumas semanas.

Dito isso, o Claude 4 ainda é um lançamento muito forte. Eu orientarei você sobre os detalhes mais importantes - recursos, casos de uso, benchmarks -e também farei alguns testes por conta própria.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

Soneto 4 de Claude

O Claude Sonnet 4 é o modelo menor da família Claude 4. Ele foi projetado para uso geral e tem bom desempenho nas tarefas mais comuns de IA: codificação, escrita, resposta a perguntas e análise de dados. Ele também está disponível para usuários gratuitos, o que o torna excepcionalmente acessível para um modelo dessa qualidade.

O modelo é compatível com uma janela de contexto de 200K, o que permite lidar com prompts grandes e manter a continuidade em interações longas. Isso é útil para casos de uso como análise de documentos longos, revisão de bases de código ou geração de respostas em várias partes com estrutura consistente. No entanto, o Sonnet 4 pode ter dificuldades com grandes bases de código. Para fins de comparação, o Gemini 2.5 Flash tem uma janela de contexto de 1 milhão de tokens.

Em comparação com Claude Sonnet 3.7esta versão é mais rápida, melhor em seguir instruções e mais confiável em fluxos de trabalho com muitos códigos. Ele suporta até 64 mil tokens de saída, o que ajuda com saídas um pouco mais longas, como planos estruturados, respostas com várias partes ou grandes conclusões de código.

Os primeiros relatórios mostram menos erros de navegação e melhor desempenho nas tarefas de desenvolvimento de aplicativos. Ele não é tão forte quanto o Opus 4 quando se trata de raciocínio complexo ou planejamento de tarefas de longo prazo, mas para a maioria dos fluxos de trabalho, é mais do que suficiente.

Claude Opus 4

O Claude Opus 4 é o modelo principal da série Claude 4. Ele foi desenvolvido para tarefas que exigem raciocínio mais profundo, memória de longo prazo e resultados mais estruturados - coisas como pesquisa agêntica, refatoração de código em larga escala, solução de problemas em várias etapas e fluxos de trabalho de pesquisa estendidos.

Assim como o Sonnet 4, ele suporta uma janela de contexto de 200K, o que pode ser uma desvantagem se você quiser usá-lo com uma grande base de código. Para comparação, Gemini 2.5 Pro (o modelo principal do Google) tem uma janela de contexto de 1 milhão de tokens.

Ele também é capaz de funcionar no modo de "pensamento estendido", no qual muda de respostas rápidas para um raciocínio mais lento e deliberado. Esse modo permite que você execute o uso da ferramenta, rastreie a memória nas etapas e gere resumos de seu próprio processo de pensamento quando necessário.

A Anthropic o posicionou como um modelo de ponta para desenvolvedores, pesquisadores e equipes que criam agentes de IA. Ele é líder no SWE-bench Verified e no Terminal-bench, e os primeiros usuários relatam um bom desempenho em agentes de codificação, fluxos de trabalho de pesquisa e tarefas de várias horas, como refatoração de projetos de código aberto ou simulação de planejamento de longo prazo.

Ao contrário do Sonnet, o Opus 4 só está disponível em planos pagos. Sua execução é mais cara e provavelmente é um exagero para o uso simples do chatbot. Mas, para aplicativos que precisam de raciocínio consistente em muitas partes móveis, é a opção mais capaz.

Testando o Claude 4

Quando testo um novo modelo, normalmente uso as mesmas tarefas - dessa forma, posso ver como ele se compara a outros modelos que testei anteriormente. Não se trata de uma avaliação extensa. O objetivo é apenas ter uma ideia de como esses modelos se comportam na interface de bate-papo.

Vamos experimentar o Claude 4 em duas áreas: matemática e codificação.

Matemática

Gosto de começar com um cálculo simples que muitas vezes confunde os modelos de linguagem. Não se trata de verificar a aritmética básica - eu poderia usar uma calculadora para isso. O objetivo é ver como o modelo aborda um problema ligeiramente complicado e se ele pode recorrer ao uso de ferramentas ou mostrar seu raciocínio claramente quando necessário.

Vamos ver como o Claude Sonnet 4 lidou com isso:

Como você pode ver, ele errou a resposta na primeira tentativa. Mas quando pedi que ele usasse uma ferramenta - uma calculadora - ele respondeu escrevendo um script de uma linha em JavaScript e resolveu o problema corretamente.

Claude Opus 4 respondeu corretamente na primeira tentativa.

Em seguida, eu queria ver como o Claude Sonnet 4 lida bem com um problema mais complexo: usar todos os dígitos de 0 a 9 exatamente uma vez para formar três números x, y, z de modo que x + y = z.

Após cerca de cinco minutos de tentativas aleatórias de força bruta, recebi uma mensagem informando que o limite de saída havia sido atingido e que eu precisava clicar em "Continue" para continuar. Eu tentei, e Claude tentou novamente, mas depois atingiu o limite mais uma vez. O que eu gostei, no entanto, foi o fato de ele não ter inventado uma resposta. Ele simplesmente se recusava a responder se não conseguisse encontrar um. Essa é uma grande vitória, na minha opinião - é mais problemático para você alucinar uma solução.

Em seguida, experimentei o Claude Opus 4 na mesma tarefa. A resposta veio quase instantaneamente e estava correta: 246 + 789 = 1035. O Opus 4 é impressionante!!!

Codificação

Para a tarefa de codificação, decidi ir direto para o Claude Opus 4. Esse tipo de geração criativa parece mais adequado aos seus recursos. Não estou testando-o em grandes bases de código aqui - apenas uma tarefa de codificação relativamente trivial.

Pedi a ele que criasse um jogo rápido em p5.js usando este prompt que usei para Gemini 2.5 Pro e para o o4-mini:

Sugestão: Crie um jogo cativante de corrida sem fim para mim. Instruções-chave na tela. cena p5.js, sem HTML. Gosto de dinossauros pixelados e fundos interessantes.

Normalmente, eu copiaria e colaria o código em um editor p5.js on-line para testá-lo. Você pode usar o código para testar o código. Mas um dos recursos interessantes do Claude 4 é o Artifacts, que me permite visualizar e executar a saída do código diretamente no bate-papo.

Vamos ver o resultado:

Nenhum modelo anterior que eu tenha testado conseguiu abrir a tela inicial logo na primeira tentativa - a maioria deles simplesmente entrou direto no jogo. O Claude Opus 4 realmente exibiu uma tela inicial adequada com instruções, o que foi uma boa surpresa.

No entanto, havia um erro visual: o dinossauro pixelado deixava um rastro confuso ao se mover pela tela. Os pixels não estavam sendo limpos corretamente entre os quadros, o que prejudicava a jogabilidade. Eu chamei a atenção para esse fato e pedi à Opus 4 que o corrigisse.

Perfeito! Nunca obtive uma versão tão limpa e jogável desse jogo em nenhum outro modelo.

Benchmarks do Claude 4

Os modelos Claude 4 foram testados em uma série de benchmarks padrão em tarefas de codificação, raciocínio e agenciamento. Embora essas pontuações não contem toda a história da qualidade do modelo, elas ainda são úteis como ponto de comparação. Abaixo estão os principais resultados do Claude Sonnet 4 e do Claude Opus 4.

Fonte: Antrópico

Soneto 4 de Claude

O Claude Sonnet 4 tem um desempenho surpreendentemente bom para um modelo que está disponível para usuários gratuitos. No SWE-bench Verified, que testa tarefas de codificação do mundo real, ele obteve uma pontuação de 72,7%, superando ligeiramente o Opus 4 (72,5%) e significativamente à frente do Claude 3.7 Sonnet (62,3%). Ele também supera o GPT-4.1 da OpenAI (54,6%) e o Gemini 2.5 Pro (63,2%).

Em outros benchmarks:

TerminalBench (codificação baseada em CLI): 35,5% - à frente do GPT-4.1 (30,3%) e do Gemini (25,3%)
GPQA Diamond (raciocínio em nível de pós-graduação): 75,4% - forte, embora um pouco abaixo do OpenAI o3 e do Gemini
TAU-bench (uso de ferramenta agêntica): 80,5% Varejo / 60,0% Companhia aérea - comparável ao Opus 4 e à frente do GPT-4.1 e do o3
MMLU (controle de qualidade multilíngue): 86,5% - logo atrás do Opus e do o3, mas ainda assim sólido
MMMU (raciocínio visual): 74,4% - a última pontuação em toda a linha de modelos
AIME (competição de matemática): 70,5% - melhor que o Sonnet 3.7, mas não suficientemente competitivo

O Sonnet 4 é, sem dúvida, um dos modelos de camada livre de melhor desempenho atualmente disponíveis e competitivo com modelos que exigem pagamento ou acesso comercial.

Claude Opus 4

O Opus 4 é o modelo carro-chefe da Anthropic e seu desempenho é igual ou próximo do topo na maioria dos benchmarks. No SWE-bench Verified, a pontuação é de 72,5% e, em configurações de alta computação, salta para 79,4% - a mais alta entre todos os modelos comparados.

Ele também lidera ou está próximo do topo em:

TerminalBench (codificação de CLI autêntica): 43,2% (50,0% no modo de alta computação) - a pontuação mais forte no gráfico
GPQA Diamond (raciocínio em nível de pós-graduação): 79,6% (83,3%) - sólido, um pouco atrás do OpenAI o3 e do Gemini 2.5 Pro
TAU-bench (uso de ferramenta agêntica): 81,4% Varejo / 59,6% Companhia aérea - no mesmo nível do Sonnet 4 e 3,7
MMLU (controle de qualidade multilíngue): 88,8% - empatado com o OpenAI o3
MMMU (raciocínio visual): 76,5% - atrás do o3 e do Gemini 2.5 Pro
AIME (competição de matemática): 75,5% (90,0% de alta computação) - significativamente acima do Claude Sonnet 4

Como acessar o Claude 4

O Claude 4 está disponível por meio de vários canais, dependendo de como você deseja usá-lo, seja por meio de bate-papo casual, desenvolvimento via API ou integração em fluxos de trabalho corporativos. Veja como o acesso funciona:

Acesso ao bate-papo

Você pode usar o Claude 4 diretamente por meio do arquivo Claude.ai ou aplicativos móveis (iOS e Android).

O Claude Sonnet 4 está disponível para todos os usuários, inclusive os da camada gratuita. Isso o torna um dos modelos mais capazes que você pode experimentar sem pagar.
Claude Opus 4 está disponível apenas para usuários pagantes nos planos Pro, Max, Team ou Enterprise.

Acesso à API

Para os desenvolvedores, ambos os modelos podem ser acessados por meio da API do Anthropice também estão disponíveis no Amazon Bedrock e no Google Cloud Vertex AI.

Preços de API (a partir de maio de 2025):

Claude Opus 4: US$ 15 por milhão de tokens de entrada, US$ 75 por milhão de tokens de saída
Claude Sonnet 4: US$ 3 por milhão de tokens de entrada, US$ 15 por milhão de tokens de saída

O processamento em lote e o armazenamento em cache imediato podem reduzir os custos em até 90% em alguns casos.

Conclusão

O Claude Sonnet 4 oferece valor real como um modelo rápido e capaz, de uso gratuito e com bom desempenho em tarefas de codificação, raciocínio e assistente geral. Para a maioria das necessidades diárias, é mais do que suficiente.

O Opus 4, por outro lado, foi desenvolvido para raciocínio mais profundo e fluxos de trabalho complexos. Os resultados da codificação - especialmente na geração criativa e na solução de problemas - foram alguns dos melhores que já vi em qualquer modelo até agora.

Author

Alex Olteanu

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Aprenda IA com estes cursos!

Programa

Fundamentos da IA

10 h

Descubra os fundamentos da IA, aprenda a usar a IA de forma eficaz no trabalho e mergulhe em modelos como o chatGPT para navegar pelo cenário dinâmico da IA.

Ver detalhes

Iniciar curso

Programa

Desenvolvimento de aplicativos de IA

21 h

Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.

Ver detalhes

Iniciar curso

Curso

Working with DeepSeek in Python

3 h

1.2K

Discover what all of the DeepSeek hype was really about! Build applications using DeepSeek's R1 and V3 models.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.

Ryan Ong

8 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Ver mais Ver mais

Soneto 4 de Claude

Claude Opus 4

Testando o Claude 4

Matemática

Codificação

Benchmarks do Claude 4

Soneto 4 de Claude

Claude Opus 4

Como acessar o Claude 4

Acesso ao bate-papo

Acesso à API

Conclusão

12 Alternativas de código aberto ao GPT-4

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

Visão GPT-4: Um guia abrangente para iniciantes

Ajuste fino do Llama 3.1 para classificação de textos

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos da IA

Desenvolvimento de aplicativos de IA

Working with DeepSeek in Python

12 Alternativas de código aberto ao GPT-4

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

Visão GPT-4: Um guia abrangente para iniciantes

Ajuste fino do Llama 3.1 para classificação de textos

Fundamentos da IA