Programa
A Anthropic acaba de lançar o Claude 4, que vem em duas versões: Claude 4 Sonnet e Claude 4 Opus.
Claude Sonnet 4 é um modelo generalista que é ótimo para a maioria dos casos de uso de IA e especialmente forte em codificação. Acho que é um dos melhores modelos que você pode usar gratuitamente.
Claude Opus 4 foi projetado para tarefas de raciocínio pesado, como pesquisa agêntica e fluxos de trabalho de código de longa duração. O Anthropic chama o Opus 4 de "o melhor modelo de codificação do mundo", mas acho essa afirmação um pouco vazia.
Sim, ele é atualmente o melhor desempenho no benchmark SWE-bench Verified. Porém, com uma janela de contexto de apenas 200K, não consigo imaginar que ele lide com bases de código muito grandes de forma limpa. E vamos ser honestos: sempre há outro modelo mais forte sendo lançado a cada mês. Você não faz muito sentido reivindicar a coroa por algumas semanas.
Dito isso, o Claude 4 ainda é um lançamento muito forte. Eu orientarei você sobre os detalhes mais importantes - recursos, casos de uso, benchmarks -e também farei alguns testes por conta própria.
Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:
Soneto 4 de Claude
O Claude Sonnet 4 é o modelo menor da família Claude 4. Ele foi projetado para uso geral e tem bom desempenho nas tarefas mais comuns de IA: codificação, escrita, resposta a perguntas e análise de dados. Ele também está disponível para usuários gratuitos, o que o torna excepcionalmente acessível para um modelo dessa qualidade.
O modelo é compatível com uma janela de contexto de 200K, o que permite lidar com prompts grandes e manter a continuidade em interações longas. Isso é útil para casos de uso como análise de documentos longos, revisão de bases de código ou geração de respostas em várias partes com estrutura consistente. No entanto, o Sonnet 4 pode ter dificuldades com grandes bases de código. Para fins de comparação, o Gemini 2.5 Flash tem uma janela de contexto de 1 milhão de tokens.
Em comparação com Claude Sonnet 3.7esta versão é mais rápida, melhor em seguir instruções e mais confiável em fluxos de trabalho com muitos códigos. Ele suporta até 64 mil tokens de saída, o que ajuda com saídas um pouco mais longas, como planos estruturados, respostas com várias partes ou grandes conclusões de código.
Os primeiros relatórios mostram menos erros de navegação e melhor desempenho nas tarefas de desenvolvimento de aplicativos. Ele não é tão forte quanto o Opus 4 quando se trata de raciocínio complexo ou planejamento de tarefas de longo prazo, mas para a maioria dos fluxos de trabalho, é mais do que suficiente.
Claude Opus 4
O Claude Opus 4 é o modelo principal da série Claude 4. Ele foi desenvolvido para tarefas que exigem raciocínio mais profundo, memória de longo prazo e resultados mais estruturados - coisas como pesquisa agêntica, refatoração de código em larga escala, solução de problemas em várias etapas e fluxos de trabalho de pesquisa estendidos.
Assim como o Sonnet 4, ele suporta uma janela de contexto de 200K, o que pode ser uma desvantagem se você quiser usá-lo com uma grande base de código. Para comparação, Gemini 2.5 Pro (o modelo principal do Google) tem uma janela de contexto de 1 milhão de tokens.
Ele também é capaz de funcionar no modo de "pensamento estendido", no qual muda de respostas rápidas para um raciocínio mais lento e deliberado. Esse modo permite que você execute o uso da ferramenta, rastreie a memória nas etapas e gere resumos de seu próprio processo de pensamento quando necessário.
A Anthropic o posicionou como um modelo de ponta para desenvolvedores, pesquisadores e equipes que criam agentes de IA. Ele é líder no SWE-bench Verified e no Terminal-bench, e os primeiros usuários relatam um bom desempenho em agentes de codificação, fluxos de trabalho de pesquisa e tarefas de várias horas, como refatoração de projetos de código aberto ou simulação de planejamento de longo prazo.
Ao contrário do Sonnet, o Opus 4 só está disponível em planos pagos. Sua execução é mais cara e provavelmente é um exagero para o uso simples do chatbot. Mas, para aplicativos que precisam de raciocínio consistente em muitas partes móveis, é a opção mais capaz.
Testando o Claude 4
Quando testo um novo modelo, normalmente uso as mesmas tarefas - dessa forma, posso ver como ele se compara a outros modelos que testei anteriormente. Não se trata de uma avaliação extensa. O objetivo é apenas ter uma ideia de como esses modelos se comportam na interface de bate-papo.
Vamos experimentar o Claude 4 em duas áreas: matemática e codificação.
Matemática
Gosto de começar com um cálculo simples que muitas vezes confunde os modelos de linguagem. Não se trata de verificar a aritmética básica - eu poderia usar uma calculadora para isso. O objetivo é ver como o modelo aborda um problema ligeiramente complicado e se ele pode recorrer ao uso de ferramentas ou mostrar seu raciocínio claramente quando necessário.
Vamos ver como o Claude Sonnet 4 lidou com isso:
Como você pode ver, ele errou a resposta na primeira tentativa. Mas quando pedi que ele usasse uma ferramenta - uma calculadora - ele respondeu escrevendo um script de uma linha em JavaScript e resolveu o problema corretamente.
Claude Opus 4 respondeu corretamente na primeira tentativa.
Em seguida, eu queria ver como o Claude Sonnet 4 lida bem com um problema mais complexo: usar todos os dígitos de 0 a 9 exatamente uma vez para formar três números x, y, z de modo que x + y = z.
Após cerca de cinco minutos de tentativas aleatórias de força bruta, recebi uma mensagem informando que o limite de saída havia sido atingido e que eu precisava clicar em "Continue" para continuar. Eu tentei, e Claude tentou novamente, mas depois atingiu o limite mais uma vez. O que eu gostei, no entanto, foi o fato de ele não ter inventado uma resposta. Ele simplesmente se recusava a responder se não conseguisse encontrar um. Essa é uma grande vitória, na minha opinião - é mais problemático para você alucinar uma solução.
Em seguida, experimentei o Claude Opus 4 na mesma tarefa. A resposta veio quase instantaneamente e estava correta: 246 + 789 = 1035. O Opus 4 é impressionante!!!
Codificação
Para a tarefa de codificação, decidi ir direto para o Claude Opus 4. Esse tipo de geração criativa parece mais adequado aos seus recursos. Não estou testando-o em grandes bases de código aqui - apenas uma tarefa de codificação relativamente trivial.
Pedi a ele que criasse um jogo rápido em p5.js usando este prompt que usei para Gemini 2.5 Pro e para o o4-mini:
Sugestão: Crie um jogo cativante de corrida sem fim para mim. Instruções-chave na tela. cena p5.js, sem HTML. Gosto de dinossauros pixelados e fundos interessantes.
Normalmente, eu copiaria e colaria o código em um editor p5.js on-line para testá-lo. Você pode usar o código para testar o código. Mas um dos recursos interessantes do Claude 4 é o Artifacts, que me permite visualizar e executar a saída do código diretamente no bate-papo.
Vamos ver o resultado:
Nenhum modelo anterior que eu tenha testado conseguiu abrir a tela inicial logo na primeira tentativa - a maioria deles simplesmente entrou direto no jogo. O Claude Opus 4 realmente exibiu uma tela inicial adequada com instruções, o que foi uma boa surpresa.
No entanto, havia um erro visual: o dinossauro pixelado deixava um rastro confuso ao se mover pela tela. Os pixels não estavam sendo limpos corretamente entre os quadros, o que prejudicava a jogabilidade. Eu chamei a atenção para esse fato e pedi à Opus 4 que o corrigisse.
Perfeito! Nunca obtive uma versão tão limpa e jogável desse jogo em nenhum outro modelo.
Benchmarks do Claude 4
Os modelos Claude 4 foram testados em uma série de benchmarks padrão em tarefas de codificação, raciocínio e agenciamento. Embora essas pontuações não contem toda a história da qualidade do modelo, elas ainda são úteis como ponto de comparação. Abaixo estão os principais resultados do Claude Sonnet 4 e do Claude Opus 4.
Fonte: Antrópico
Soneto 4 de Claude
O Claude Sonnet 4 tem um desempenho surpreendentemente bom para um modelo que está disponível para usuários gratuitos. No SWE-bench Verified, que testa tarefas de codificação do mundo real, ele obteve uma pontuação de 72,7%, superando ligeiramente o Opus 4 (72,5%) e significativamente à frente do Claude 3.7 Sonnet (62,3%). Ele também supera o GPT-4.1 da OpenAI (54,6%) e o Gemini 2.5 Pro (63,2%).
Em outros benchmarks:
- TerminalBench (codificação baseada em CLI): 35,5% - à frente do GPT-4.1 (30,3%) e do Gemini (25,3%)
- GPQA Diamond (raciocínio em nível de pós-graduação): 75,4% - forte, embora um pouco abaixo do OpenAI o3 e do Gemini
- TAU-bench (uso de ferramenta agêntica): 80,5% Varejo / 60,0% Companhia aérea - comparável ao Opus 4 e à frente do GPT-4.1 e do o3
- MMLU (controle de qualidade multilíngue): 86,5% - logo atrás do Opus e do o3, mas ainda assim sólido
- MMMU (raciocínio visual): 74,4% - a última pontuação em toda a linha de modelos
- AIME (competição de matemática): 70,5% - melhor que o Sonnet 3.7, mas não suficientemente competitivo
O Sonnet 4 é, sem dúvida, um dos modelos de camada livre de melhor desempenho atualmente disponíveis e competitivo com modelos que exigem pagamento ou acesso comercial.
Claude Opus 4
O Opus 4 é o modelo carro-chefe da Anthropic e seu desempenho é igual ou próximo do topo na maioria dos benchmarks. No SWE-bench Verified, a pontuação é de 72,5% e, em configurações de alta computação, salta para 79,4% - a mais alta entre todos os modelos comparados.
Ele também lidera ou está próximo do topo em:
- TerminalBench (codificação de CLI autêntica): 43,2% (50,0% no modo de alta computação) - a pontuação mais forte no gráfico
- GPQA Diamond (raciocínio em nível de pós-graduação): 79,6% (83,3%) - sólido, um pouco atrás do OpenAI o3 e do Gemini 2.5 Pro
- TAU-bench (uso de ferramenta agêntica): 81,4% Varejo / 59,6% Companhia aérea - no mesmo nível do Sonnet 4 e 3,7
- MMLU (controle de qualidade multilíngue): 88,8% - empatado com o OpenAI o3
- MMMU (raciocínio visual): 76,5% - atrás do o3 e do Gemini 2.5 Pro
- AIME (competição de matemática): 75,5% (90,0% de alta computação) - significativamente acima do Claude Sonnet 4
Como acessar o Claude 4
O Claude 4 está disponível por meio de vários canais, dependendo de como você deseja usá-lo, seja por meio de bate-papo casual, desenvolvimento via API ou integração em fluxos de trabalho corporativos. Veja como o acesso funciona:
Acesso ao bate-papo
Você pode usar o Claude 4 diretamente por meio do arquivo Claude.ai ou aplicativos móveis (iOS e Android).
- O Claude Sonnet 4 está disponível para todos os usuários, inclusive os da camada gratuita. Isso o torna um dos modelos mais capazes que você pode experimentar sem pagar.
- Claude Opus 4 está disponível apenas para usuários pagantes nos planos Pro, Max, Team ou Enterprise.
Acesso à API
Para os desenvolvedores, ambos os modelos podem ser acessados por meio da API do Anthropice também estão disponíveis no Amazon Bedrock e no Google Cloud Vertex AI.
Preços de API (a partir de maio de 2025):
- Claude Opus 4: US$ 15 por milhão de tokens de entrada, US$ 75 por milhão de tokens de saída
- Claude Sonnet 4: US$ 3 por milhão de tokens de entrada, US$ 15 por milhão de tokens de saída
O processamento em lote e o armazenamento em cache imediato podem reduzir os custos em até 90% em alguns casos.
Conclusão
O Claude Sonnet 4 oferece valor real como um modelo rápido e capaz, de uso gratuito e com bom desempenho em tarefas de codificação, raciocínio e assistente geral. Para a maioria das necessidades diárias, é mais do que suficiente.
O Opus 4, por outro lado, foi desenvolvido para raciocínio mais profundo e fluxos de trabalho complexos. Os resultados da codificação - especialmente na geração criativa e na solução de problemas - foram alguns dos melhores que já vi em qualquer modelo até agora.
Sou editor e redator de blogs, tutoriais e notícias sobre IA, garantindo que tudo se encaixe em uma estratégia de conteúdo sólida e nas práticas recomendadas de SEO. Escrevi cursos de ciência de dados em Python, estatística, probabilidade e visualização de dados. Também publiquei um romance premiado e passo meu tempo livre escrevendo roteiros e dirigindo filmes.