Curso
GPT-5.4 foi lançado em 5 de março de 2026 como o carro-chefe da OpenAI para trabalho profissional, unificando programação e raciocínio em um único modelo de uso geral. Seis semanas depois, em 16 de abril, a Anthropic lançou o Claude Opus 4.7, apostando em outra frente: um modelo que conduz engenharia de longo fôlego de forma autônoma e mantém coerência em sessões longas — justamente onde a maioria dos agentes se perde.
É um ótimo momento para compará-los diretamente, com uma ressalva: este artigo saiu no mesmo dia do lançamento do Opus 4.7, então os números abaixo são em sua maioria reportados pelos próprios fornecedores. Use-os como ponto de partida, não como veredito final.
Atualização: a OpenAI publicou o sucessor do GPT-5.4. Saiba tudo no nosso guia do GPT-5.5.
Opus 4.7 vs. GPT-5.4: comparação direta
Um resumo rápido antes de entrarmos em cada área. A parte mais interessante está na precificação, que explicamos em uma seção própria.

Principais especificações de ambos os modelos. Imagem do autor.
Gemini 3.1 Pro é uma alternativa real se a sua necessidade principal for processamento em massa de documentos ou análises jurídicas longas; ele opera com custos por token menores e janela de contexto de 2M. Aqui, focamos na comparação Anthropic versus OpenAI.
Como cada fornecedor posiciona seu modelo diz muito sobre o que espera que você faça com ele.
Posicionamento do modelo e usos recomendados
A OpenAI posiciona o GPT-5.4 como um modelo unificado de uso geral. Ele incorpora as capacidades de programação que antes estavam no GPT-5.3-Codex, eliminando a necessidade de direcionar requisições para endpoints diferentes por tipo de tarefa. Um modelo, um endpoint, qualquer tarefa.
A proposta da Anthropic para o Opus 4.7 é mais focada: um modelo otimizado para “programação, agentes, uso de computador e fluxos de trabalho corporativos”, com autonomia de longo prazo como grande diferencial. Você delega trabalho de engenharia complexo e confia que ele vai checar seus próprios erros antes de retornar. Vale destacar que o Opus 4.7 é o modelo mais capaz disponível para o público da Anthropic, mas não o topo da linha; o Claude Mythos Preview fica acima, restrito a fluxos de segurança cibernética defensiva.
Essa diferença aparece nos extremos: sessões de código muito longas ou pipelines que encadeiam dezenas de ferramentas.
Programação e fluxos agentic
Em programação no nível de repositório, o Opus 4.7 lidera nos benchmarks que cada fornecedor escolheu reportar (números completos abaixo). Ele introduziu verificação do próprio output, ou seja, o modelo confere seu trabalho antes de responder, e a Genspark destacou sua resistência a loops: o Opus 4.7 tem menos chance de ficar preso repetindo o mesmo problema. Esse é o tipo de coisa que só importa depois que você já viu um agente “rodar em falso” por 40 minutos em nada.
O GPT-5.4 lidera o Terminal-Bench 2.0 por cerca de seis pontos (75,1% contra 69,4%), embora a Anthropic ressalte que o número do GPT-5.4 vem de um harness auto-reportado. O GPT-5.4 também trouxe ajuste de plano no meio da resposta via Interactive Thinking: durante raciocínios complexos, você pode intervir antes do término da geração e redirecionar se o caminho parecer errado. O Opus 4.7 não tem equivalente. A diferença no SWE-bench é real: seis pontos em um benchmark escolhido pelo fornecedor trazem sinal útil — não sentença final.
Janela de contexto e trabalho com longos contextos
Ambos suportam ~1M tokens; o que muda é o que acontece com a sua fatura quando você usa esse contexto. O Opus 4.7 cobra uma taxa plana em toda a janela, então uma requisição de 900K tokens custa o mesmo por token que uma de 9K. O GPT-5.4 cobra US$ 2,50 por milhão abaixo de 272K tokens de entrada, mas ao cruzar esse limite toda a sessão é reprecificada. Trago os números exatos na seção de preços.
Há também um detalhe do tokenizador: o Opus 4.7 pode mapear o mesmo texto em até 35% mais tokens do que o 4.6. O preço por token não mudou, mas o custo efetivo por tarefa pode subir.
Em desempenho real de longo contexto, testes de parceiros colocaram o Opus 4.7 empatado com a maior pontuação de consistência em seis módulos de pesquisa, com 0,715. Pipelines de RAG que se aproximam do limite de 1M devem ser testados no seu próprio workload antes de confiar em benchmarks de fornecedor.
Uso de ferramentas, multimodalidade e interação com o ambiente
No papel, as superfícies de ferramentas parecem semelhantes; na prática, diferem mais. No OSWorld-Verified (uso de computador desktop), o Opus 4.7 agora lidera com 78,0% contra 75,0% do GPT-5.4, ambos acima da linha de base de especialistas humanos (72,4%). No navegador a história inverte: em pesquisa web, o GPT-5.4 atinge 89,3% no BrowseComp (variante Pro) versus 79,3% do Opus 4.7. Um único título de “uso de computador” esconde a divisão desktop versus navegador.
O grande upgrade multimodal do Opus 4.7 é a resolução de visão: imagens até 2.576 pixels no maior lado, algo em torno de 3,75 megapixels, mais de três vezes os modelos Claude anteriores, processadas com maior fidelidade automaticamente e sem parâmetro de API. A XBOW, parceira de testes de segurança, reportou salto de acurácia visual de 54,5% no Opus 4.6 para 98,5% no 4.7 — o maior ganho em um único benchmark entre todas as avaliações de parceiros nesta release.
Há diferenças também na arquitetura de ferramentas. O sistema de busca de ferramentas do GPT-5.4 carrega definições sob demanda em vez de embutir todas no prompt, reduzindo overhead de tokens em ecossistemas com muitas ferramentas. O Opus 4.7 raciocina sobre o problema antes de recorrer a ferramentas, usando menos chamadas no geral; o uso de ferramentas cresce em níveis de esforço mais altos.
Controlabilidade, confiabilidade e estilo de saída
O Opus 4.7 segue instruções ao pé da letra. Ele não generaliza de um item para outro nem infere pedidos que você não fez, então prompts escritos para o 4.6 podem ter comportamento inesperado; a Anthropic recomenda readequar. O lado positivo é a confiabilidade em loops agentic longos: a equipe de engenharia da Ramp observou necessidade significativamente menor de orientação passo a passo em fluxos com múltiplas ferramentas, e testes da Hexagon encontraram o Opus 4.7 em baixo esforço aproximadamente equivalente ao Opus 4.6 em médio.
A Anthropic também introduziu xhigh como um novo nível de esforço entre high e max, e elevou o padrão do Claude Code para xhigh em todos os planos. Com o novo tokenizador, a contagem de tokens de saída pode ficar maior que no 4.6 em rodadas agentic posteriores; o Task Budgets (agora em beta público) permite limitar o gasto do agente por sessão. No GPT-5.4, a controlabilidade gira em torno do Interactive Thinking, como cobrimos na seção de programação, e o guia de prompt da OpenAI aponta que o modelo responde muito bem a contratos de saída explícitos.
Uma observação da própria avaliação de segurança da Anthropic: o Opus 4.7 melhorou em honestidade e resistência a prompt injection versus o 4.6, mas teve leve regressão em resistir a conselhos detalhados demais de redução de danos sobre substâncias controladas. Avaliação geral da Anthropic: “em grande parte bem alinhado e confiável, embora não perfeitamente ideal no comportamento”.
Opus 4.7 vs. GPT-5.4 em benchmarks
Benchmarks merecem atenção — e confiança até certo ponto. Ambos escolheram métricas que os favorecem, e Vals.ai e Artificial Analysis ainda não tinham indexado o Opus 4.7 quando escrevemos este texto. Teste nas suas tarefas antes de tirar conclusões.
Benchmarks de programação
A tabela abaixo reúne as evidências mais relevantes de código nos materiais de lançamento de cada fornecedor.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Observações |
|
SWE-bench Pro |
64,3% |
57,7% |
Reportado pelos fornecedores; configurações de harness diferentes |
|
SWE-bench Verified |
87,6% |
Não publicado |
A OpenAI não divulgou pontuação oficial nesta variante |
|
CursorBench |
~70% |
Não publicado |
Cursor é parceiro da Anthropic; não é independente |
|
Terminal-Bench 2.0 |
69,4% |
75,1% |
A Anthropic observa que o número do GPT-5.4 vem de harness auto-reportado; o GPT-5.4 também regrediu em relação ao GPT-5.3-Codex (77,3%) |
|
GPQA Diamond |
94,2% |
94,4% (Pro) |
Praticamente empatados; nível já próximo da saturação |

Benchmarks de programação favorecem claramente o Opus 4.7. Imagem do autor.
O SWE-bench tem várias variantes e ambos destacaram onde se saem melhor. A Anthropic aplicou filtros de memorização e reporta que a margem do Opus 4.7 se mantém mesmo excluindo problemas sinalizados. Contexto útil: o GLM-5.1 de pesos abertos da Z.ai chegou a liderar o SWE-bench Pro com 58,4% no início de abril de 2026 antes dos 64,3% do Opus 4.7, então qualquer “estado da arte” aqui tem prazo de validade curto.
Benchmarks de agentes e uso de computador
Com o lançamento do Opus 4.7, a Anthropic publicou números comparativos para ambos os modelos na maioria dos benchmarks agentic. O quadro é misto, não unilateral.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Observações |
|
OSWorld-Verified |
78,0% |
75,0% |
Uso de computador desktop; ambos acima da linha de base humana de 72,4% |
|
BrowseComp |
79,3% |
89,3% (Pro) |
Pesquisa web com raciocínio multi-hop; GPT-5.4 lidera |
|
MCP-Atlas |
77,3% |
68,1% |
Uso de ferramentas em escala com muitos serviços conectados |
|
WebArena-Verified |
Não publicado |
67,3% |
Tarefas autônomas de navegação web |
|
Toolathlon |
Não publicado |
54,6% |
Orquestração multi-etapas; acima dos 46,3% do GPT-5.2 |
|
Finance Agent v1.1 |
64,4% |
61,5% (Pro) |
Agente de pesquisa financeira de longo contexto |
|
GDPval-AA |
1753 Elo |
1674 Elo |
Trabalho de conhecimento profissional; Opus 4.7 lidera por 79 pontos Elo |
|
BigLaw Bench |
90,9% em alto esforço |
Não publicado |
Tarefas jurídicas de documentos; avaliação do parceiro Harvey |
O retrato divide por ambiente: Opus 4.7 vence em desktop, uso de ferramentas e trabalho de conhecimento; GPT-5.4 vence em pesquisa no navegador. Vários números do GPT-5.4 são da variante Pro, então o nível padrão pode pontuar mais baixo. Próximo passo: rodadas independentes em um scaffolding compartilhado.
Preços: Opus 4.7 vs. GPT-5.4
As taxas de vitrine parecem simples. O custo real, nem tanto.
Estrutura de preços da API
A diferença de preços fica mais clara com alguns cenários concretos.
Com 100K tokens de entrada e 10K de saída (bem abaixo do limite de 272K do GPT-5.4), o GPT-5.4 custa cerca de US$ 0,40 versus US$ 0,75 do Opus 4.7. Quase metade do preço para contextos curtos a médios.
Com 500K de entrada e 20K de saída, acima do limite do GPT-5.4, os dois custam praticamente o mesmo: US$ 2,95 versus US$ 3,00. Em 900K de entrada e 10K de saída, ficam quase idênticos.
O limite de 272K é o ponto que pega muita gente: ele vale para a sessão inteira, não apenas para os tokens acima do corte. Um pipeline que manda regularmente prompts de 280K tokens paga a tarifa de longo contexto em todas as requisições, não só nos 8K extras. É reprecificação por sessão, não sobretaxa marginal.

Os custos do GPT-5.4 sobem após 272K tokens. Imagem do autor.
Como mencionei na seção de contexto, o novo tokenizador pode mapear a mesma entrada em até 35% mais tokens do que no Opus 4.6. O preço por token não mudou, mas o custo real por tarefa pode subir. Meça no tráfego real; extrapolar a partir do 4.6 tende a subestimar.
Ambas as plataformas oferecem aproximadamente 90% de desconto em tokens de entrada em cache: US$ 0,50 por milhão no Opus 4.7, US$ 0,25 por milhão no GPT-5.4 abaixo de 272K. As APIs de Batch dão mais cerca de 50% de desconto para trabalhos não urgentes. Para workloads assíncronos, esses descontos são o maior alavancador em qualquer plataforma.
Há também custos por ferramenta que passam batido. A Anthropic cobra US$ 10 por 1.000 buscas na web, além do custo padrão de tokens para o conteúdo recuperado. A OpenAI cobra separadamente por armazenamento e consultas de file search. Em pipelines pesados de ferramentas, isso pesa no bolso.
Custo por tipo de workload
Para volumes altos com contexto curto (chamadas de API abaixo de 100K tokens, classificação em lote, iteração rápida), o GPT-5.4 é mais barato. A diferença no custo de entrada pode chegar a 2x.
Acima de 272K tokens, a vantagem se inverte. A taxa plana do Opus 4.7 fica mais fácil de orçar e praticamente empata o custo total com o GPT-5.4.
Ambas cobram um pequeno adicional por residência de dados (cerca de 10%). Nessa faixa, é uma decisão de compliance, não de preço. Em sessões agentic do Claude Code, o Task Budgets (citado na seção de controlabilidade) é a principal alavanca para conter tokens.
O Claude Opus 4.7 é melhor que o GPT-5.4?
Não existe resposta universal — e qualquer artigo que diga o contrário está vendendo alguma coisa.
Escolha o Claude Opus 4.7 se seu trabalho principal é engenharia de software de longa duração em que a auto-verificação importa, seu agente opera aplicativos de desktop, seus prompts passam de 272K tokens com frequência, seu fluxo lê capturas de tela densas ou diagramas técnicos, ou você já usa Claude Code, Cursor, Replit ou Devin.
Escolha o GPT-5.4 se seu agente faz pesquisa web pesada via navegador, seus workloads ficam abaixo de 272K tokens e custo importa, você quer carregamento diferido de ferramentas em um ecossistema amplo, ou seu time já está na OpenAI Responses API.
Considere testar ambos se seu trabalho alterna entre pesquisa web autônoma e programação de fôlego. Os pontos fortes do GPT-5.4 em navegador e terminal favorecem fluxos agentic na web; a resistência a loops e a taxa plana do Opus 4.7 funcionam melhor em sessões de engenharia profundas e pipelines pesados em documentos.

Escolhendo o modelo certo para o seu fluxo. Imagem do autor.
Um ponto vale para ambos: os descontos das Batch APIs podem pesar mais que a escolha do modelo em workloads assíncronos. E como os benchmarks independentes do Opus 4.7 ainda estão chegando, um piloto com uma amostra real do seu trabalho vale mais do que qualquer comparativo — inclusive este.
Conclusão
A diferença entre Claude Opus 4.7 e GPT-5.4 é menos sobre “quem é mais inteligente” e mais sobre o tipo de trabalho que você faz.
A Anthropic apostou na autonomia: um modelo feito para sustentar coerência em longas rodadas de engenharia e checar o próprio output. A OpenAI apostou em amplitude: superfície de ferramentas mais ampla e tarifas mais baratas para a maioria dos prompts abaixo de 272K tokens.
Preços são onde mais equipes se surpreendem — e, como vimos, a mudança aos 272K por sessão é a armadilha específica. O que mais move o gasto mensal do que a tarifa base costuma ser caching e os descontos de Batch API em ambas as plataformas.
As diferenças em benchmarks são de um dígito, e ambos os fornecedores têm lançado novidades a cada poucas semanas. Escolha o que encaixa melhor no seu stack hoje e reavalie no mês que vem.
Se quiser aprofundar na prática, nosso curso Software Development with Cursor mostra fluxos de trabalho de programação assistida por IA, na prática.
Sou engenheiro de dados e criador de comunidades que trabalha com pipelines de dados, nuvem e ferramentas de IA, além de escrever tutoriais práticos e de alto impacto para o DataCamp e desenvolvedores iniciantes.
FAQs
O Claude Opus 4.7 está disponível fora da API da Anthropic?
Sim. O Opus 4.7 está no Amazon Bedrock, no Google Cloud Vertex AI e no Microsoft Foundry com o ID de modelo claude-opus-4-7. A disponibilidade por região e os preços de tokens em cache podem variar entre as nuvens, então confira a página do provedor se residência de dados for importante para a sua implantação.
Preciso atualizar meu código de API ao migrar do Opus 4.6 para o Opus 4.7?
Sim, três mudanças breaking. Definir temperature, top_p ou top_k com valores não padrão agora gera erro 400. O parâmetro antigo budget_tokens falha; substitua por thinking em modo adaptativo. E o novo tokenizador gera mais tokens por requisição, então qualquer max_tokens apertado no 4.6 pode cortar a saída no 4.7. Reajuste também seus prompts: o 4.7 segue instruções mais literalmente que o 4.6.
Qual modelo é melhor para programar?
O Opus 4.7 lidera no SWE-bench Pro (64,3% contra 57,7%) e no SWE-bench Verified (87,6%; a OpenAI não publicou pontuação aqui). O GPT-5.4 lidera no Terminal-Bench 2.0 com 75,1% contra 69,4%, embora a Anthropic ressalte que o número vem de harness auto-reportado. Opus 4.7 para engenharia no nível de repositório; GPT-5.4 para fluxos pesados de terminal. Avaliações independentes em scaffolding compartilhado ainda estão por vir.
Como a mudança do tokenizador do Opus 4.7 afeta os custos?
A faixa é de 1,0 a 1,35x, não 35% fixos, então o impacto depende do conteúdo. O fator menos óbvio: o 4.7 também “pensa” mais em níveis de esforço altos nas rodadas agentic seguintes, então a contagem de tokens se acumula ao longo da sessão. Task Budgets é o limite prático.
O GPT-5.4 é melhor no uso de ferramentas do que o Claude Opus 4.7?
De maneiras diferentes. O GPT-5.4 tem uma superfície de ferramentas nativa mais ampla (web search, file search, code interpreter, computer use) com carregamento sob demanda. O Opus 4.7 usa menos chamadas de ferramentas e raciocina antes. A Notion relatou que o Opus 4.7 foi o primeiro a passar nos testes de necessidade implícita e produziu um terço dos erros de ferramenta do 4.6. No MCP-Atlas (uso de ferramentas em escala), o Opus 4.7 lidera 77,3% a 68,1%, então uma superfície mais ampla não significa automaticamente melhor orquestração.



