Curso
Logo depois da incrível Gemini 3 do Google, a Anthropic anunciou recentemente o Claude Opus 4.5, chamando-o de “o melhor modelo do mundo para codificação, agentes e uso de computadores”.
Apesar dos benchmarks super impressionantes do Gemini 3, ele ainda ficou atrás do Claude Sonnet 4.5 no banco SWE, que é um teste de habilidades de engenharia de software. Com o Claude Opus 4.5, a Anthropic bateu seu próprio recorde no banco SWE e em outros testes.
Claude Opus 4.5 marca o terceiro grande lançamento de modelo da Anthropic em apenas dois meses. Depois do Sonnet 4.5 e Haiku 4.5. E agora que a Anthropic tem uma avaliação superior a US$ 350 bilhões, sabemos que eles têm os recursos necessários para continuar operando nesse ritmo.
Neste artigo, vou explorar todas as novidades do Claude Opus 4.5, analisando os benchmarks, os novos recursos e testando suas capacidades na prática.
O que é o Claude Opus 4.5?
Claude Opus 4.5 é o mais recente modelo de linguagem grande da Anthropic. Seguindo o Opus 4, é o modelo mais avançado da Anthropic, com foco em codificação, raciocínio e tarefas de longa duração. O modelo tem uma pontuação de 80,9% no SWE-bench e 59,3% no Terminal-bench.
O Claude Opus 4.5 já está disponível nos aplicativos da Anthropic, na API e nas principais plataformas de nuvem.
O que há de novo no Claude Opus 4.5?
No anúncio, essas coisas chamaram minha atenção:
- Codificação agênica: O Opus 4.5 é o que há de mais moderno no SWE-bench Verified, superando o Gemini 3 Pro do Google e o GPT-5.1 da OpenAI. A Anthropic também testou o modelo em uma difícil prova para fazer em casa que eles aplicam a candidatos a engenheiros de desempenho. Ele teve uma pontuação maior do que qualquer candidato humano já teve.
- Uso do computador: A Anthropic diz que o Opus 4.5 é “o melhor modelo do mundo para usar computadores”, ou seja, ele consegue interagir com interfaces de software, clicar em botões, preencher formulários e navegar em sites, como um humano faria.
- Tarefas diárias: O modelo é “significativamente melhor” no trabalho com planilhas e slides e na realização de pesquisas aprofundadas, de acordo com a Anthropic.
Junto com o lançamento do modelo, a Anthropic anunciou várias atualizações de produtos, que discutirei com mais detalhes abaixo. Eles incluem Claude para Chrome, a extensão do navegador que permite que o Claude faça coisas em várias abas, e o Claude para Excel.
Testing Claude Opus 4.5
Um artigo não estaria completo sem testar o novo modelo uma ou duas vezes. Vamos ver como as novas melhorias lidam com uma série de tarefas:
Testando o Opus 4.5 com uma pergunta de economia
Primeiro, eu queria ver como o Opus 4.5 lidava com um problema clássico de otimização econômica. Estou imaginando um modelo de demanda log-linear que prevê a quantidade vendida a partir do preço. É o tipo de coisa que você veria em um curso de econometria, mas também é realmente útil. Se você conhece sua curva de demanda e seus custos, você pode calcular o preço que maximiza o lucro.

O Opus 4.5 me deu a resposta certa, sem eu precisar pensar muito, e tudo aconteceu de uma vez só.
Fiquei impressionado com isso porque praticamente qualquer empresa que vende algo tem uma ideia da quantidade vendida e do preço, mas nem todas as empresas têm os recursos para esboçar respostas para problemas básicos de otimização.
Mas aqui, com uma sugestão bem elaborada, você pode encontrar sua resposta facilmente. Claro, ainda caberia ao analista decidir se as restrições foram realmente modeladas de forma adequada.
Aqui está o que eu também gostei: O Opus 4.5 mostrou o que sabe fazer. Não me deu só um número. Ele explicou a derivada, a fatoração e a álgebra. Se tivesse cometido um erro, eu teria percebido onde.
Testando o Opus 4.5 com uma pergunta sobre estatísticas
Depois, eu quis testar o Opus 4.5 numa questão de estatística. Criei um conjunto de dados em que yield era uma função de temperature com ruído adicionado.
library(tidyverse)
set.seed(1024)
# Generate data
n <- 100
df <- data.frame(
temperature = seq(0, 100, length.out = n)
) %>%
mutate(yield = 0.5 * temperature + 10 + rnorm(n, 0, 5))
Então, eu passei essa sugestão pro Claude.

Claude me mandou o seguinte, que usei pra criar um histograma, aqui embaixo.
# Fit model
fit <- lm(yield ~ temperature, data = df)
fitted_vals <- fitted(fit)
resids <- residuals(fit)
original_slope <- coef(fit)[2]
# Residual bootstrap
set.seed(123)
n_boot <- 1000
boot_slopes <- numeric(n_boot)
for (i in 1:n_boot) {
new_y <- fitted_vals + sample(resids, replace = TRUE)
boot_fit <- lm(new_y ~ df$temperature)
boot_slopes[i] <- coef(boot_fit)[2]
}
# Confidence intervals
ci_lower <- quantile(boot_slopes, 0.025)
ci_upper <- quantile(boot_slopes, 0.975)
# Plot
ggplot(data.frame(slope = boot_slopes), aes(x = slope)) +
geom_histogram(bins = 40, fill = "gray70", color = "white") +
geom_vline(xintercept = original_slope, color = "red", linewidth = 1) +
geom_vline(xintercept = ci_lower, color = "steelblue", linetype = "dashed", linewidth = 1) +
geom_vline(xintercept = ci_upper, color = "steelblue", linetype = "dashed", linewidth = 1) +
labs(
title = "Bootstrap Estimate: Effect of Temperature on Yield",
subtitle = paste0("Estimate: ", round(original_slope, 3),
" | 95% CI: [", round(ci_lower, 3), ", ", round(ci_upper, 3), "]"),
x = "Slope (yield per °C)",
y = "Count"
) +
theme_minimal()

Tenho que admitir que curti esse resultado. O Opus 4.5 encontrou um intervalo de confiança para a inclinação, que era exatamente o que eu estava procurando.
Ele usou um método bootstrap, que é uma boa técnica para encontrar intervalos de confiança quando heterocedasticidade está presente. Também usou mais especificamente um bootstrap nos resíduos, em vez de outro método bootstrap que reamostra pares (X,Y), o que teria assumido um erro no termo X.
Tudo isso é um ponto mais sutil, mas provavelmente importante para quem faz esse tipo de trabalho: Um bootstrap residual seria melhor quando X é fixado por design, como eu falei na minha mensagem, e quando você quer uma inferência dependente desses valores X exatos, como num estudo científico. O que estou tentando dizer é que o Opus 4.5 percebeu as sutilezas na solicitação.
Testando o Opus 4.5 com uma questão de matemática
Depois, eu queria ver se conseguia fazer o Opus 4.5 dar algum problema.

Nesse caso, o modelo estava bem à minha frente. O Opus 4.5 percebeu que minha pergunta era circular — eu estava definindo X por Y e vice-versa, então não conseguimos chegar a uma estimativa significativa para a inclinação de uma linha de regressão, com base no que estávamos trabalhando.

Testando o Opus 4.5 para otimização de SQL
Por fim, achei que seria legal testar o Opus 4.5 em uma questão sobre SQL. Eu mandei uma consulta SQL que funcionava, mas era bem ineficiente.
-- Find customers who placed orders above their average order value in 2024
SELECT
c.customer_id,
c.customer_name,
o.order_id,
o.order_date,
o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_date >= '2024-01-01'
AND o.order_date < '2025-01-01'
AND o.order_total > (
SELECT AVG(o2.order_total)
FROM orders o2
WHERE o2.customer_id = c.customer_id
)
AND c.customer_id IN (
SELECT DISTINCT o3.customer_id
FROM orders o3
WHERE o3.order_date >= '2024-01-01'
)
AND EXISTS (
SELECT 1
FROM customer_preferences cp
WHERE cp.customer_id = c.customer_id
AND cp.email_opt_in = 1
)
ORDER BY (
SELECT COUNT(*)
FROM orders o4
WHERE o4.customer_id = c.customer_id
) DESC;
Pedi ao Opus 4.5 para melhorar a consulta. Ele me deu uma resposta em cerca de um segundo.

-- Find customers who placed orders above their average order value in 2024
WITH customer_avg AS (
SELECT
customer_id,
AVG(order_total) AS avg_order_total,
COUNT(*) AS order_count
FROM orders
GROUP BY customer_id
)
SELECT
c.customer_id,
c.customer_name,
o.order_id,
o.order_date,
o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN customer_avg ca ON c.customer_id = ca.customer_id
JOIN customer_preferences cp ON c.customer_id = cp.customer_id
WHERE o.order_date >= '2024-01-01'
AND o.order_date < '2025-01-01'
AND o.order_total > ca.avg_order_total
AND cp.email_opt_in = 1
ORDER BY ca.order_count DESC;
Entre outras coisas, o Opus 4.5 substituiu a subconsulta correlacionada para AVG por um CTE. (A consulta original recalculava AVG(order_total) para cada linha avaliada, mas agora o CTE calcula a média de cada cliente antecipadamente.) O Opus 4.5 também tirou a cláusula redundante ` IN (SELECT DISTINCT ...) `, que estava fazendo trabalho extra sem necessidade. E converteu a subconsulta “ EXISTS ” em “ JOIN ”, o que é melhor.
Claude Opus 4.5 Agentes e Capacidades Agênicas
Teve outros destaques nessa última versão da Anthropic. Vamos dar uma olhada com mais detalhes:
Recursos da plataforma para desenvolvedores
A Anthropic adicionou vários novos blocos de construção para desenvolvedores. O mais notável é oparâmetro de esforço de aprendizagem por reforço ( ), que permite controlar o quanto o modelo pensa antes de responder. Defina-o em um nível baixo para tarefas rápidas e leves; defina-o em um nível mais alto quando precisar que o modelo mastigue algo.
De acordo com a Anthropic, com um esforço médio, o Opus 4.5 iguala a melhor pontuação do Sonnet 4.5 no SWE-bench, usando 76% menos tokens de saída. Com um esforço alto, ele supera o Sonnet em mais de 4% — ainda usando quase metade dos tokens.
Também tem um gerenciamento de contexto e memória melhorados. Para agentes de longa duração, o Claude agora pode resumir automaticamente o contexto anterior para que não pare no meio da tarefa. Isso combina com a compactação de contexto, que faz com que os agentes funcionem por mais tempo com menos intervenção.
Por fim, o Opus 4.5 parece ser bem bom em coordenação de múltiplos agentes, o que significa que ele pode gerenciar uma equipe de subagentes.
Claude Opus 4.5 Pesquisa aprofundada
Parece que o desempenho do Opus 4.5 numa avaliação de pesquisa aprofundada melhorou em cerca de 15%.
Eu testei a capacidade de pesquisa aprofundada por conta própria. Pedi pra me dar um relatório sobre palavras do inglês antigo que ainda existem hoje, mas que não são muito usadas, e como essas palavras mudaram com o tempo. O relatório ficou pronto em sete minutos:
Na verdade, fiquei bem impressionado com a qualidade do relatório em termos de interesse, qualidade da redação, organização e profundidade da pesquisa.
Não era um documento totalmente árido, cheio de palavras antigas ou obsoletas. Admito que algumas seções poderiam ter sido melhor diferenciadas. A parte do meio do relatório foi um pouco mais chata do que o resto. Mas — e esse é o ponto principal — foi super bem pesquisado. Dá uma olhada nessas citações:
Além disso, aprendi uma palavra nova muito legal: apricity, que significa o calor do sol no inverno.
Código Claude
A Anthropic lançou duas atualizações para o Claude Code.
O que chamamos de Modo Plano agora cria planos mais precisos antes de executar. Na prática, isso quer dizer que o Claude faz perguntas esclarecedoras logo de cara e, depois, gera um arquivo editável do plan.md que você pode revisar e ajustar antes de começar a funcionar. A ideia aqui é evitar que você comece com o pé esquerdo.
A integração com aplicativos de desktop é outra grande novidade. O Claude Code agora está disponível no aplicativo para desktop, o que significa que você pode executar várias sessões locais e remotas ao mesmo tempo. Pra usar o exemplo da própria Anthropic: um agente conserta bugs, outro pesquisa problemas no GitHub e um terceiro atualiza documentos.
Agentes de aplicativos para consumidores
Algumas funcionalidades de agência foram implementadas nas aplicações para consumidores Claude:
O Claude para Chrome permite que o Claude cuide das tarefas nas abas do seu navegador. Agora está disponível para todos os usuários do Max. Pense nisso como um agente de navegação que pode navegar, clicar, preencher formulários e extrair informações em vários sites.
O Claude para Excel traz a automação de planilhas para o Claude. Isso já tinha sido anunciado antes, mas a Anthropic agora ampliou o acesso beta para todos os usuários Max, Team e Enterprise, então está ficando mais real.
O tratamento de conversas longas resolveu uma limitação que era bem chata. Antes, as conversas longas atingiam um limite de contexto e simplesmente paravam, e aí você tinha que começar uma nova conversa. Agora, o Claude resume automaticamente as partes anteriores da conversa em segundo plano, o que libera espaço para você não ficar sem espaço.
Resultados do benchmark Claude Opus 4.5
O Opus 4.5, assim como os modelos Claude anteriores, foi testado nos benchmarks comuns em codificação agênica, uso de ferramentas, uso de computador e resolução de problemas. Aqui estão os principais resultados do Opus 4.5.

O Opus 4.5 ficou em primeiro lugar em vários dos testes mais importantes. Qualquer coisa que envolva realmente fazer coisas, como escrever código que passe nos testes (SWE-bench), usar ferramentas em fluxos de trabalho com várias etapas (τ2-bench, MCP Atlas) e operar um computador (OSWorld). O Opus 4.5 está na frente, muitas vezes por uma boa margem.
A diferença no uso de ferramentas é, na verdade, bem grande: 62,3% contra 43,8% para o segundo colocado, que também é Claude! Mas isso mostra o quanto a Anthropic está se esforçando pra melhorar seu desempenho, principalmente em tarefas de agência. Mesmo que o modelo antigo deles ainda seja o melhor em algumas categorias, isso não os impede de continuar avançando.
Parece que o Gemini 3 Pro leva vantagem em alguns dos benchmarks que exigem muito conhecimento, como raciocínio de nível de pós-graduação (GPQA Diamond) e perguntas e respostas multilíngues (MMMLU). Esses benchmarks provavelmente valorizam a variedade dos dados de treinamento e o raciocínio cuidadoso em vez de fatos decorados, e o Google, claro, tem muitos recursos.
Avanços em segurança e alinhamento
As melhorias da Anthropic não são só sobre programação, pesquisa e uso de computadores. Há uma grande ênfase na segurança, alegando que este modelo é o mais seguro e “o mais robusto” que já lançaram até agora.
Essa afirmação é apoiada por uma redução no que eles chamam de “pontuação de comportamento preocupante”, que é menor do que nos outros modelos 4.5, assim como no GPT-5.1 e no Gemini 3 Pro. A Anthropic também deixou o Opus 4.5 mais resistente contra ataques de injeção de prompt, que podem enganar o modelo e levá-lo a comportamentos prejudiciais.
Preços e disponibilidade do Claude 4.5 Opus
O Claude Opus 4.5 já está disponível em toda a linha de produtos da Anthropic, incluindo o aplicativo Claude, a API e as três principais plataformas de nuvem. Os desenvolvedores podem acessá-lo diretamente pelo ID do modelo claude-opus-4-5-20251101.
Os preços também deram uma boa desacelerada. Com um custo de US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, o Opus 4.5 torna os recursos de ponta da Anthropic muito mais acessíveis.
Para usuários corporativos, a mudança nos preços pode ser especialmente significativa. A combinação de custo reduzido, acesso ampliado à API e maior disponibilidade entre os provedores de nuvem coloca o Opus 4.5 como uma opção competitiva.
Conclusão
O Claude Opus 4.5 é a declaração mais clara da Anthropic até agora sobre onde ela se vê na corrida pela IA. Enquanto o Google aposta na compreensão multimodal e em modelos no dispositivo, a Anthropic está apostando pesado em ações: codificação agênica, uso de ferramentas e interação com computadores.
Os resultados dos testes de benchmark mostram tudo: O Opus 4.5 consegue as pontuações mais altas já registradas em testes de engenharia de software e dá conta da depuração de vários sistemas sem precisar de muita orientação.
Meus testes confirmam o que os benchmarks sugerem: O Opus 4.5 é super eficiente em trabalhos com várias etapas. Seja executando simulações bootstrap ou sintetizando pesquisas em artigos, o modelo abordava os problemas da mesma forma que um pensador faria: de maneira adaptativa e com raciocínio claro. Acho que se você quer melhorar seus fluxos de trabalho, isso é o que importa.
Se você quiser saber mais sobre os modelos Claude, recomendo dar uma olhada no curso Introdução aos Modelos Claude.
Perguntas frequentes sobre o Claude Opus 4.5
Qual é a diferença entre o Claude Opus 4.5 e o Sonnet 4.5 e o Haiku 4.5?
O Opus 4.5 é o modelo mais potente, feito para raciocínio complexo, codificação e tarefas de longa duração. O Sonnet 4.5 equilibra desempenho e custo, enquanto o Haiku 4.5 é otimizado para velocidade e eficiência.
Onde posso acessar o Claude Opus 4.5?
Está disponível através da web e dos aplicativos móveis Claude, da API Claude e de todas as principais plataformas em nuvem, facilitando a integração em diferentes fluxos de trabalho.
A Anthropic aumentou as capacidades de contexto ou memória do Claude?
Sim. O Opus 4.5 traz um gerenciamento de contexto mais robusto, tratamento de conversas mais longas e resumos aprimorados para dar suporte a raciocínios mais complexos e tarefas com várias etapas.
Quais normas de segurança o Opus 4.5 segue?
Ele atende ao mais alto nível de segurança da Anthropic, com grandes melhorias no alinhamento, redução nas pontuações de “comportamento preocupante” e maior resistência a ataques de injeção de prompt.
Que tipos de casos de uso se beneficiam mais do Opus 4.5?
O Opus 4.5 é ideal para raciocínios complexos e com várias etapas, como depuração, pesquisa e orquestração de múltiplos agentes. Para tarefas mais simples ou rápidas, o Sonnet ou o Haiku podem ser mais econômicos.


Escritor e editor de conteúdo na área de edtech. Comprometido com a exploração de tendências de dados e entusiasmado com o aprendizado da ciência de dados.



