Claude Opus 4.5: Referências, agentes, ferramentas e muito mais

Conheça o Claude Opus 4.5 da Anthropic, o melhor modelo até agora para codificação, agentes e uso de computadores. Dá uma olhada nos resultados dos benchmarks, nas novas ferramentas e nos testes reais.

Atualizado 25 de nov. de 2025 · 10 min lido

Logo depois da incrível Gemini 3 do Google, a Anthropic anunciou recentemente o Claude Opus 4.5, chamando-o de “o melhor modelo do mundo para codificação, agentes e uso de computadores”.

Apesar dos benchmarks super impressionantes do Gemini 3, ele ainda ficou atrás do Claude Sonnet 4.5 no banco SWE, que é um teste de habilidades de engenharia de software. Com o Claude Opus 4.5, a Anthropic bateu seu próprio recorde no banco SWE e em outros testes.

Claude Opus 4.5 marca o terceiro grande lançamento de modelo da Anthropic em apenas dois meses. Depois do Sonnet 4.5 e Haiku 4.5. E agora que a Anthropic tem uma avaliação superior a US$ 350 bilhões, sabemos que eles têm os recursos necessários para continuar operando nesse ritmo.

Neste artigo, vou explorar todas as novidades do Claude Opus 4.5, analisando os benchmarks, os novos recursos e testando suas capacidades na prática.

O que é o Claude Opus 4.5?

Claude Opus 4.5 é o mais recente modelo de linguagem grande da Anthropic. Seguindo o Opus 4, é o modelo mais avançado da Anthropic, com foco em codificação, raciocínio e tarefas de longa duração. O modelo tem uma pontuação de 80,9% no SWE-bench e 59,3% no Terminal-bench.

O Claude Opus 4.5 já está disponível nos aplicativos da Anthropic, na API e nas principais plataformas de nuvem.

O que há de novo no Claude Opus 4.5?

No anúncio, essas coisas chamaram minha atenção:

Codificação agênica: O Opus 4.5 é o que há de mais moderno no SWE-bench Verified, superando o Gemini 3 Pro do Google e o GPT-5.1 da OpenAI. A Anthropic também testou o modelo em uma difícil prova para fazer em casa que eles aplicam a candidatos a engenheiros de desempenho. Ele teve uma pontuação maior do que qualquer candidato humano já teve.
Uso do computador: A Anthropic diz que o Opus 4.5 é “o melhor modelo do mundo para usar computadores”, ou seja, ele consegue interagir com interfaces de software, clicar em botões, preencher formulários e navegar em sites, como um humano faria.
Tarefas diárias: O modelo é “significativamente melhor” no trabalho com planilhas e slides e na realização de pesquisas aprofundadas, de acordo com a Anthropic.

Junto com o lançamento do modelo, a Anthropic anunciou várias atualizações de produtos, que discutirei com mais detalhes abaixo. Eles incluem Claude para Chrome, a extensão do navegador que permite que o Claude faça coisas em várias abas, e o Claude para Excel.

Testing Claude Opus 4.5

Um artigo não estaria completo sem testar o novo modelo uma ou duas vezes. Vamos ver como as novas melhorias lidam com uma série de tarefas:

Testando o Opus 4.5 com uma pergunta de economia

Primeiro, eu queria ver como o Opus 4.5 lidava com um problema clássico de otimização econômica. Estou imaginando um modelo de demanda log-linear que prevê a quantidade vendida a partir do preço. É o tipo de coisa que você veria em um curso de econometria, mas também é realmente útil. Se você conhece sua curva de demanda e seus custos, você pode calcular o preço que maximiza o lucro.

O Opus 4.5 me deu a resposta certa, sem eu precisar pensar muito, e tudo aconteceu de uma vez só.

Fiquei impressionado com isso porque praticamente qualquer empresa que vende algo tem uma ideia da quantidade vendida e do preço, mas nem todas as empresas têm os recursos para esboçar respostas para problemas básicos de otimização.

Mas aqui, com uma sugestão bem elaborada, você pode encontrar sua resposta facilmente. Claro, ainda caberia ao analista decidir se as restrições foram realmente modeladas de forma adequada.

Aqui está o que eu também gostei: O Opus 4.5 mostrou o que sabe fazer. Não me deu só um número. Ele explicou a derivada, a fatoração e a álgebra. Se tivesse cometido um erro, eu teria percebido onde.

Testando o Opus 4.5 com uma pergunta sobre estatísticas

Depois, eu quis testar o Opus 4.5 numa questão de estatística. Criei um conjunto de dados em que yield era uma função de temperature com ruído adicionado.

library(tidyverse)

set.seed(1024)

# Generate data
n <- 100
df <- data.frame(
  temperature = seq(0, 100, length.out = n)
) %>%
  mutate(yield = 0.5 * temperature + 10 + rnorm(n, 0, 5))

Então, eu passei essa sugestão pro Claude.

Claude me mandou o seguinte, que usei pra criar um histograma, aqui embaixo.

# Fit model
fit <- lm(yield ~ temperature, data = df)
fitted_vals <- fitted(fit)
resids <- residuals(fit)
original_slope <- coef(fit)[2]

# Residual bootstrap
set.seed(123)
n_boot <- 1000
boot_slopes <- numeric(n_boot)

for (i in 1:n_boot) {
  new_y <- fitted_vals + sample(resids, replace = TRUE)
  boot_fit <- lm(new_y ~ df$temperature)
  boot_slopes[i] <- coef(boot_fit)[2]
}

# Confidence intervals
ci_lower <- quantile(boot_slopes, 0.025)
ci_upper <- quantile(boot_slopes, 0.975)

# Plot
ggplot(data.frame(slope = boot_slopes), aes(x = slope)) +
  geom_histogram(bins = 40, fill = "gray70", color = "white") +
  geom_vline(xintercept = original_slope, color = "red", linewidth = 1) +
  geom_vline(xintercept = ci_lower, color = "steelblue", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = ci_upper, color = "steelblue", linetype = "dashed", linewidth = 1) +
  labs(
    title = "Bootstrap Estimate: Effect of Temperature on Yield",
    subtitle = paste0("Estimate: ", round(original_slope, 3), 
                      " | 95% CI: [", round(ci_lower, 3), ", ", round(ci_upper, 3), "]"),
    x = "Slope (yield per °C)",
    y = "Count"
  ) +
  theme_minimal()

Tenho que admitir que curti esse resultado. O Opus 4.5 encontrou um intervalo de confiança para a inclinação, que era exatamente o que eu estava procurando.

Ele usou um método bootstrap, que é uma boa técnica para encontrar intervalos de confiança quando heterocedasticidade está presente. Também usou mais especificamente um bootstrap nos resíduos, em vez de outro método bootstrap que reamostra pares (X,Y), o que teria assumido um erro no termo X.

Tudo isso é um ponto mais sutil, mas provavelmente importante para quem faz esse tipo de trabalho: Um bootstrap residual seria melhor quando X é fixado por design, como eu falei na minha mensagem, e quando você quer uma inferência dependente desses valores X exatos, como num estudo científico. O que estou tentando dizer é que o Opus 4.5 percebeu as sutilezas na solicitação.

Testando o Opus 4.5 com uma questão de matemática

Depois, eu queria ver se conseguia fazer o Opus 4.5 dar algum problema.

Nesse caso, o modelo estava bem à minha frente. O Opus 4.5 percebeu que minha pergunta era circular — eu estava definindo X por Y e vice-versa, então não conseguimos chegar a uma estimativa significativa para a inclinação de uma linha de regressão, com base no que estávamos trabalhando.

Testando o Opus 4.5 para otimização de SQL

Por fim, achei que seria legal testar o Opus 4.5 em uma questão sobre SQL. Eu mandei uma consulta SQL que funcionava, mas era bem ineficiente.

-- Find customers who placed orders above their average order value in 2024
SELECT 
    c.customer_id,
    c.customer_name,
    o.order_id,
    o.order_date,
    o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_date >= '2024-01-01'
    AND o.order_date < '2025-01-01'
    AND o.order_total > (
        SELECT AVG(o2.order_total)
        FROM orders o2
        WHERE o2.customer_id = c.customer_id
    )
    AND c.customer_id IN (
        SELECT DISTINCT o3.customer_id
        FROM orders o3
        WHERE o3.order_date >= '2024-01-01'
    )
    AND EXISTS (
        SELECT 1
        FROM customer_preferences cp
        WHERE cp.customer_id = c.customer_id
            AND cp.email_opt_in = 1
    )
ORDER BY (
    SELECT COUNT(*)
    FROM orders o4
    WHERE o4.customer_id = c.customer_id
) DESC;

Pedi ao Opus 4.5 para melhorar a consulta. Ele me deu uma resposta em cerca de um segundo.

-- Find customers who placed orders above their average order value in 2024
WITH customer_avg AS (
    SELECT 
        customer_id,
        AVG(order_total) AS avg_order_total,
        COUNT(*) AS order_count
    FROM orders
    GROUP BY customer_id
)
SELECT 
    c.customer_id,
    c.customer_name,
    o.order_id,
    o.order_date,
    o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN customer_avg ca ON c.customer_id = ca.customer_id
JOIN customer_preferences cp ON c.customer_id = cp.customer_id
WHERE o.order_date >= '2024-01-01'
    AND o.order_date < '2025-01-01'
    AND o.order_total > ca.avg_order_total
    AND cp.email_opt_in = 1
ORDER BY ca.order_count DESC;

Entre outras coisas, o Opus 4.5 substituiu a subconsulta correlacionada para AVG por um CTE. (A consulta original recalculava AVG(order_total) para cada linha avaliada, mas agora o CTE calcula a média de cada cliente antecipadamente.) O Opus 4.5 também tirou a cláusula redundante ` IN (SELECT DISTINCT ...) `, que estava fazendo trabalho extra sem necessidade. E converteu a subconsulta “ EXISTS ” em “ JOIN ”, o que é melhor.

Claude Opus 4.5 Agentes e Capacidades Agênicas

Teve outros destaques nessa última versão da Anthropic. Vamos dar uma olhada com mais detalhes:

Recursos da plataforma para desenvolvedores

A Anthropic adicionou vários novos blocos de construção para desenvolvedores. O mais notável é oparâmetro de esforço de aprendizagem por reforço ( ), que permite controlar o quanto o modelo pensa antes de responder. Defina-o em um nível baixo para tarefas rápidas e leves; defina-o em um nível mais alto quando precisar que o modelo mastigue algo.

De acordo com a Anthropic, com um esforço médio, o Opus 4.5 iguala a melhor pontuação do Sonnet 4.5 no SWE-bench, usando 76% menos tokens de saída. Com um esforço alto, ele supera o Sonnet em mais de 4% — ainda usando quase metade dos tokens.

Também tem um gerenciamento de contexto e memória melhorados. Para agentes de longa duração, o Claude agora pode resumir automaticamente o contexto anterior para que não pare no meio da tarefa. Isso combina com a compactação de contexto, que faz com que os agentes funcionem por mais tempo com menos intervenção.

Por fim, o Opus 4.5 parece ser bem bom em coordenação de múltiplos agentes, o que significa que ele pode gerenciar uma equipe de subagentes.

Claude Opus 4.5 Pesquisa aprofundada

Parece que o desempenho do Opus 4.5 numa avaliação de pesquisa aprofundada melhorou em cerca de 15%.

Eu testei a capacidade de pesquisa aprofundada por conta própria. Pedi pra me dar um relatório sobre palavras do inglês antigo que ainda existem hoje, mas que não são muito usadas, e como essas palavras mudaram com o tempo. O relatório ficou pronto em sete minutos:

Na verdade, fiquei bem impressionado com a qualidade do relatório em termos de interesse, qualidade da redação, organização e profundidade da pesquisa.

Não era um documento totalmente árido, cheio de palavras antigas ou obsoletas. Admito que algumas seções poderiam ter sido melhor diferenciadas. A parte do meio do relatório foi um pouco mais chata do que o resto. Mas — e esse é o ponto principal — foi super bem pesquisado. Dá uma olhada nessas citações:

Além disso, aprendi uma palavra nova muito legal: apricity, que significa o calor do sol no inverno.

Código Claude

A Anthropic lançou duas atualizações para o Claude Code.

O que chamamos de Modo Plano agora cria planos mais precisos antes de executar. Na prática, isso quer dizer que o Claude faz perguntas esclarecedoras logo de cara e, depois, gera um arquivo editável do plan.md que você pode revisar e ajustar antes de começar a funcionar. A ideia aqui é evitar que você comece com o pé esquerdo.

A integração com aplicativos de desktop é outra grande novidade. O Claude Code agora está disponível no aplicativo para desktop, o que significa que você pode executar várias sessões locais e remotas ao mesmo tempo. Pra usar o exemplo da própria Anthropic: um agente conserta bugs, outro pesquisa problemas no GitHub e um terceiro atualiza documentos.

Agentes de aplicativos para consumidores

Algumas funcionalidades de agência foram implementadas nas aplicações para consumidores Claude:

O Claude para Chrome permite que o Claude cuide das tarefas nas abas do seu navegador. Agora está disponível para todos os usuários do Max. Pense nisso como um agente de navegação que pode navegar, clicar, preencher formulários e extrair informações em vários sites.

O Claude para Excel traz a automação de planilhas para o Claude. Isso já tinha sido anunciado antes, mas a Anthropic agora ampliou o acesso beta para todos os usuários Max, Team e Enterprise, então está ficando mais real.

O tratamento de conversas longas resolveu uma limitação que era bem chata. Antes, as conversas longas atingiam um limite de contexto e simplesmente paravam, e aí você tinha que começar uma nova conversa. Agora, o Claude resume automaticamente as partes anteriores da conversa em segundo plano, o que libera espaço para você não ficar sem espaço.

Resultados do benchmark Claude Opus 4.5

O Opus 4.5, assim como os modelos Claude anteriores, foi testado nos benchmarks comuns em codificação agênica, uso de ferramentas, uso de computador e resolução de problemas. Aqui estão os principais resultados do Opus 4.5.

O Opus 4.5 ficou em primeiro lugar em vários dos testes mais importantes. Qualquer coisa que envolva realmente fazer coisas, como escrever código que passe nos testes (SWE-bench), usar ferramentas em fluxos de trabalho com várias etapas (τ2-bench, MCP Atlas) e operar um computador (OSWorld). O Opus 4.5 está na frente, muitas vezes por uma boa margem.

A diferença no uso de ferramentas é, na verdade, bem grande: 62,3% contra 43,8% para o segundo colocado, que também é Claude! Mas isso mostra o quanto a Anthropic está se esforçando pra melhorar seu desempenho, principalmente em tarefas de agência. Mesmo que o modelo antigo deles ainda seja o melhor em algumas categorias, isso não os impede de continuar avançando.

Parece que o Gemini 3 Pro leva vantagem em alguns dos benchmarks que exigem muito conhecimento, como raciocínio de nível de pós-graduação (GPQA Diamond) e perguntas e respostas multilíngues (MMMLU). Esses benchmarks provavelmente valorizam a variedade dos dados de treinamento e o raciocínio cuidadoso em vez de fatos decorados, e o Google, claro, tem muitos recursos.

Avanços em segurança e alinhamento

As melhorias da Anthropic não são só sobre programação, pesquisa e uso de computadores. Há uma grande ênfase na segurança, alegando que este modelo é o mais seguro e “o mais robusto” que já lançaram até agora.

Essa afirmação é apoiada por uma redução no que eles chamam de “pontuação de comportamento preocupante”, que é menor do que nos outros modelos 4.5, assim como no GPT-5.1 e no Gemini 3 Pro. A Anthropic também deixou o Opus 4.5 mais resistente contra ataques de injeção de prompt, que podem enganar o modelo e levá-lo a comportamentos prejudiciais.

Preços e disponibilidade do Claude 4.5 Opus

O Claude Opus 4.5 já está disponível em toda a linha de produtos da Anthropic, incluindo o aplicativo Claude, a API e as três principais plataformas de nuvem. Os desenvolvedores podem acessá-lo diretamente pelo ID do modelo claude-opus-4-5-20251101.

Os preços também deram uma boa desacelerada. Com um custo de US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, o Opus 4.5 torna os recursos de ponta da Anthropic muito mais acessíveis.

Para usuários corporativos, a mudança nos preços pode ser especialmente significativa. A combinação de custo reduzido, acesso ampliado à API e maior disponibilidade entre os provedores de nuvem coloca o Opus 4.5 como uma opção competitiva.

Conclusão

O Claude Opus 4.5 é a declaração mais clara da Anthropic até agora sobre onde ela se vê na corrida pela IA. Enquanto o Google aposta na compreensão multimodal e em modelos no dispositivo, a Anthropic está apostando pesado em ações: codificação agênica, uso de ferramentas e interação com computadores.

Os resultados dos testes de benchmark mostram tudo: O Opus 4.5 consegue as pontuações mais altas já registradas em testes de engenharia de software e dá conta da depuração de vários sistemas sem precisar de muita orientação.

Meus testes confirmam o que os benchmarks sugerem: O Opus 4.5 é super eficiente em trabalhos com várias etapas. Seja executando simulações bootstrap ou sintetizando pesquisas em artigos, o modelo abordava os problemas da mesma forma que um pensador faria: de maneira adaptativa e com raciocínio claro. Acho que se você quer melhorar seus fluxos de trabalho, isso é o que importa.

Se você quiser saber mais sobre os modelos Claude, recomendo dar uma olhada no curso Introdução aos Modelos Claude.

Qual é a diferença entre o Claude Opus 4.5 e o Sonnet 4.5 e o Haiku 4.5?

Onde posso acessar o Claude Opus 4.5?

A Anthropic aumentou as capacidades de contexto ou memória do Claude?

Quais normas de segurança o Opus 4.5 segue?

Que tipos de casos de uso se beneficiam mais do Opus 4.5?

Author

Josef Waples

Author

Matt Crabtree

Tópicos

Inteligência Artificial

Aprenda com o DataCamp

Curso

Entendendo a inteligência artificial

2 h

401.5K

Aprenda os conceitos básicos da Inteligência Artificial, como aprendizado de máquina, aprendizado profundo, PNL, IA generativa e outros.

Ver detalhes

Iniciar curso

Curso

Implementação de Soluções de IA nos Negócios

2 h

51.7K

Aprenda a gerar valor comercial com IA. Identifique oportunidades, crie provas de conceito, implemente soluções e desenvolva uma estratégia de IA.

Ver detalhes

Iniciar curso

Curso

Introduction to Claude Models

3 h

10.6K

Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Os 13 melhores assistentes de codificação de IA em 2026

Dá uma olhada nos melhores assistentes de codificação de IA, incluindo ferramentas de código aberto, gratuitas e comerciais para melhorar sua experiência de desenvolvimento.

Abid Ali Awan

8 min

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

blog

As 5 melhores ferramentas de IA para ciência de dados em 2026

Os avanços recentes na IA têm o potencial de mudar drasticamente a ciência de dados. Dá uma olhada nesse artigo pra conhecer as cinco melhores ferramentas de IA que todo cientista de dados precisa saber.

Javier Canales Luna

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.

Dimitri Didmanidze

Ver mais Ver mais

O que é o Claude Opus 4.5?

O que há de novo no Claude Opus 4.5?

Testing Claude Opus 4.5

Testando o Opus 4.5 com uma pergunta de economia

Testando o Opus 4.5 com uma pergunta sobre estatísticas

Testando o Opus 4.5 com uma questão de matemática

Testando o Opus 4.5 para otimização de SQL

Claude Opus 4.5 Agentes e Capacidades Agênicas

Recursos da plataforma para desenvolvedores

Claude Opus 4.5 Pesquisa aprofundada

Código Claude

Agentes de aplicativos para consumidores

Resultados do benchmark Claude Opus 4.5

Avanços em segurança e alinhamento

Preços e disponibilidade do Claude 4.5 Opus

Conclusão

Perguntas frequentes sobre o Claude Opus 4.5

A Anthropic aumentou as capacidades de contexto ou memória do Claude?

Quais normas de segurança o Opus 4.5 segue?

Que tipos de casos de uso se beneficiam mais do Opus 4.5?

Os 13 melhores assistentes de codificação de IA em 2026

12 Alternativas de código aberto ao GPT-4

As 5 melhores ferramentas de IA para ciência de dados em 2026

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Entendendo a inteligência artificial

Implementação de Soluções de IA nos Negócios

Introduction to Claude Models

Os 13 melhores assistentes de codificação de IA em 2026

12 Alternativas de código aberto ao GPT-4

As 5 melhores ferramentas de IA para ciência de dados em 2026

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Primeiros passos com o Claude 3 e a API do Claude 3

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

Entendendo a inteligência artificial