Accéder au contenu principal

Claude Opus 4.5 : Benchmarks, agents, outils et autres

Découvrez Claude Opus 4.5 d'Anthropic, son modèle le plus performant à ce jour pour le codage, les agents et l'utilisation informatique. Veuillez consulter les résultats des tests de performance, les nouveaux outils et les essais en conditions réelles.
Actualisé 25 nov. 2025  · 10 min de lecture

Dans la foulée de l'impressionnant Gemini 3 de Google, Anthropic a récemment annoncé Claude Opus 4.5, le qualifiant de « meilleur modèle au monde pour le codage, les agents et l'utilisation des ordinateurs ». 

Malgré les résultats extrêmement impressionnants obtenus par Gemini 3, il est tout de même resté derrière Claude Sonnet 4.5 au test SWE, qui évalue les compétences en génie logiciel. Avec Claude Opus 4.5, Anthropic dépasse son propre score sur le banc SWE et d'autres tests. 

Claude Opus 4.5 marque le troisième lancement majeur d'Anthropic en seulement deux mois. Après Sonnet 4.5 et Haiku 4.5.  Et maintenant qu'Anthropic affiche une valorisation supérieure à 350 milliards de dollars, nous savons qu'ils disposent des ressources nécessaires pour continuer à fonctionner à ce rythme.

Dans cet article, j'explorerai toutes les nouveautés de Claude Opus 4.5, en examinant les benchmarks, les nouvelles fonctionnalités et en testant ses capacités de manière pratique.  

Qu'est-ce que Claude Opus 4.5 ?

Claude Opus 4.5 est le dernier modèle linguistique de grande envergure développé par Anthropic. Dans la continuité d'Opus 4, il s'agit du modèle le plus avancé d'Anthropic, axé sur le codage, le raisonnement et les tâches de longue durée. Le modèle obtient un score de 80,9 % sur le banc SWE et de 59,3 % sur le banc Terminal. 

Claude Opus 4.5 est désormais disponible sur les applications Anthropic, l'API et les principales plateformes cloud. 

Quelles sont les nouveautés de Claude Opus 4.5 ?

Dans cette annonce, les éléments suivants ont retenu mon attention :

  • s de codage agentique: Opus 4.5 est à la pointe de la technologie sur SWE-bench Verified, surpassant Gemini 3 Pro de Google et GPT-5.1 d'OpenAI. Anthropic a également évalué le modèle lors d'un examen à domicile exigeant, proposé aux futurs ingénieurs en performance. Il a obtenu un score supérieur à celui de tout candidat humain auparavant.
  • Utilisation de l'ordinateur: Anthropic affirme qu'Opus 4.5 est « le meilleur modèle au monde pour l'utilisation d'un ordinateur », ce qui signifie qu'il est capable d'interagir avec des interfaces logicielles, de cliquer sur des boutons, de remplir des formulaires et de naviguer sur des sites web, comme le ferait un être humain.
  • Tâches quotidiennes: Selon Anthropic, ce modèle est « nettement plus performant » pour travailler avec des feuilles de calcul et des présentations PowerPoint, ainsi que pour mener des recherches approfondies.

Parallèlement au lancement du modèle, Anthropic a annoncé plusieurs mises à jour de produits, que je détaillerai ci-dessous. Ils comprennent Claude pour Chrome, l'extension de navigateur qui permet à Claude d'interagir avec plusieurs onglets, et Claude pour Excel.

Test de Claude Opus 4.5

Un article ne serait pas complet sans soumettre le nouveau modèle à un ou deux tests. Vérifions comment les nouvelles améliorations gèrent une série de tâches : 

Test de la version 4.5 d'Opus avec une question d'économie

Tout d'abord, j'ai souhaité évaluer la manière dont Opus 4.5 traitait un problème classique d'optimisation économique. J'envisage un modèle de demande log-linéaire qui prédit la quantité vendue à partir du prix. C'est le genre de chose que l'on pourrait rencontrer dans un cours d'économétrie, mais qui est également très utile. Si vous connaissez votre courbe de demande et vos coûts, vous pouvez déterminer le prix qui maximise le profit.

Opus 4.5 m'a fourni la réponse adéquate, sans que j'aie besoin de réfléchir, et cela s'est produit en une seule fois. 

J'ai été impressionné par cela, car presque toutes les entreprises qui vendent des produits ont une idée de la quantité vendue et du prix, mais toutes les entreprises n'ont pas les ressources nécessaires pour esquisser des réponses à des problèmes d'optimisation élémentaires. 

Cependant, grâce à une invite bien conçue, vous pouvez facilement trouver votre réponse. Bien entendu, il reviendrait toujours à l'analyste de déterminer si les contraintes ont été modélisées de manière adéquate.

Voici ce qui m'a également plu : Opus 4.5 a démontré son efficacité. Cela ne m'a pas simplement fourni un numéro. Il a abordé les dérivées, l'analyse factorielle et l'algèbre. Si une erreur avait été commise, j'aurais pu la repérer.

Test d'Opus 4.5 avec une question statistique

Ensuite, j'ai souhaité tester Opus 4.5 sur une question de statistiques. J'ai créé un ensemble de données dans lequel l'yield e était fonction de l'temperature e avec ajout de bruit. 

library(tidyverse)

set.seed(1024)

# Generate data
n <- 100
df <- data.frame(
  temperature = seq(0, 100, length.out = n)
) %>%
  mutate(yield = 0.5 * temperature + 10 + rnorm(n, 0, 5))

J'ai ensuite transmis cette suggestion à Claude. 

Claude m'a fourni les informations suivantes, que j'ai utilisées pour créer l'histogramme ci-dessous.

# Fit model
fit <- lm(yield ~ temperature, data = df)
fitted_vals <- fitted(fit)
resids <- residuals(fit)
original_slope <- coef(fit)[2]

# Residual bootstrap
set.seed(123)
n_boot <- 1000
boot_slopes <- numeric(n_boot)

for (i in 1:n_boot) {
  new_y <- fitted_vals + sample(resids, replace = TRUE)
  boot_fit <- lm(new_y ~ df$temperature)
  boot_slopes[i] <- coef(boot_fit)[2]
}

# Confidence intervals
ci_lower <- quantile(boot_slopes, 0.025)
ci_upper <- quantile(boot_slopes, 0.975)

# Plot
ggplot(data.frame(slope = boot_slopes), aes(x = slope)) +
  geom_histogram(bins = 40, fill = "gray70", color = "white") +
  geom_vline(xintercept = original_slope, color = "red", linewidth = 1) +
  geom_vline(xintercept = ci_lower, color = "steelblue", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = ci_upper, color = "steelblue", linetype = "dashed", linewidth = 1) +
  labs(
    title = "Bootstrap Estimate: Effect of Temperature on Yield",
    subtitle = paste0("Estimate: ", round(original_slope, 3), 
                      " | 95% CI: [", round(ci_lower, 3), ", ", round(ci_upper, 3), "]"),
    x = "Slope (yield per °C)",
    y = "Count"
  ) +
  theme_minimal()

Je dois dire que ce résultat me satisfait. Opus 4.5 a déterminé un intervalle de confiance pour la pente, ce qui correspondait exactement à ma demande. 

Il a utilisé une méthode bootstrap, qui est une technique efficace pour déterminer des intervalles de confiance en cas d'l'hétéroscédasticité est présente. Plus précisément, il a également utilisé un bootstrap sur les résidus, au lieu d'une autre méthode bootstrap qui rééchantillonne les paires (X,Y), ce qui aurait supposé une erreur dans le terme X. 

Tout cela constitue un point plus subtil, mais probablement important pour les personnes qui exercent ce type de profession : Un bootstrap résiduel serait plus approprié lorsque X est fixe par conception, comme je l'ai précisé dans mon message, et lorsque vous souhaitez donc une inférence conditionnelle à ces valeurs X exactes, comme dans le cas d'une étude scientifique. Ce que je souhaite souligner, c'est qu'Opus 4.5 a pris en compte les subtilités de l'invite.

Test d'Opus 4.5 avec une question de mathématiques

Ensuite, j'ai souhaité déterminer si je pouvais provoquer une erreur dans Opus 4.5 d'une manière ou d'une autre.

Dans ce cas, le modèle était bien en avance sur moi. Opus 4.5 a compris que ma question était circulaire : je définissais X par Y et vice-versa, de sorte que nous ne pouvions pas obtenir d'estimation significative pour la pente d'une ligne de régression, compte tenu des données dont nous disposions. 

Test d'Opus 4.5 pour l'optimisation SQL

Enfin, j'ai pensé qu'il pourrait être intéressant de tester Opus 4.5 sur une question SQL. J'ai envoyé une requête SQL fonctionnelle mais très inefficace. 

-- Find customers who placed orders above their average order value in 2024
SELECT 
    c.customer_id,
    c.customer_name,
    o.order_id,
    o.order_date,
    o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
WHERE o.order_date >= '2024-01-01'
    AND o.order_date < '2025-01-01'
    AND o.order_total > (
        SELECT AVG(o2.order_total)
        FROM orders o2
        WHERE o2.customer_id = c.customer_id
    )
    AND c.customer_id IN (
        SELECT DISTINCT o3.customer_id
        FROM orders o3
        WHERE o3.order_date >= '2024-01-01'
    )
    AND EXISTS (
        SELECT 1
        FROM customer_preferences cp
        WHERE cp.customer_id = c.customer_id
            AND cp.email_opt_in = 1
    )
ORDER BY (
    SELECT COUNT(*)
    FROM orders o4
    WHERE o4.customer_id = c.customer_id
) DESC;

J'ai demandé à Opus 4.5 d'améliorer la requête. Il m'a fourni une réponse en une seconde environ.

-- Find customers who placed orders above their average order value in 2024
WITH customer_avg AS (
    SELECT 
        customer_id,
        AVG(order_total) AS avg_order_total,
        COUNT(*) AS order_count
    FROM orders
    GROUP BY customer_id
)
SELECT 
    c.customer_id,
    c.customer_name,
    o.order_id,
    o.order_date,
    o.order_total
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN customer_avg ca ON c.customer_id = ca.customer_id
JOIN customer_preferences cp ON c.customer_id = cp.customer_id
WHERE o.order_date >= '2024-01-01'
    AND o.order_date < '2025-01-01'
    AND o.order_total > ca.avg_order_total
    AND cp.email_opt_in = 1
ORDER BY ca.order_count DESC;

Entre autres, Opus 4.5 a remplacé la sous-requête corrélée pour AVG par un CTE. (La requête initiale recalculait AVG(order_total) pour chaque ligne évaluée, mais la CTE calcule désormais la moyenne de chaque client une seule fois au préalable.) Opus 4.5 a également supprimé la clause redondante « IN (SELECT DISTINCT ...) », qui effectuait un travail supplémentaire inutile. Et cela a converti la sous-requête « EXISTS » en « JOIN », ce qui est plus approprié.

Claude Opus 4.5 Agents et capacités d'action

Cette dernière publication d'Anthropic comporte d'autres points saillants. Examinons cela plus en détail : 

Caractéristiques de la plateforme pour développeurs

Anthropic a ajouté plusieurs nouveaux modules pour les développeurs. Le plus remarquable est leparamètre d'effort d' , qui vous permet de contrôler le niveau de réflexion du modèle avant qu'il ne réponde. Réglez-le à un niveau bas pour les tâches rapides et légères ; réglez-le à un niveau plus élevé lorsque vous avez besoin que le modèle effectue une tâche plus complexe. 

Selon Anthropic, avec un effort moyen, Opus 4.5 obtient le même score SWE-bench que Sonnet 4.5 tout en utilisant 76 % de jetons de sortie en moins. À effort élevé, il surpasse Sonnet de plus de 4 %, tout en utilisant près de la moitié des jetons.

La gestion du contexte et la mémoire ont également été améliorées. Pour les agents fonctionnant sur une longue durée, Claude est désormais en mesure de résumer automatiquement le contexte antérieur afin d'éviter toute interruption en cours de tâche. Ceci s'associe à la compression contextuelle, qui permet aux agents de fonctionner plus longtemps avec moins d'intervention.

Enfin, Opus 4.5 semble particulièrement performant en matière d'orchestration multi-agents, ce qui signifie qu'il est capable de gérer une équipe de sous-agents. 

Claude Opus 4.5 Recherche approfondie

Il semble que les performances d'Opus 4.5 lors d'une évaluation approfondie aient augmenté d'environ 15 %.

J'ai évalué la capacité de recherche approfondie par moi-même. J'ai demandé à ce que l'on me fournisse un rapport sur les mots de vieil anglais qui subsistent aujourd'hui mais qui ne sont plus couramment utilisés, ainsi que sur la manière dont ces mots ont évolué au fil du temps. Le rapport a été préparé en sept minutes :

J'ai été très impressionné par la qualité du rapport, tant par son intérêt que par la qualité de la rédaction, l'organisation et la profondeur de la recherche. 

Il ne s'agissait pas d'un document totalement aride, saturé de termes archaïques ou désuets. Je reconnais que certaines sections auraient pu être mieux différenciées. La partie centrale du rapport était légèrement moins intéressante que le reste. Cependant, et c'est là le point essentiel, il a fait l'objet de recherches approfondies. Veuillez examiner ces citations :

De plus, j'ai appris un nouveau mot intéressant : « apricity », qui désigne la chaleur du soleil en hiver.

Claude Code

Anthropic a publié deux mises à jour pour Claude Code.

Ce que l'on appelle désormais le mode Plan permet d'élaborer des plans plus précis avant l'exécution. En pratique, cela signifie que Claude pose d'abord des questions de clarification, puis génère un fichier modifiable au format plan.md que vous pouvez examiner et modifier avant qu'il ne commence à fonctionner. L'objectif ici est de vous éviter un faux départ.

L'intégration des applications de bureau est un autre élément important. Claude Code est désormais disponible dans l'application de bureau, ce qui signifie que vous pouvez exécuter plusieurs sessions locales et distantes en parallèle. Pour reprendre l'exemple d'Anthropic : un agent corrige les bugs, un autre recherche les problèmes GitHub et un troisième met à jour la documentation.

Agents d'applications grand public

Quelques fonctionnalités ont été intégrées aux applications grand public Claude :

Claude pour Chrome permet à Claude de gérer les tâches dans les onglets de votre navigateur. Il est désormais accessible à tous les utilisateurs de Max. Considérez-le comme un agent de navigation capable de naviguer, de cliquer, de remplir des formulaires et d'extraire des informations sur plusieurs sites.

Claude pour Excel permet d'automatiser les feuilles de calcul dans Claude. Cette information avait déjà été annoncée précédemment, mais Anthropic a désormais étendu l'accès à la version bêta à tous les utilisateurs Max, Team et Enterprise, ce qui rend le projet plus concret.

La gestion des conversations longues corrige ce qui constituait une limitation gênante. Auparavant, les longues conversations atteignaient une limite de contexte et s'interrompaient, ce qui vous obligeait à entamer une nouvelle conversation. Désormais, Claude résume automatiquement les parties précédentes de la conversation en arrière-plan, ce qui libère de l'espace afin que vous ne rencontriez pas de blocage.

Résultats du benchmark Claude Opus 4.5

Opus 4.5, à l'instar des modèles Claude précédents, a été évalué à l'aide des tests de référence courants en matière de codage agentique, d'utilisation d'outils, d'utilisation d'ordinateurs et de résolution de problèmes. Voici les principaux résultats pour Opus 4.5.

Opus 4.5 obtient les meilleures notes dans la plupart des tests les plus importants. Tout ce qui implique de réaliser des tâches concrètes, comme écrire du code qui passe des tests (SWE-bench), utiliser des outils dans des flux de travail en plusieurs étapes (τ2-bench, MCP Atlas) et utiliser un ordinateur (OSWorld). Opus 4.5 est en tête, souvent de manière significative. 

L'écart dans l'utilisation des outils à l'échelle est en réalité très important : 62,3 % par rapport à 43,8 % pour le deuxième meilleur, qui est également Claude ! Cependant, cela démontre à quel point Anthropic s'investit dans l'amélioration de ses performances, en particulier dans les tâches d'agentivité. Bien que leur ancien modèle soit actuellement en tête dans certaines catégories, cela ne les empêche pas de poursuivre leurs efforts.

Il semble que Gemini 3 Pro ait un avantage dans certains benchmarks exigeants en matière de connaissances, tels que le raisonnement de niveau universitaire (GPQA Diamond) et les questions-réponses multilingues (MMMLU). Ces critères d'évaluation récompensent probablement la richesse des données d'entraînement et le raisonnement rigoureux plutôt que la mémorisation de faits, et Google, bien entendu, dispose de nombreuses ressources.

Progrès en matière de sécurité et d'alignement

Les améliorations apportées par Anthropic ne concernent pas uniquement le codage, la recherche et l'utilisation des ordinateurs. L'accent est mis sur la sécurité, affirmant que ce modèle est le plus sûr et le « plus robuste » qu'ils aient jamais commercialisé. 

Cette affirmation est étayée par une réduction de ce qu'ils appellent le « score de comportement préoccupant », qui est inférieur à celui des autres modèles 4.5, ainsi qu'à celui du GPT-5.1 et du Gemini 3 Pro. Anthropic a également renforcé la robustesse d'Opus 4.5 contre les attaques par injection de prompt, qui peuvent induire le modèle en erreur et le pousser à adopter un comportement préjudiciable. 

Prix et disponibilité de Claude 4.5 Opus

Claude Opus 4.5 est désormais disponible sur l'ensemble de la gamme de produits Anthropic, y compris l'application Claude, l'API et les trois principales plateformes cloud. Les développeurs peuvent y accéder directement via l'ID du modèle claude-opus-4-5-20251101.

Les prix ont également connu une baisse significative. À 5 dollars par million de jetons d'entrée et 25 dollars par million de jetons de sortie( ), Opus 4.5 rend les capacités de pointe d'Anthropic beaucoup plus accessibles.

Pour les utilisateurs professionnels, ce changement de tarification pourrait s'avérer particulièrement significatif. La combinaison d'un coût réduit, d'un accès API étendu et d'une plus grande disponibilité auprès des fournisseurs de services cloud positionne Opus 4.5 comme une option compétitive.

Conclusion

Claude Opus 4.5 est la déclaration la plus claire à ce jour d'Anthropic sur la place qu'elle s'attribue dans la course à l'IA. Alors que Google privilégie la compréhension multimodale et les modèles intégrés aux appareils, Anthropic mise fortement sur les actions : codage agentique, utilisation d'outils et interaction informatique. 

Les résultats des tests de performance sont éloquents : Opus 4.5 obtient les meilleurs résultats jamais enregistrés dans les tests de performance en génie logiciel et gère le débogage multisystème sans nécessiter beaucoup d'assistance.

Mes tests confirment les résultats des tests de performance : Opus 4.5 est particulièrement performant pour les tâches en plusieurs étapes. Qu'il s'agisse d'exécuter des simulations Bootstrap ou de synthétiser des recherches issues de différents articles, le modèle abordait les problèmes comme le ferait un penseur : de manière adaptative et avec un raisonnement clair. Je pense que si vous cherchez à améliorer vos flux de travail, c'est ce qui importe.

Si vous souhaitez en savoir plus sur les modèles Claude, je vous recommande de suivre le cours Introduction aux modèles Claude.

Claude Opus 4.5 - Questions fréquentes

En quoi Claude Opus 4.5 diffère-t-il de Sonnet 4.5 et Haiku 4.5 ?

Opus 4.5 est le modèle le plus performant, conçu pour le raisonnement complexe, le codage et les tâches de longue durée. Sonnet 4.5 offre un équilibre entre performances et coût, tandis que Haiku 4.5 est optimisé pour la vitesse et l'efficacité.

Où puis-je accéder à Claude Opus 4.5 ?

Il est accessible via les applications web et mobiles Claude, l'API Claude et toutes les principales plateformes cloud, ce qui facilite son intégration dans différents flux de travail.

Anthropic a-t-il amélioré les capacités contextuelles ou mémorielles de Claude ?

Oui. Opus 4.5 offre une gestion du contexte plus performante, une gestion des conversations plus longue et une synthèse améliorée pour prendre en charge le raisonnement étendu et les tâches en plusieurs étapes.

Quelles normes de sécurité Opus 4.5 respecte-t-il ?

Il répond aux normes de sécurité les plus élevées d'Anthropic, avec des améliorations majeures en matière d'alignement, une réduction des scores de « comportement préoccupant » et une plus grande résistance aux attaques par injection de prompt.

Quels types de cas d'utilisation tirent le meilleur parti d'Opus 4.5 ?

Opus 4.5 est particulièrement adapté aux raisonnements complexes en plusieurs étapes, tels que le débogage, la recherche et l'orchestration multi-agents. Pour des tâches plus simples ou plus rapides, Sonnet ou Haiku peuvent s'avérer plus rentables.


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 


Matt Crabtree's photo
Author
Matt Crabtree
LinkedIn

Rédacteur et éditeur de contenu dans le domaine des technologies de l'information et de la communication. Vous êtes déterminé à explorer les tendances en matière de données et enthousiaste à l'idée d'apprendre la science des données.

Sujets

Apprenez avec DataCamp

Cours

Comprendre l'intelligence artificielle

2 h
350K
Découvrez les bases de l’intelligence artificielle : machine learning, deep learning, NLP, IA générative et bien plus encore.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Découvrez les principaux types d'agents d'intelligence artificielle, comment ils interagissent avec les environnements et comment ils sont utilisés dans les différents secteurs d'activité. Comprendre les agents réflexes simples, les agents basés sur un modèle, les agents basés sur un but, les agents basés sur l'utilité, les agents d'apprentissage, etc.
Vinod Chugani's photo

Vinod Chugani

14 min

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !
Kurtis Pykes 's photo

Kurtis Pykes

15 min

blog

Les 50 meilleures questions et réponses d'entretien sur AWS pour 2025

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles.
Zoumana Keita 's photo

Zoumana Keita

15 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

Didacticiel

30 astuces Python pour améliorer votre code, accompagnées d'exemples

Nous avons sélectionné 30 astuces Python intéressantes que vous pouvez utiliser pour améliorer votre code et développer vos compétences en Python.
Kurtis Pykes 's photo

Kurtis Pykes

Didacticiel

Tableaux Python

Tableaux Python avec exemples de code. Découvrez comment créer et imprimer des tableaux à l'aide de Python NumPy dès aujourd'hui.
DataCamp Team's photo

DataCamp Team

Voir plusVoir plus