Accéder au contenu principal

Claude 3.7 Sonnet : Fonctionnalités, accès, points de repère et plus encore

Découvrez l'approche hybride de Claude 3.7 Sonnet qui combine le mode raisonné et le mode généraliste, les principales références et comment y accéder via le web ou l'API.
Actualisé 25 févr. 2025  · 8 min de lecture

Anthropic vient de faire sa plus grosse annonce depuis un moment avec la sortie de Claude 3.7 Sonnet. Bien que le numéro de version ne suggère qu'un progrès incrémental, nous pensons qu'il s'agit d'une amélioration significative par rapport à Claude 3.5 Sonnet. Claude 3.5 Sonnet.

Tout d'abord, Claude 3.7 Sonnet introduit le mode réflexion, qui nous permet de voir le processus de réflexion du modèle. Anthropic entre donc enfin dans l'arène des modèles de raisonnement, et d'après les benchmarks, c'est un concurrent digne de ce nom pour les modèles de raisonnement suivants OpenAI, o3-mini, DeepSeek-R1d'OpenAI et Grok 3.

Deuxièmement, Claude 3.7 Sonnet peut passer du mode raisonnement au mode généraliste en appuyant sur un bouton (plus d'informations à ce sujet dans un instant). Bien qu'Anthropic affirme avoir "une philosophie différente", ce changement reflète une tendance croissante à l'unification de l'expérience de l'utilisateur dans les LLM basés sur le chat. Grok 3 fonctionne déjà de cette manière, et Sam Altman a récemment annoncé que ChatGPT suivrait une direction similaire.

Ce qui nous déçoit, c'est que Thinking Mode est enfermé derrière un paywall. Étant donné que les modèles de raisonnement sont de plus en plus courants, il est difficile de justifier cette décision alors que vous pouvez déjà accéder à des versions gratuites, bien que parfois limitées, par l'intermédiaire de Grok, DeepSeek, Qwen et même ChatGPT.

Découvrons l'essentiel de Claude 3.7 Sonnet.

L'amélioration de l'IA pour les débutants

Apprenez les bases de l'IA et du ChatGPT en partant de zéro.
Apprendre l'IA gratuitement

Qu'est-ce que le sonnet Claude 3.7 ?

Claude 3.7 Sonnet est le dernier modèle d'IA d'Anthropic, positionné comme une étape majeure dans le raisonnement, le codage et la résolution de problèmes réels. Le changement le plus important est que Claude 3.7 Sonnet supporte maintenant le mode réflexion, ce qui nous permet de voir le processus de raisonnement étape par étape du modèle. Voyons comment cela fonctionne :

Les modèles de raisonnement deviennent de plus en plus importants et courants, et nous comprenons pourquoi. Si vous regardez le graphique ci-dessous, vous remarquerez que 37,2 % des utilisateurs s'appuient sur Claude pour des questions de codage et de mathématiques, d'après l'Indice économique anthropique. Cela me dit une chose : des modèles de raisonnement solides peuvent apporter une réelle valeur ajoutée aux entreprises, d'autant plus que l'adoption de l'IA dans les entreprises reste faible.

indice économique antrophique

Source : Indice économique antrophique

En même temps, Claude 3.7 n'est pas seulement un modèle de raisonnement, c'est un hybride. Nous pouvons basculer entre le mode réflexion (pour les tâches de raisonnement structuré) et un mode de discussion standard pour la conversation générale, la rédaction et le résumé.

Claude 3.7 Sonnet vs. Claude 3.5 Sonnet

Claude 3.7 Sonnet est une mise à jour bien plus importante que ne le laisse supposer le numéro de version. Les données de référence confirment qu'il surpasse Claude 3.5 Sonnet en matière de raisonnement, de codage et d'exécution de tâches dans le monde réel.

Performance de l'ingénierie logicielle

Claude 3.7 Sonnet montre un net avantage dans le domaine du génie logiciel, avec un score de précision de 62,3% dans le banc SWE vérifié, un bond significatif par rapport aux 49,0% de Claude 3.5 Sonnet. En utilisant un échafaudage personnalisé (une invite structurée ou un contexte supplémentaire qui aide à guider la réponse du modèle vers une solution plus précise), cette précision passe à 70,3 %, ce qui en fait le modèle le plus performant dans cette catégorie.

swe-bench a vérifié que les mesures claude 3.7 sonnet

Source : Anthropique

Une amélioration de près de 13 % de la précision entre les versions du modèle n'est pas un simple raffinement. Cela suggère que Claude 3.7 Sonnet a été optimisé pour une meilleure compréhension et exécution des tâches liées à la programmation. Pour les utilisateurs qui utilisent Claude pour l'ingénierie logicielle, le débogage ou l'automatisation, la mise à jour fait une différence tangible.

Utilisation d'outils agentiques

La performance dans l'utilisation des outils agentiques est un autre domaine dans lequel Claude 3.7 Sonnet surpasse son prédécesseur. Dans les tâches liées à la vente au détail, il atteint une précision de 81,2 %, contre 71,5 % pour Claude 3.5 Sonnet. Dans les tâches liées aux compagnies aériennes, il obtient un score de 58,4 %, soit une amélioration de près de dix points par rapport à la version précédente.

repères sur l'utilisation des outils agentiques pour le sonnet claude 3.7

Source : Anthropique

Critères de référence généraux

Sur l'ensemble des critères, les gains les plus importants proviennent du mode de réflexion étendu, qui permet à Claude 3.7 d'atteindre un niveau de performance beaucoup plus élevé dans les tâches de raisonnement complexes. Les utilisateurs qui s'appuient sur l'IA pour des flux de travail structurés, le codage ou la résolution de problèmes verront une nette différence entre Claude 3.5 et Claude 3.7, en particulier lors de l'utilisation de la pensée élargie.

claude 3.7 critères de référence globaux

Source : Anthropique

La plupart de ces progrès sont dus à la pensée élargie de Claude.

La pensée élargie de Claude

Lorsqu'il est activé, le mode de réflexion approfondie augmente le nombre d'étapes de raisonnement que Claude effectue avant de finaliser une réponse. Les développeurs peuvent affiner ce processus en fixant un budget de réflexion, qui définit le nombre de jetons que le modèle peut utiliser pour résoudre un problème. Comme le montre le graphique des performances de l'AIME 2024 ci-dessous, la précision s'améliore au fur et à mesure que le nombre de jetons alloués augmente, suivant une tendance logarithmique.

claude 3.7 sonnet performance on aime 2024 as more tokens are used

Source : Anthropique

Cette approche reflète l'effort cognitif humain : pour les tâches simples, des réponses rapides suffisent, mais pour les tâches complexes, une analyse plus approfondie permet d'obtenir de meilleurs résultats. Claude peut désormais décider de faire une pause, de réévaluer et d'affiner son raisonnement plutôt que de réagir immédiatement par défaut.

L'un des aspects les plus intéressants du mode de réflexion étendu est que le processus de raisonnement de Claude est visible pour l'utilisateur. Cette caractéristique soulève toutefois quelques difficultés. Bien qu'il donne un aperçu du raisonnement de l'IA, le processus de pensée affiché ne correspond pas toujours parfaitement à la façon dont le modèle prend réellement ses décisions. Le "problème de la fidélité" - à savoir si les pensées déclarées par une IA représentent fidèlement ses mécanismes internes - reste une question de recherche ouverte.

Claude 3.7 La capacité de Sonnet à s'engager dans un raisonnement itératif à long terme est testée dans des évaluations telles que OSWorld et le jeu Pokémon Red. Dans Pokémon Rouge, par exemple, Claude 3.7 Sonnet progresse beaucoup plus vite dans le jeu que les versions précédentes, franchissant plusieurs étapes alors que les modèles antérieurs restaient bloqués au début du jeu.

claude 3.7 sonnet performance sur le jeu pokemon

Source : Anthropique

Claude 3.7 Sonnet Benchmarks

Nous avons vu comment Claude 3.7 Sonnet se comporte par rapport à sa version précédente, mais comment se compare-t-il à o3-mini d'OpenAI, DeepSeek-R1, ou Grok 3 ?

Si l'on examine les nouveaux critères, Claude 3.7 Sonnet s'est positionné comme l'un des modèles les plus performants, en particulier pour les tâches de raisonnement, le codage et l'utilisation d'outils agentiques.

Raisonnement et mathématiques

Dans le raisonnement de niveau supérieur (GPQA Diamond), Claude 3.7 Sonnet obtient un score de 68,0 % en mode standard et de 84,8 % en mode de réflexion étendue, ce qui en fait l'un des modèles les plus forts dans cette catégorie. Il surpasse o1 (78,0 %) et DeepSeek-R1 (71,5 %) d'OpenAI d'une manière significative et Grok 3 Beta (84,6 %) d'une petite marge .

Référence

Claude 3.7 Sonnet (standard)

Claude 3.7 Sonnet (réflexion approfondie)

OpenAI o1

OpenAI o3-mini (haut)

DeepSeek R1

Grok 3 Beta

GPQA Diamond (raisonnement au niveau du diplôme)

68.0%

84.8%

78.0%

79.7%

71.5%

84.6%

AIME 2024 (Concours de mathématiques pour les lycées)

23.3%

80.0%

83.3%

87.3%

79.8%

93.3%

Résolution de problèmes mathématiques (MATH 500)

82.2%

96.2%

96.4%

97.9%

97.3%

-

L'indice de référence AIME 2024, qui teste les problèmes de concours de mathématiques de l'enseignement secondaire, montre une tendance similaire. Claude 3.7 Sonnet fait un grand bond en avant par rapport aux versions précédentes, obtenant un score de 80,0 % avec l'option de réflexion étendue activée. Bien qu'il dépasse DeepSeek-R1 (79,8 %) d'une petite marge, il reste à la traîne derrière o3-mini d'OpenAI (87,3 %) et Grok 3 Beta (93,3 %).

En résolution de problèmes mathématiques (MATH 500), Claude 3.7 Sonnet obtient 96,2 %, ce qui le rapproche de OpenAI's o3-mini (97,9 %) et de DeepSeek R1 (97,3 %).

Codage et utilisation d'outils agentiques

Claude 3.7 Sonnet réalise ses gains les plus importants dans les benchmarks de codage. Sur SWE-bench Verified (qui évalue les modèles d'IA sur des tâches de génie logiciel), Claude 3.7 Sonnet obtient un score de 62,3 %, qui passe à 70,3 % avec un échafaudage personnalisé. Il devance ainsi largement les modèles o1 (48,9 %) et o3-mini (49,3 %) d'OpenAI, ainsi que DeepSeek R1 (49,2 %), qui a été conçu dans une optique de codage. Cela confirme que Claude 3.7 est désormais l'un des meilleurs models d'IA pour les tâches liées à la programmation.

Référence

Claude 3.7 Sonnet (standard)

Claude 3.7 Sonnet (échafaudage personnalisé)

OpenAI o1

OpenAI o3-mini (haut)

DeepSeek R1

Banc d'essai SWE vérifié (codage)

62.3%

70.3%

48.9%

49.3%

49.2%

TAU-bench Retail (Tool Use)

81.2%

-

73.5%

-

-

TAU-bench Airline (utilisation d'outils)

58.4%

-

54.2%

-

-

Au-delà du codage, Claude 3.7 Sonnet est en tête pour l'utilisation d'outils agentiques, ce qui en fait un choix judicieux pour l'automatisation et l'exécution de flux de travail. Sur TAU-bench (qui teste la capacité de l'IA à interagir avec des outils externes dans des environnements structurés), Claude 3.7 obtient un score de 81,2 % dans les tâches liées au commerce de détail, dépassant OpenAI o1 (73,5 %). Dans les tâches liées aux compagnies aériennes, Claude 3.7 atteint 58,4 %, dépassant à nouveau OpenAI o1 (54,2 %).

Cela suggère que Claude 3.7 est bien adapté aux applications professionnelles et aux flux de travail structurés, ce qui en fait un choix judicieux pour les utilisateurs professionnels qui cherchent à intégrer l'IA dans leurs processus décisionnels et opérationnels.

Comment accéder à Claude 3.7 Sonnet

Claude 3.7 Sonnet est disponible via plusieurs canaux, notamment l'interface web d'Anthropic, l'intégration de Claude dans diverses applications et l'accès API pour les développeurs. Bien que ce modèle constitue une mise à jour importante, sa disponibilité s'accompagne de certaines limitations, en particulier si vous souhaitez utiliser le mode Réflexion, qui est actuellement réservé à un niveau payant.

Accès au web et aux applications

Pour les utilisateurs généraux, Claude 3.7 Sonnet est accessible via le site officiel d'Anthropic (claude.ai) et l'application Claude. Il est disponible dans la version gratuite, mais avec des restrictions :

  • Les utilisateurs gratuits peuvent accéder à Claude 3.7 Sonnet pour des tâches de base telles que la rédaction, le résumé et les questions-réponses générales, mais le mode réflexion est désactivé.
  • Les utilisateurs de Claude Pro (plan payant de 20 $/mois) bénéficient d'un accès complet au mode réflexion, ainsi que de limites de messages plus élevées et d'un accès prioritaire pendant les heures de pointe.

Pour activer le mode réflexion, vous devez cliquer sur Étendu dans le menu déroulant du modèle :

comment activer le mode réflexion dans le sonnet claude 3.7

Claude 3.7 Accès à l'API Sonnet

Les développeurs peuvent intégrer Claude 3.7 Sonnet dans leurs applications en utilisant l'API d'Anthropic, accessible via le portail développeur d'Anthropic. L'API prend en charge un modèle de tarification à la carte basé sur l'utilisation de jetons.

Voici un aperçu de l'offre d'API d'Anthropic :

Fonctionnalité

Claude 3.7 Sonnet

Claude 3.5 Sonnet

Claude 3.5 Haïku

Claude 3 Opus

Claude 3 Haiku

Description

Notre modèle le plus intelligent

Notre précédent modèle le plus intelligent

Notre modèle le plus rapide

Un modèle puissant pour des tâches complexes

Modèle le plus rapide et le plus compact pour une réactivité quasi instantanée

Points forts

Le niveau le plus élevé d'intelligence et de capacité avec la possibilité de basculer vers un mode de pensée élargi

Niveau élevé d'intelligence et de capacité

L'intelligence à la vitesse de l'éclair

Intelligence, aisance et compréhension de haut niveau

Des performances ciblées, rapides et précises

Multilingue

Oui

Oui

Oui

Oui

Oui

Vision

Oui

Oui

Oui

Oui

Oui

Réflexion approfondie

Oui

Non

Non

Non

Non

Nom du modèle API

claude-3-7-sonnet-20250219

Version mise à jour : claude-3-5-sonnet-20241022

Version précédente : claude-3-5-sonnet-20240620

claude-3-5-haiku-20241022

claude-3-opus-20240229

claude-3-haiku-20240307

Temps de latence comparatif

Rapide

Rapide

Fastest

Moyennement rapide

Fastest

Fenêtre contextuelle

200K

200K

200K

200K

200K

Sortie maximale

Normal : 8192 jetons

Réflexion élargie: 64000 jetons

8192 jetons

8192 jetons

4096 jetons

4096 jetons

Coût (intrants / extrants par MTok)

$3.00 / $15.00

$3.00 / $15.00

$0.80 / $4.00

$15.00 / $75.00

$0.25 / $1.25

Coupure des données d'apprentissage

Oct. 2024

Avril 2024

juillet 2024

Août 2023

Août 2023

Source: Anthropique

Veillez à toujours vérifier les derniers prix de l'API.

Conclusion

Anthropic vient de faire sa plus grande avancée depuis un certain temps avec Claude 3.7 Sonnet, un modèle qui l'amène enfin dans l'espace de l'IA raisonnante. Sur la base des benchmarks, nous pouvons constater qu'il s'agit d'un concurrent légitime des OpenAI o3-mini, DeepSeek-R1 et Grok 3, avec de solides performances en matière de codage, de résolution de problèmes structurés et d'utilisation d'outils agentiques.

La possibilité de basculer entre le mode généraliste et le mode raisonnement le rend plus polyvalent, mais enfermer le Mode Réflexion derrière un mur payant semble être une erreur, surtout si l'on considère les alternatives gratuites disponibles. Claude 3.7 constitue néanmoins une avancée majeure.


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 

FAQ

Qu'est-ce que le code Claude, et comment se compare-t-il au sonnet Claude 3.7 ?

Claude Code est un modèle séparé optimisé pour le développement de logiciels, distinct de Claude 3.7 Sonnet. Alors que Claude 3.7 est un LLM généraliste avec de fortes capacités de codage, Claude Code est affiné spécifiquement pour les tâches de programmation, le débogage et l'utilisation d'outils agentiques.

Comment le Claude 3.7 Sonnet gère-t-il les contextes plus longs par rapport aux modèles précédents ?

Claude 3.7 Sonnet conserve une fenêtre contextuelle de 200 000 jetons, mais la pensée élargie lui permet de raisonner plus efficacement sur de longs documents. Alors que d'autres modèles (comme Gemini 2.0) annoncent des capacités contextuelles plus longues, Anthropic met l'accent sur le raisonnement structuré plutôt que sur la longueur de la mémoire brute.

Le Sonnet Claude 3.7 supporte-t-il la saisie multimodale ?

Oui, Claude 3.7 Sonnet inclut des capacités multimodales, ce qui signifie qu'il peut traiter et analyser des images. 

Quelles sont les améliorations en matière de sécurité apportées à Claude 3.7 Sonnet ?

Anthropic a élargi les tests de résistance à l'alignement et affiné les principes constitutionnels de l'IA, afin d'offrir de meilleures garanties contre les préjugés, la désinformation et les abus. Cependant, les tentatives de jailbreaking restent un sujet de préoccupation, car le mode de réflexion visible pourrait exposer des vulnérabilités.

Existe-t-il une application mobile Claude ?

Oui, vous pouvez accéder à Claude sur iOS et Android.

Sujets

Apprenez l'IA avec ces cours !

cursus

AI Business Fundamentals

11hrs hr
Accelerate your AI journey, conquer ChatGPT, and develop a comprehensive Artificial Intelligence strategy.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

Les 32 meilleures questions d'entretien sur AWS et leurs réponses pour 2024

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles. Il couvre tous les domaines, garantissant ainsi une stratégie de préparation bien équilibrée.
Zoumana Keita 's photo

Zoumana Keita

30 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.
Fereshteh Forough's photo

Fereshteh Forough

4 min

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Voir plusVoir plus