Accéder au contenu principal

DeepSeek R1 : Caractéristiques, comparaison avec o1, modèles distillés et plus encore

Bénéficiez de connaissances essentielles pour naviguer dans l’IA et l’intégrer de manière sûre et efficace dans l'entreprise.
Actualisé 6 févr. 2025  · 8 min de lecture

DeepSeek vient d'annoncer DeepSeek-R1, la prochaine étape de son travail sur les modèles de raisonnement. Il s'agit d'une mise à niveau par rapport à la version précédente DeepSeek-R1-Lite-Preview et elle montre le sérieux de l'entreprise dans sa volonté de concurrencer OpenAI o1.

OpenAI prévoit de lancer o3 dans le courant de l'année, et il est clair que la concurrence s'intensifie en matière de modèles de raisonnement. Même si DeepSeek accuse un léger retard dans certains domaines, sa nature open source en fait un choix intéressant pour la communauté de l'IA.

Dans ce blog, je détaillerai les principales caractéristiques de DeepSeek-R1, son processus de développement, ses modèles distillés, ses modalités d’accès, ses tarifs ainsi qu’une comparaison avec les modèles d'OpenAI.

Qu'est-ce que DeepSeek-R1 ?

DeepSeek-R1 est un modèle de raisonnementopen source développé par DeepSeek, une entreprise chinoise spécialisée dans l'IA, pour traiter les tâches nécessitant une inférence logique, la résolution de problèmes mathématiques et une prise de décision en temps réel.

Ce qui distingue les modèles de raisonnement tels que DeepSeek-R1 et OpenAI o1 des modèles de langage traditionnels, c'est leur capacité à montrer comment ils sont parvenus à une conclusion.

exemple de raisonnement montré à l'aide de deepseek r1 deepthink

DeepSeek-R1 vous permet de suivre sa logique, la rend plus facile à comprendre et, si nécessaire, vous pouvez contester ses résultats. Cette capacité donne aux modèles de raisonnement un avantage dans les domaines où les résultats doivent pouvoir être expliqués, comme la recherche ou la prise de décision complexe.

Ce qui rend DeepSeek-R1 particulièrement compétitif et attrayant, c'est son caractère open source. Contrairement aux modèles propriétaires, sa nature open source permet aux développeurs et aux chercheurs de l'explorer, de le modifier et de le déployer dans certaines limites techniques, telles que ses exigences en matière de ressources.

Comment DeepSeek-R1 a-t-il été développé ?

Dans cette section, je vais vous expliquer comment DeepSeek-R1 a été développé, en commençant par son prédécesseur, DeepSeek-R1-Zero.

DeepSeek-R1-Zero

DeepSeek-R1 a commencé avec R1-Zero, un modèle entièrement entraîné à l’aide de l'apprentissage par renforcement. Cette approche lui a permis de développer de fortes capacités de raisonnement, mais elle présente des inconvénients majeurs. Les résultats étaient souvent difficiles à lire et le modèle mélangeait parfois plusieurs langues dans ses réponses. Ces limitations rendaient R1-Zéro moins pratique pour les applications concrètes.

Les défis de l'apprentissage par renforcement pur

Le recours à l'apprentissage par renforcement pur a permis d'obtenir des résultats logiquement corrects, mais mal structurés. Sans l'aide de données supervisées, le modèle avait du mal à communiquer son raisonnement de manière efficace. Cela constituait un obstacle pour les utilisateurs qui avaient besoin de clarté et de précision dans les résultats.

Améliorations avec DeepSeek-R1

Pour résoudre ces problèmes, DeepSeek a modifié le développement de R1 en combinant l'apprentissage par renforcement à des ajustements supervisés. Cette approche hybride intégrait des ensembles de données triés sur le volet, améliorant ainsi la lisibilité et la cohérence du modèle. Les problèmes tels que le mélange des langues et le raisonnement fragmenté ont été considérablement réduits, ce qui rend le modèle plus adapté à une utilisation pratique.

Si vous voulez en savoir plus sur le développement de DeepSeek-R1, je vous recommande de lire le communiqué de presse.

Modèles distillés de DeepSeek-R1

La distillation en IA est le processus qui consiste à créer des modèles plus petits et plus efficaces à partir de modèles plus grands, en préservant une grande partie de leur puissance de raisonnement mais en réduisant les exigences en matière de calcul. DeepSeek a appliqué cette technique pour créer une suite de modèles distillés à partir de R1, à l’aide des architectures Qwen et Llama.

Source : Communiqué de presse de DeepSeek

Modèles distillés basés sur Qwen

Les modèles distillés de DeepSeek, basés sur Qwen, se concentrent sur l'efficacité et l'évolutivité, et offrent un équilibre entre performances et exigences de calcul.

DeepSeek-R1-Distill-Qwen-1.5B

Il s'agit du plus petit modèle distillé, qui a obtenu 83,9 % au MATH-500. Le MATH-500 teste la capacité à résoudre des problèmes mathématiques de niveau secondaire avec un raisonnement logique et des solutions en plusieurs étapes. Ce résultat montre que le modèle gère bien les tâches mathématiques de base malgré sa taille compacte.

Ses performances chutent toutefois de manière significative sur LiveCodeBench (16,9 %), un test de référence conçu pour évaluer les capacités de codage, ce qui révèle ses capacités limitées dans les tâches de programmation.

DeepSeek-R1-Distill-Qwen-7B

Qwen-7B brille au MATH-500, avec un score de 92,8 %, démontrant ses fortes capacités de raisonnement mathématique. Il obtient également d'assez bons résultats au GPQA Diamond (49,1 %), qui évalue la réponse à des questions factuelles, ce qui indique un bon équilibre entre le raisonnement mathématique et le raisonnement factuel.

Toutefois, ses performances sur LiveCodeBench (37,6 %) et CodeForces (1 189 points) suggèrent qu'il est moins adapté aux tâches de codage complexes.

DeepSeek-R1-Distill-Qwen-14B

Ce modèle obtient de bons résultats au MATH-500 (93,9 %), ce qui témoigne de sa capacité à traiter des problèmes mathématiques complexes. Son score de 59,1 % au GPQA Diamond indique également sa compétence en matière de raisonnement factuel.

Ses performances sur LiveCodeBench (53,1 %) et CodeForces (1 481 points) montrent qu'il a une marge de progression pour les tâches de codage et de raisonnement spécifiques à la programmation.

DeepSeek-R1-Distill-Qwen-32B

Le plus grand modèle basé sur Qwen obtient le score le plus élevé parmi ses pairs sur AIME 2024 (72,6 %), qui évalue le raisonnement mathématique avancé en plusieurs étapes. Il excelle également au MATH-500 (94,3 %) et au GPQA Diamond (62,1 %), ce qui démontre sa force en matière de raisonnement mathématique et factuel.

Ses résultats sur LiveCodeBench (57,2 %) et CodeForces (1 691 points) indiquent qu'il est polyvalent, mais pas encore optimisé pour les tâches de programmation par rapport aux modèles spécialisés dans le codage.

Modèles distillés basés sur Llama

Les modèles distillés de DeepSeek, basés sur Llama, privilégient les performances élevées et les capacités de raisonnement avancées, et excellent particulièrement dans les tâches nécessitant une précision mathématique et factuelle.

DeepSeek-R1-Distill-Llama-8B

Llama-8B obtient de bons résultats au MATH-500 (89,1 %) et des résultats raisonnables au GPQA Diamond (49,0 %), ce qui indique qu'il est capable de gérer des raisonnements mathématiques et factuels. Il obtient toutefois de moins bons résultats dans les tests de codage tels que LiveCodeBench (39,6 %) et CodeForces (note de 1 205), ce qui souligne ses limites dans les tâches liées à la programmation par rapport aux modèles basés sur Qwen.

DeepSeek-R1-Distill-Llama-70B

Le plus grand modèle distillé, Llama-70B, offre des performances de premier plan au MATH-500 (94,5 %), les meilleures parmi tous les modèles distillés, et obtient un score élevé de 86,7 % sur AIME 2024, ce qui en fait un excellent choix pour le raisonnement mathématique avancé.

Il obtient également de bons résultats sur LiveCodeBench (57,5 %) et CodeForces (1 633 points), ce qui suggère qu'il est plus compétent dans les tâches de codage que la plupart des autres modèles. Dans ce domaine, il est au même niveau que les modèles o1-mini ou GPT-4o d’OpenAI.

Modalités d’accès à DeepSeek-R1

Vous pouvez principalement accéder à DeepSeek-R1 selon deux moyens : la plateforme DeepSeek Chat sur le web et l'API DeepSeek, ce qui vous permet de choisir l'option la plus adaptée à vos besoins.

Accès sur le web : Plateforme DeepSeek Chat

La plateforme DeepSeek Chat offre un moyen simple d'interagir avec DeepSeek-R1. Pour y accéder, vous pouvez soit vous rendre directement sur la page de chat ou cliquer sur Ouvrir le chat sur la page d'accueil.

Page d'accueil de Deepseek

Après vous être inscrit, vous pouvez sélectionner le mode « Réflexion profonde » pour découvrir les capacités de raisonnement étape par étape de Deepseek-R1.

interface de chat de deepseek montrant l'option deepthink pour activer deepseek-r1

Accès à l'API : API de DeepSeek

Pour intégrer DeepSeek-R1 dans vos applications, l'API DeepSeek fournit un accès programmatique.

Pour commencer, vous devez obtenir une clé API en vous inscrivant sur la plateforme DeepSeek.

L'API est compatible avec le format d'OpenAI, ce qui facilite l'intégration si vous êtes familiarisé avec les outils d'OpenAI. Vous trouverez plus d'instructions dans la documentation de l’API de DeepSeek.

Tarifs de DeepSeek-R1

Depuis le 21 janvier 2025, l'utilisation de la plateforme de chat est gratuite, mais elle est limitée à 50 messages par jour en mode « Réflexion profonde ». Cette limitation en fait un outil idéal pour un usage léger ou pour la découverte.

L'API propose deux modèles :deepseek-chat (DeepSeek-V3 et deepseek-reasoner DeepSeek-R1) - avec la structure de prix suivante (pour 1 million de jetons) :

MODÈLE

LONGUEUR DU CONTEXTE

MAX. DE JETONS DE CHAÎNE DE RÉFLEXION

MAX. DE JETONS EN SORTIE

PRIX POUR 1 MILLION

DE JETONS EN ENTRÉEPRIX POUR 1 MILLION

DE JETONS EN ENTRÉE

(PRÉSENTS DANS LE CACHE)PRIX EN ENTRÉE

(PRÉSENTS DANS LE CACHE)PRIX POUR 1 MILLION

DE JETONS EN ENTRÉE

(ABSENTS DU CACHE)PRIX POUR 1 MILLION

DE JETONS EN SORTIE

deepseek-chat

64 000

-

8 000

0,07 $

0,014 $

0,27 $

0,14 $

1,10 $

0,28 $

deepseek-reasoner

64 000

32 000

8 000

0,14 $

0,55 $

2,19 $

Source : Page des tarifs de DeepSeek

Pour vous assurer de disposer des informations tarifaires les plus récentes et comprendre comment calculer le coût du raisonnement CoT (Chain-of-Thought ou chaîne de réflexion), rendez-vous sur la page des tarifs de DeepSeek.

DeepSeek-R1 et OpenAI o1 : Performance de référence

DeepSeek-R1 est en concurrence directe avec OpenAI o1 sur plusieurs points de référence, égalant ou dépassant souvent OpenAI o1.

Source : Communiqué de presse de DeepSeek

Points de référence en mathématiques : AIME 2024 et MATH-500

Dans les tests mathématiques, DeepSeek-R1 fait preuve d'excellentes performances. Sur AIME 2024, qui évalue le raisonnement mathématique avancé à plusieurs étapes, DeepSeek-R1 obtient un score de 79,8 %, légèrement supérieur à celui d'OpenAI o1-1217, qui est de 79,2 %.

Sur MATH-500, DeepSeek-R1 prend la tête avec un score impressionnant de 97,3 %, dépassant légèrement OpenAI o1-1217, qui affiche 96,4 %. Ce test de référence évalue les modèles sur plusieurs problèmes mathématiques de niveau secondaire nécessitant un raisonnement détaillé.

Points de référence en codage : Codeforces et SWE-bench Verified

Le point de référence Codeforces évalue les capacités de codage et de raisonnement algorithmique d'un modèle, sous la forme de rang percentile par rapport à des participants humains. OpenAI o1-1217 arrive en tête avec 96,6 %, tandis que DeepSeek-R1 obtient un résultat très compétitif de 96,3 %, avec seulement une différence mineure.

Le point de référence SWE-bench Verified évalue le raisonnement dans les tâches d'ingénierie logicielle. DeepSeek-R1 obtient d'excellents résultats avec un score de 49,2 %, légèrement supérieur à celui d'OpenAI o1-1217 (48,9 %). Ce résultat positionne DeepSeek-R1 comme un concurrent de taille pour les tâches de raisonnement spécialisées telles que la vérification de logiciels.

Points de référence en culture générale : GPQA Diamond et MMLU

Pour le raisonnement factuel, GPQA Diamond mesure la capacité à répondre à des questions de culture générale. DeepSeek-R1 obtient un score de 71,5 %, talonnant OpenAI o1-1217, qui atteint 75,7 %. Ce résultat met en évidence le léger avantage de l'OpenAI o1-1217 dans les tâches de raisonnement factuel.

Sur MMLU, un point de référence qui couvre plusieurs disciplines et évalue la compréhension linguistique multitâche, OpenAI o1-1217 devance légèrement DeepSeek-R1, avec un score de 91,8 % contre 90,8 % pour DeepSeek-R1.

Conclusion

DeepSeek-R1 est un concurrent de taille dans le domaine de l'IA axée sur le raisonnement, avec des performances équivalentes à celles de d'OpenAI o1. Bien que l'o1 d'OpenAI puisse avoir un léger avantage en matière de codage et de raisonnement factuel, je pense que la nature open source et l'accès abordable à DeepSeek-R1 en font un choix séduisant.

Alors qu'OpenAI se prépare à lancer o3, je suis impatient de voir comment cette compétition croissante façonnera l'avenir des modèles de raisonnement. Pour l'instant, DeepSeek-R1 est une alternative convaincante.

FAQ

Comment DeepSeek-R1 gère-t-il les requêtes multilingues ?

DeepSeek-R1 est optimisé pour l'anglais et le chinois, mais ses performances peuvent se dégrader pour les requêtes dans d'autres langues. Certains résultats peuvent mélanger l'anglais et le chinois, en particulier lorsqu'il s'agit de tâches de raisonnement. De futures mises à jour devraient remédier à cette limitation.

DeepSeek-R1 peut-il être perfectionné pour des tâches ou des secteurs d’activité spécifiques ?

Oui, en tant que modèle open source, DeepSeek-R1 peut être affiné pour des tâches spécifiques, à condition que vous disposiez des ressources informatiques et des données nécessaires. Cette flexibilité le rend particulièrement intéressant pour les chercheurs et les organisations qui ont besoin d'applications spécifiques à un domaine.

Y a-t-il des limites à la longueur des résultats de DeepSeek-R1 en sortie ?

Oui, les limites de jetons de sortie pour DeepSeek-R1 varient en fonction de la méthode d'accès. Par exemple, le modèle deepseek-reasoner de l'API prend en charge une longueur de sortie maximale de 8 000 jetons, ce qui comprend les étapes du raisonnement (chaîne de réflexion) et la réponse finale.

Quel type de matériel informatique est nécessaire pour exécuter DeepSeek-R1 localement ?

L'exécution locale de DeepSeek-R1 ou de ses modèles distillés nécessite des GPU ou des TPU très performants, en particulier pour les modèles les plus importants comme DeepSeek-R1-Distill-Llama-70B. Les versions distillées plus petites, telles que Qwen-1.5B, sont plus adaptées aux systèmes disposant de ressources limitées.

Comment fonctionne la mise en cache du contexte dans l'API de DeepSeek et en quoi permet-elle des économies ?

La mise en cache du contexte permet de stocker les jetons d'entrée répétés afin de réduire les coûts. Par exemple, si vous réutilisez des entrées dans des conversations à plusieurs tours, le système récupère ces jetons dans le cache à un prix nettement inférieur. Cette fonction est particulièrement utile pour les workflows comportant des requêtes répétitives.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Je suis l'homme de tous les métiers, le maître de Python, du marketing et de la stratégie de contenu, du référencement, de la rédaction, de l'écriture. Technicien - j'ai donné des cours sur Python, les statistiques et les probabilités. Mais j'ai également publié un roman primé. Montage vidéo et étalonnage dans DaVinci.

Sujets

machine

Certification disponible

cours

https://www.datacamp.com/category/artificial-intelligence

3 hr
31.8K
Travailler avec l'API OpenAI Commencez à développer des applications utilisant l'IA avec l'API OpenAI.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow