cursus
Les 15 meilleurs modèles de petites langues pour 2024
Les petits modèles de langage (SLM) sont compacts, efficaces et ne nécessitent pas d'énormes serveurs, contrairement aux grands modèles de langage (LLM). Ils sont conçus pour la vitesse et la performance en temps réel et peuvent fonctionner sur nos smartphones, tablettes ou smartwatches.
Dans cet article, nous examinerons les 15 meilleurs SLM de 2024 et explorerons leurs forces, leurs faiblesses et ce qui rend chaque modèle unique.
Source : Lu et al, 2024
Je vais passer directement à la discussion sur les modèles, mais si vous avez besoin d'une introduction sur les modèles de petites langues, j'ai écrit un article séparé ici : Petits modèles linguistiques : Un guide avec des exemples.
1. Qwen2 : 0,5B, 1B et 7B
Qwen2 est une famille de modèles, avec des tailles allant de 0,5 milliard à 7 milliards de paramètres. Si vous travaillez sur une application qui nécessite un modèle très léger, la version 0.5B est parfaite.
Cependant, si vous avez besoin de quelque chose de plus robuste pour des tâches telles que le résumé ou la génération de texte, le modèle 7B est celui qui vous permettra d'obtenir les meilleures performances. Il est évolutif et peut être adapté à vos besoins spécifiques.
Les modèles Qwen2 n'ont peut-être pas les mêmes capacités que les grands modèles d'IA en matière de réflexion complexe, mais ils sont parfaits pour de nombreuses utilisations pratiques où la rapidité et l'efficacité comptent le plus. Ils sont particulièrement utiles pour les applications nécessitant des réponses rapides ou des ressources limitées.
- Paramètres : Versions 0,5 milliard, 1 milliard et 7 milliards
- Accès : https://huggingface.co/Qwen
- Source ouverte : Oui, avec une licence open-source
2. Mistral Nemo 12B
Avec 12 milliards de paramètres, le modèle Mistral Nemo 12B est idéal pour les tâches NLP complexes telles que la traduction de langues et les systèmes de dialogue en temps réel. Il est en concurrence avec des modèles tels que Falcon 40B et Chinchilla 70B, mais il peut fonctionner localement sans nécessiter une infrastructure massive. C'est l'un de ces modèles qui concilient complexité et praticité.
- Paramètres : 12 milliards
- Accès : https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- Source ouverte : Oui, avec une licence Apache 2.0
Développer des applications d'IA
3. Llama 3.1 8B
Le modèle Llama 3.1 8B, qui compte 8 milliards de paramètres, offre un équilibre étonnant entre puissance et efficacité. Il est idéal pour des tâches telles que la réponse à des questions et l'analyse des sentiments.
Llama 3.1 8B offre des performances raisonnables si vous souhaitez obtenir des résultats rapides sans disposer d'une grande puissance de calcul. Il est parfait pour ceux qui recherchent la rapidité sans sacrifier la précision.
Pour obtenir une expérience pratique avec ce modèle, lisez ce tutoriel sur RAG avec Llama 3.1 8B, Ollama et Langchain.
- Paramètres : 8 milliards d'euros
- Accès : https://ollama.com/library/llama3
- Source ouverte : Oui, mais avec des restrictions d'utilisation
4. Pythie
Parlons de la série Pythia, un ensemble de modèles allant de 160 millions à 2,8 milliards de paramètres, conçus pour des tâches de raisonnement et de codage. Si vous travaillez dans le domaine du développement de logiciels, Pythia est idéal pour traiter des tâches structurées et logiques où la précision et la logique sont essentielles. Il est parfait pour les environnements de codage où vous avez besoin du modèle pour penser de manière structurée et logique.
Comparé à d'autres modèles comme GPT-Neo, Pythia est plus performant pour des tâches telles que le codage et le raisonnement, car il a été conçu pour ces applications spécifiques. Cependant, lorsque vous le lancez dans des tâches linguistiques plus générales, les choses peuvent devenir un peu plus incertaines - Phi 3.5 et Llama 3.1 8B pourraient avoir des performances plus cohérentes dans ces domaines plus larges. Il convient de noter que les options de transparence et de personnalisation de la formation publique de Pythia sont tout à fait impressionnantes. Vous pouvez l'adapter à vos besoins spécifiques, ce qui en fait un outil incroyablement flexible.
- Paramètres : 160M - 2.8B
- Accès : https://github.com/EleutherAI/pythia
- Open Source : Oui
5. Cerebras-GPT
Cerebras-GPT est un modèle efficace et rapide. Avec des paramètres allant de 111 millions à 2,7 milliards, il est conçu pour les environnements où les ressources informatiques sont limitées, mais où vous avez besoin d'une grande performance. Cerebras-GPT apporte d'excellents résultats sans épuiser vos ressources.
Comparé à des modèles plus importants comme GPT-3 ou LLaMA 13B, Cerebras-GPT ne dispose peut-être pas d'un entraînement aussi poussé, mais il suit les lois d'échelle de Chinchilla, ce qui signifie qu'il est incroyablement efficace en termes de calcul. Les modèles tels que GPT-J et GPT-NeoX sont peut-être plus encombrants, mais Cerebras-GPT maximise les performances tout en limitant l'utilisation des ressources. Si vous avez besoin d'évolutivité et d'efficacité, ce modèle est optimisé pour vous offrir le meilleur des deux mondes.
- Paramètres : 111M - 2.7B
- Accès : https://github.com/Cerebras
- Source ouverte : Oui
6. Phi-3.5
Ce modèle comporte 3,8 milliards de paramètres, mais voici ce qui le rend unique : 128K jetons de la longueur du contexte. Qu'est-ce que cela signifie ? Il peut traiter de longs documents ou des tâches impliquant des conversations à plusieurs tours sans perdre le contexte. Il est également multilingue, ce qui en fait un concurrent de taille face à des modèles tels que Llama 13B et GPT-3.5, mais avec des exigences de calcul bien moindres. Ce modèle est idéal pour la synthèse de documents, les tâches multilingues et le raisonnement logique.
- Paramètres : 3,8 milliards d'euros
- Accès : https://huggingface.co/microsoft/phi-2
- Source ouverte : Oui, à des fins de recherche uniquement.
7. StableLM-zephyr
StableLM-Zephyr est un petit modèle de langage avec 3 milliards de paramètres qui est idéal lorsque vous recherchez la précision et la rapidité. Ce modèle permet une inférence rapide et donne d'excellents résultats dans les environnements où une prise de décision rapide est essentielle, comme les systèmes périphériques ou les appareils à faibles ressources. Si vous avez besoin de quelque chose de précis et de rapide, StableLM-Zephyr est une excellente option.
StableLM-Zephyr excelle dans les tâches qui impliquent un raisonnement et même un jeu de rôle. Bien qu'il soit plus léger et plus rapide, il ne permet pas de réaliser des tâches plus complexes comme l'écriture ou le codage aussi bien que les modèles plus grands, mais pour sa taille, il est très performant. Si la vitesse et l'efficacité sont vos priorités, StableLM-Zephyr est un choix solide.
- Paramètres : 3B
- Accès : https://github.com/StabilityAI/stablelm
- Source ouverte : Oui
8. TinyLlama
Parlons du TinyLlama, un modèle compact de 1,1 milliard de paramètres qui offre de très bonnes performances pour sa taille. Conçu pour être efficace, il est parfait pour les appareils qui ne peuvent pas supporter la lourde charge de calcul des modèles plus grands.
Pour les tâches réelles, TinyLlama fait mieux que des modèles comme Pythia-1.4B, en particulier pour les raisonnements de bon sens. Il n'a pas la puissance brute de modèles comme le LLaMA 13B, mais il offre un bon équilibre entre les performances et l'efficacité des ressources. Il est donc idéal pour les scénarios dans lesquels vous avez besoin de fortes capacités d'IA sans surcharger le système, en particulier sur les appareils mobiles et périphériques.
- Paramètres : 1.1B
- Accès : https://github.com/tinyLlama
- Source ouverte : Oui
9. MobileLLaMA
MobileLLaMA est une version spécialisée de LLaMA conçue pour fonctionner de manière optimale sur les appareils mobiles et à faible consommation d'énergie. Avec 1,4 milliard de paramètres, il est conçu pour vous offrir un équilibre entre performance et efficacité, en particulier sur les appareils aux ressources limitées.
MobileLLaMA est optimisé pour la vitesse et les applications d'IA à faible latence en déplacement. Avec des versions telles que MobileLLaMA-1.4B et MobileLLaMA-2.7B, il surpasse facilement des modèles plus petits comme TinyLLaMA 1.1B et rivalise étroitement avec OpenLLaMA 3B - tout en étant environ 40 % plus rapide. Si vous avez besoin d'une IA en temps réel sur votre appareil, MobileLLaMA est parfait. Ce modèle est conçu pour apporter l'IA haute performance directement à vos systèmes mobiles ou périphériques. systèmes périphériques sans nécessiter d'infrastructure lourde.
- Paramètres : 1.4B
- Accès : https://github.com/mobileLLaMA
- Source ouverte : Oui
10. LaMini-GPT
LaMini-GPT est un modèle compact mais puissant, qui va de 774 millions à 1,5 milliard de paramètres et qui a été spécialement conçu pour les tâches multilingues. Il est particulièrement performant dans les environnements à ressources limitées, ce qui signifie qu'il peut gérer plusieurs langues sans avoir besoin d'une grande puissance de calcul, ce qui convient parfaitement aux appareils ou aux systèmes disposant de ressources limitées.
Il est intéressant de noter que le LaMini-GPT a été développé par distillation de connaissances à partir de modèles plus importants de la famille GPT, ce qui lui permet d'obtenir de très bons résultats dans les tâches de suivi d'instructions. Avec plus de 2,58 millions de paires instruction-réponse dans son ensemble de données, il est optimisé pour traiter des tâches et des instructions spécifiques plus efficacement que les modèles plus importants. Cependant, s'il est incroyablement efficace et léger, en particulier pour les tâches ciblées, il n'est pas très adapté aux applications plus larges qui nécessitent une compréhension contextuelle approfondie ou une génération de texte plus générale. Si vous recherchez quelque chose de rapide et d'efficace, en particulier dans les scénarios multilingues, LaMini-GPT est un choix solide.
- Paramètres : 774 MILLIONS - 1,5 MILLIARD
- Accès : https://github.com/LaMiniGPT
- Source ouverte : Oui
11. Gemma2
Parlons maintenant de Gemma2. Ce modèle est fort de 2 milliards de paramètres et fonctionne très bien si vous envisagez un déploiement local. Léger et efficace, il est idéal pour la génération de textes ou la traduction.
Lorsque vous le comparez à des poids lourds comme OpenAI o1-previewGemma2 se concentre sur les applications en temps réel et non sur le raisonnement complexe. Pour l'informatique de pointe, c'est l'alternative parfaite à des modèles comme GPT-3.5 ou Llama 65B, qui sont gourmands en ressources.
Si vous souhaitez mettre la main à la pâte avec ce SLM, lisez ce tutoriel sur les points suivants la mise au point de Gemma 2 et son utilisation locale.
- Paramètres : Versions à 9 et 27 milliards d'euros
- Accès : https://ai.google.dev/gemma
- Source ouverte : Oui, avec une licence permissive autorisant la redistribution, la mise au point et l'utilisation commerciale.
12. MiniCPM
MiniCPM est un modèle qui présente un équilibre solide entre performance et efficacité des ressources, avec des tailles de paramètres allant de 1 à 4 milliards. Il est conçu pour gérer facilement les tâches linguistiques générales et offre des performances fiables dans de nombreuses applications, ce qui en fait une excellente option polyvalente.
MiniCPM est évolutif et efficace. Malgré sa petite taille, ses performances sont comparables à celles de modèles beaucoup plus grands comme Mistral-7B et LLaMA 7B. Il est particulièrement optimisé pour le traitement linguistique de l'anglais et du chinois, ce qui en fait une alternative très performante et légère pour les environnements où les ressources informatiques sont limitées. Si vous travaillez dans un environnement où les ressources sont limitées mais que vous avez besoin d'un traitement linguistique solide, MiniCPM constitue une excellente solution.
- Paramètres : 1B – 4B
- Accès : https://github.com/miniCPM
- Source ouverte : Oui
13. OpenELM
OpenELM est un modèle flexible et adaptable avec une gamme de paramètres allant de 270 millions à 3 milliards. Il est conçu pour les environnements qui nécessitent un fonctionnement multitâche et des réponses à faible latence. Cette solution est idéale pour les tâches nécessitant des performances en temps réel sur des appareils de petite taille.
Développé par Apple, OpenELM se concentre sur l'efficacité énergétique et les applications d'intelligence artificielle sur l'appareil. Il rivalise bien avec des modèles tels que MobiLlama et OLMo, et présente des améliorations significatives lorsqu'il est adapté à des tâches spécifiques. Grâce à son large éventail de paramètres, OpenELM est optimisé pour des environnements plus petits et plus contraignants, contrairement à des modèles plus lourds tels que GPT-4 ou LLaMA, qui nécessitent davantage de ressources pour offrir des performances comparables. Si vous recherchez quelque chose de léger mais de performant, en particulier pour une utilisation mobile ou en périphérie, OpenELM est une solution idéale.
- Paramètres : 270M - 3B
- Accès : https://github.com/OpenELM
- Source ouverte : Oui
14. DCLM
Décortiquons le DCLM, un modèle qui compte 1 milliard de paramètres et qui est conçu spécifiquement pour le raisonnement de bon sens. Il donne de bons résultats dans les tâches réelles où la compréhension et les déductions logiques sont essentielles.
Le DCLM est efficace pour la compréhension et le raisonnement linguistique, en particulier avec sa version à 7 milliards de paramètres. Il rivalise avec des modèles tels que LLaMA 2 (7B) et Mistral 7B, en obtenant d'aussi bons résultats dans des tâches telles que le raisonnement de bon sens et la déduction logique. Il n'est certainement pas aussi puissant que les grands modèles comme le LLaMA 13B, mais le DCLM est hautement optimisé pour les applications du monde réel qui nécessitent de l'efficacité et moins de ressources de calcul, donc lorsque vous avez des environnements où vous avez besoin de performances élevées sans infrastructure lourde, le DCLM est un excellent choix.
- Paramètres : 1B
- Accès : https://github.com/DCLM
- Source ouverte : Oui
15. Fox
Enfin, le modèle Fox, un modèle à 1,6 milliard de paramètres conçu spécifiquement pour la vitesse et l'efficacité. Il est optimisé pour les applications mobiles, pour lesquelles il est essentiel de maintenir une faible latence. Fox est conçu pour fournir des réponses rapides sans consommer trop de puissance de calcul.
Le Fox est très performant dans les environnements où vous avez besoin de vitesse. Il gère les tâches à faible latence très rapidement, ce qui est idéal pour les appareils mobiles ou périphériques. Il n'est pas aussi performant pour les raisonnements complexes, mais Fox est parfait pour les situations où vous avez besoin de réponses rapides et efficaces de l'IA et où vous ne pouvez pas vous permettre d'utiliser des ressources lourdes. C'est le modèle à privilégier lorsque la puissance de calcul est limitée mais que la vitesse est une priorité.
- Paramètres : 1.6B
- Accès : https://github.com/foxmodel
- Source ouverte : Oui
Comparaison des petits modèles linguistiques
Résumons ce que nous avons couvert à travers ce tableau :
Nom du modèle |
Paramètres |
Source ouverte |
Caractéristiques principales |
Qwen2 |
0,5B, 1B, 7B |
Oui |
Évolutif, adapté à diverses tâches |
Mistral Nemo 12B |
12B |
Oui |
Tâches NLP complexes, déploiement local |
Llama 3.1 8B |
8B |
Oui* |
Puissance et efficacité équilibrées |
Pythie |
160M - 2.8B |
Oui |
Axé sur le raisonnement et le codage |
Cerebras-GPT |
111M - 2.7B |
Oui |
Efficacité informatique, respect des lois d'échelle de Chinchilla |
Phi-3.5 |
3.8B |
Oui** |
Contexte long (128K tokens), multilingue |
StableLM-zephyr |
3B |
Oui |
Inférence rapide, efficace pour les systèmes périphériques |
TinyLlama |
1.1B |
Oui |
Efficace pour les appareils mobiles et périphériques |
MobileLLaMA |
1.4B |
Oui |
Optimisé pour les appareils mobiles et à faible consommation d'énergie |
LaMini-GPT |
774 MILLIONS - 1,5 MILLIARD |
Oui |
Tâches multilingues et respectueuses des instructions |
Gemma2 |
9B, 27B |
Oui |
Déploiement local, applications en temps réel |
MiniCPM |
1B - 4B |
Oui |
Performances équilibrées, optimisation de l'anglais et du chinois |
OpenELM |
270M - 3B |
Oui |
Multitâche, faible latence, efficacité énergétique |
DCLM |
1B |
Oui |
Raisonnement de bon sens, déduction logique |
Fox |
1.6B |
Oui |
Vitesse optimisée pour les applications mobiles |
*Avec des restrictions d'utilisation
**À des fins de recherche uniquement
Conclusion
Et voilà pour cet article, un petit tour dans le monde des petits modèles linguistiques en 2024. Nous avons vu comment ces modèles prouvent que plus petit ne signifie pas plus faible, mais plus intelligent à bien des égards.
Attendez-vous à voir ces SLM intégrés dans un plus grand nombre de vos expériences technologiques quotidiennes. N'oubliez pas qu'il s'agit de choisir les bons modèles pour le travail à accomplir et que, dans de nombreux cas, le bon modèle peut être simplement petit et agile.
Pour en savoir plus sur les petits modèles linguistiques, je vous recommande ces deux ressources :
Ana Rojo Echeburúa est une scientifique de l'IA et des données, titulaire d'un doctorat en mathématiques appliquées. Elle adore transformer les données en informations exploitables et possède une grande expérience de la direction d'équipes techniques. Ana aime travailler en étroite collaboration avec ses clients pour résoudre leurs problèmes commerciaux et créer des solutions d'IA innovantes. Connue pour ses compétences en matière de résolution de problèmes et de communication claire, elle est passionnée par l'IA, en particulier par les grands modèles de langage et l'IA générative. En tant que cofondatrice et directrice technique de Simpli, une société d'IA spécialisée dans l'assurance technique, Ana se consacre à l'apprentissage continu et au développement éthique de l'IA, repoussant toujours les limites de la technologie.
Apprenez l'IA avec ces cours !
cursus
Principes de base de l'IA pour les entreprises
cours