cours
Qu'est-ce que Meta's Llama 3.1 405B ? Comment ça marche, cas d'utilisation et plus encore
Le mardi 23 juillet 2024, Meta a annoncé Llama 3.1, la dernière version de la série des série Llama de grands modèles de langage (LLM).
Bien qu'il s'agisse d'une mise à jour mineure du modèle Llama 3, elle introduit notamment Llama 3.1 405B-un modèle de 405 milliards de paramètres, le plus grand LLM open-source au monde à ce jour, dépassant le modèle de NVIDIA. Nemotron-4-340B-Instruct.
Les évaluations expérimentales suggèrent qu'il rivalise avec les principaux modèles tels que le GPT-4, GPT-4oet Claude 3.5 Sonnet dans différentes tâches.
Cependant, avec des concurrents tels que Mistral et Falcon optent pour des modèles plus petits, des questions se posent quant à la pertinence des grands LLM à poids ouvert dans le paysage actuel.
Lisez la suite pour connaître notre avis, ainsi que des informations sur les mises à jour de l'écosystème des lamas.
L'amélioration de l'IA pour les débutants
Qu'est-ce que Llama 3.1 405B ?
Llama 3.1 est une mise à jour ponctuelle de Llama 3 (annoncée en avril 2024). Llama 3.1 405B est la version phare du modèle qui, comme son nom l'indique, compte 405 milliards de paramètres.
Source : Meta AI
Llama3.1 405B sur le Leaderboard de LMSys Chatbot Arena
Avec 405 milliards de paramètres, il est en lice pour une place de choix dans le LMSys Chatbot Arena Leaderboardune mesure de la performance basée sur les votes des utilisateurs aveugles.
Au cours des derniers mois, la première place a alterné entre les versions d'OpenAI GPT-4, Anthropic Claude 3et Google Gemini. Actuellement, GPT-4o détient la couronne, mais le Claude 3.5 Sonnet, plus petit, occupe la deuxième place, et le Claude 3.5 Opus, imminent, est susceptible de prendre la première place s'il peut être publié avant qu'OpenAI ne mette à jour GPT-4o.
La concurrence est donc rude dans le haut de gamme, et il sera intéressant de voir comment la Llama 3.1 405B se situe par rapport à ces concurrents. En attendant que la Llama 3.1 405B apparaisse dans le classement, nous vous proposons quelques repères dans la suite de l'article.
Capacités multilingues
La principale mise à jour de Llama 3 à Llama 3.1 est une meilleure prise en charge des langues autres que l'anglais. Les données d'apprentissage de Llama 3 étaient à 95 % en anglais, et ses performances étaient donc médiocres dans d'autres langues. La mise à jour 3.1 prend en charge l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï.
Contexte plus long
Les modèles Llama 3 disposaient d'une fenêtre contextuelle - la quantité de texte sur laquelle on peut raisonner en une seule fois - de 8 000 tokens (environ 6 000 mots). Llama 3.1 l'a porté à un niveau plus moderne de 128k, ce qui le rend compétitif par rapport à d'autres LLM de pointe.
Cela corrige une faiblesse importante pour la famille Llama. Pour les cas d'utilisation en entreprise tels que le résumé de longs documents, la génération de code impliquant un contexte à partir d'une vaste base de code, ou les conversations de chatbot à support étendu, une longue fenêtre de contexte pouvant stocker des centaines de pages de texte est essentielle.
Accord de licence de modèle ouvert
Les modèles Llama 3.1 sont disponibles sous l'accord de licence de modèle ouvert personnalisé de Meta. Cette licence permissive donne aux chercheurs, aux développeurs et aux entreprises la liberté d'utiliser le modèle à la fois pour la recherche et pour des applications commerciales.
Dans une mise à jour importante mise à jourMeta a également étendu la licence pour permettre aux développeurs d'utiliser les résultats des modèles Llama, y compris le modèle 405B, pour améliorer d'autres modèles.
En substance, cela signifie que n'importe qui peut utiliser les capacités du modèle pour faire avancer son travail, créer de nouvelles applications et explorer les possibilités de l'IA, à condition de respecter les conditions énoncées dans l'accord.
Comment fonctionne le Llama 3.1 405B ?
Cette section explique les détails techniques du fonctionnement de Llama 3.1 405B, y compris son architecture, son processus de formation, la préparation des données, les exigences de calcul et les techniques d'optimisation.
Architecture du transformateur avec des modifications
Llama 3.1 405B est construit sur une architecture standard de décodeur uniquement Transformerune conception commune à de nombreux modèles linguistiques de grande taille qui ont fait leurs preuves.
Bien que la structure de base reste inchangée, Meta a introduit des adaptations mineures pour améliorer la stabilité et les performances du modèle pendant l'entraînement. Notamment, l'architecture du mélange d'experts (MoE) est intentionnellement exclue, afin de privilégier la stabilité et l'évolutivité du processus de formation.
Source : Meta AI
Le diagramme illustre la manière dont Llama 3.1 405B traite le langage. Le texte d'entrée est d'abord divisé en unités plus petites appelées jetons puis converti en représentations numériques appelées encastrements de tokens.
Ces encastrements sont ensuite traités à travers de multiples couches de auto-attentionoù le modèle analyse les relations entre les différents éléments afin de comprendre leur signification et leur contexte dans l'entrée.
Les informations recueillies par les couches d'auto-attention sont ensuite transmises à un réseau d'anticipation, qui traite et combine les informations pour en déduire le sens. Ce processus d'auto-attention et de traitement en amont est répété plusieurs fois afin d'approfondir la compréhension du modèle.
Enfin, le modèle utilise ces informations pour générer une réponse jeton par jeton, en s'appuyant sur les résultats précédents pour créer un texte cohérent et pertinent. Ce processus itératif, connu sous le nom de décodage autorégressif, permet au modèle de produire une réponse fluide et adaptée au contexte à l'invite d'entrée.
Processus de formation en plusieurs phases
Le développement du Llama 3.1 405B a nécessité un processus de formation en plusieurs phases. Dans un premier temps, le modèle a fait l'objet d'un pré-entraînement sur une collection vaste et variée d'ensembles de données englobant des trillions de jetons. Cette exposition à des quantités massives de textes permet au modèle d'apprendre la grammaire, les faits et les capacités de raisonnement à partir des modèles et des structures qu'il rencontre.
Après le pré-entraînement, le modèle subit des cycles itératifs de réglage fin supervisé (SFT) et d'optimisation directe des préférences (DPO). Le SFT implique une formation sur des tâches et des ensembles de données spécifiques avec retour d'information humainLe retour d'information humain, qui guide le modèle pour qu'il produise les résultats souhaités.
Le DPO, quant à lui, s'attache à affiner les réponses du modèle sur la base des préférences recueillies auprès des évaluateurs humains. Ce processus itératif améliore progressivement la capacité du modèle à suivre les instructions, à améliorer la qualité de ses réponses et à garantir la sécurité. la sécurité.
Qualité et quantité des données
Meta affirme avoir fortement insisté sur la qualité et la quantité des données de formation. Pour Llama 3.1 405B, cela a impliqué un processus rigoureux de préparation des données, y compris un filtrage et un nettoyage approfondis afin d'améliorer la qualité globale des ensembles de données.
Il est intéressant de noter que le modèle 405B lui-même est utilisé pour générer des données synthétiques, qui sont ensuite incorporées dans le processus de formation afin d'affiner les capacités du modèle.
Augmentation de la capacité de calcul
La formation d'un modèle aussi vaste et complexe que le Llama 3.1 405B nécessite une puissance de calcul considérable. Pour mettre les choses en perspective, Meta a utilisé plus de 16 000 des GPU les plus puissants de NVIDIA, le H100, pour entraîner efficacement ce modèle.
Ils ont également apporté des améliorations significatives à l'ensemble de leur infrastructure de formation afin de s'assurer qu'elle puisse gérer l'immense échelle du projet, permettant ainsi au modèle d'apprendre et de s'améliorer de manière efficace.
Quantification pour l'inférence
Pour rendre Llama 3.1 405B plus utilisable dans des applications réelles, Meta a appliqué une technique appelée quantification, qui consiste à convertir les poids du modèle d'une précision de 16 bits (BF16) à une précision de 8 bits (FP8). C'est comme passer d'une image en haute résolution à une résolution légèrement inférieure : cela permet de préserver les détails essentiels tout en réduisant la taille du fichier.
De même, la quantification simplifie les calculs internes du modèle, ce qui lui permet de fonctionner beaucoup plus rapidement et efficacement sur un seul serveur. Cette optimisation permet à d'autres d'utiliser les capacités du modèle plus facilement et à moindre coût.
Cas d'utilisation du Llama 3.1 405B
Llama 3.1 405B offre de nombreuses applications potentielles grâce à sa nature open-source et à ses grandes capacités.
Génération de données synthétiques
La capacité du modèle à générer des textes très proches du langage humain peut être utilisée pour créer de grandes quantités de données synthétiques.
Ces données synthétiques peuvent être utiles pour former d'autres modèles linguistiques, améliorer les techniques d'augmentation des données (rendre les données existantes plus diversifiées) et développer des simulations réalistes pour diverses applications.
Distillation modèle
Les connaissances contenues dans le modèle 405B peuvent être transférées à des modèles plus petits et plus efficaces grâce à un processus appelé distillation.
La distillation de modèles consiste à enseigner à un étudiant (un petit modèle d'IA) les connaissances d'un expert (le grand modèle Llama 3.1 405B). Ce processus permet au petit modèle d'apprendre et d'effectuer des tâches sans avoir besoin du même niveau de complexité ou des mêmes ressources informatiques que le grand modèle.
Il est ainsi possible d'exécuter des fonctions d'IA avancées sur des appareils tels que des smartphones ou des ordinateurs portables, dont la puissance est limitée par rapport aux puissants serveurs utilisés pour former le modèle d'origine.
Un exemple récent de distillation de modèles est le mini-modèle OpenAI GPT-4o minid'OpenAI, qui est une version distillée de GPT-4o.
Recherche et expérimentation
Llama 3.1 405B est un outil de recherche précieux qui permet aux scientifiques et aux développeurs d'explorer les nouvelles frontières du traitement du langage naturel et de l'intelligence artificielle.
Sa nature ouverte encourage l'expérimentation et la collaboration, accélérant ainsi le rythme des découvertes.
Solutions spécifiques à l'industrie
En adaptant le modèle aux données spécifiques à des secteurs particuliers, tels que la santé, la finance ou l'éducation, il est possible de créer des solutions d'IA personnalisées qui répondent aux défis et aux exigences uniques de ces domaines.
Llama 3.1 405B Accent sur la sécurité
Meta affirme mettre l'accent sur la sécurité de ses modèles Llama 3.1.
Source : Meta AI
Avant de publier Llama 3.1 405B, ils ont mené de vastes exercices de "red teaming". Dans ces exercices, des experts internes et externes jouent le rôle d'adversaires, essayant de trouver des moyens de faire en sorte que le modèle se comporte de manière nuisible ou inappropriée. Cela permet d'identifier les risques potentiels ou les vulnérabilités dans le comportement du modèle.
Outre les tests de pré-déploiement, le Llama 3.1 405B fait l'objet d'une mise au point en matière de sécurité. Ce processus fait appel à des techniques telles que L'apprentissage par renforcement à partir du retour d'information humain (RLHF)où le modèle apprend à aligner ses réponses sur les valeurs et les préférences humaines. Cela permet d'atténuer les résultats nuisibles ou biaisés, ce qui rend le modèle plus sûr et plus fiable pour une utilisation dans le monde réel.
Meta a également introduit Llama Guard 3un nouveau modèle de sécurité multilingue conçu pour filtrer et signaler les contenus nuisibles ou inappropriés générés par Llama 3.1 405B. Cette couche supplémentaire de protection permet de s'assurer que les résultats du modèle respectent les lignes directrices en matière d'éthique et de sécurité.
Source : Meta AI
Une autre fonction de sécurité est Prompt Guard, qui vise à prévenir les attaques par injection rapide. Ces attaques consistent à insérer des instructions malveillantes dans les invites de l'utilisateur afin de manipuler le comportement du modèle. Prompt Guard filtre ces instructions, protégeant ainsi le modèle d'une éventuelle mauvaise utilisation.
Source : Meta AI
En outre, Meta a incorporé Code Shield, une fonction qui se concentre sur la sécurité du code généré par Llama 3.1 405B. Code Shield filtre les suggestions de codes non sécurisés en temps réel pendant le processus d'inférence et offre une protection de l'exécution des commandes sécurisées pour sept langages de programmation, le tout avec un temps de latence moyen de 200 ms. Cela permet d'atténuer le risque de générer un code qui pourrait être exploité ou constituer une menace pour la sécurité.
Source : Meta AI
Llama 3.1 405B Benchmarks
Meta a soumis Llama 3.1 405B à une évaluation rigoureuse sur plus de 150 ensembles de données de référence. Ces critères englobent un large éventail de tâches et de compétences linguistiques, allant des connaissances générales et du raisonnement au codage, aux mathématiques et aux capacités multilingues.
Source : Meta AI
Llama 3.1 405B est compétitif par rapport aux principaux modèles à source fermée tels que GPT-4, GPT-4o et Claude 3.5 Sonnet sur de nombreux points de référence. Il se montre particulièrement performant dans les tâches de raisonnement, obtenant des scores de 96,9 sur ARC Challenge et de 96,8 sur GSM8K. Il excelle également dans la génération de code, avec un score de 89,0 sur le test de référence HumanEval.
En plus des tests automatisés, Meta AI a mené des évaluations humaines approfondies pour évaluer les performances du Llama 3.1 405B dans des scénarios réels.
Source : Meta AI
Bien que le Llama 3.1 405B soit compétitif dans ces évaluations, il ne surpasse pas systématiquement les autres modèles. Ses performances sont comparables à celles de GPT-4-0125-Preview (le modèle GPT-4 d'OpenAI publié en avant-première début 2024) et de Claude 3.5 Sonnet, gagnant et perdant à peu près le même pourcentage d'évaluations. Il est légèrement en retrait par rapport au GPT-4o, puisqu'il ne remporte que 19,1 % des comparaisons.
Où puis-je accéder à Llama 3.1 405B ?
Vous pouvez accéder à Llama 3.1 405B par deux canaux principaux :
- Téléchargement direct depuis Meta : Les poids des modèles peuvent être téléchargés directement à partir du site officiel de Meta : llama.meta.com
- Visage étreint : Llama 3.1 405B est également disponible sur le site de Hugging Face une plateforme populaire pour le partage et l'accès aux modèles d'apprentissage automatique.
En rendant le modèle facilement accessible, Meta vise à permettre aux chercheurs, aux développeurs et aux organisations d'utiliser ses capacités pour diverses applications et de contribuer à l'avancement continu de la technologie de l'IA - pour en savoir plus sur les principes de Meta concernant l'IA en code source ouvert, consultez la lettre de Mark Zuckerberg.
Famille de modèles Llama 3.1
Alors que la Llama 3.1 405B fait les gros titres par sa taille, la famille Llama 3.1 propose d'autres modèles conçus pour répondre à différents cas d'utilisation et contraintes de ressources. Ces modèles partagent les avancées de la version 405B mais sont adaptés à des besoins spécifiques.
Llama 3.1 70B : Polyvalent
Le modèle Llama 3.1 70B offre un équilibre entre performance et efficacité, ce qui en fait un candidat de choix pour un large éventail d'applications.
Il excelle dans des tâches telles que le résumé de textes longs, la création d'agents conversationnels multilingues et l'assistance au codage.
Bien que plus petit que le modèle 405B, il reste compétitif par rapport à d'autres modèles ouverts et fermés de taille similaire dans divers critères de référence. Sa taille réduite facilite également son déploiement et sa gestion sur du matériel standard.
Source : Meta AI
Llama 3.1 8B : Léger et efficace
Le modèle Llama 3.1 8B privilégie la vitesse et la faible consommation de ressources. Il est idéal pour les scénarios dans lesquels ces facteurs sont cruciaux, tels que le déploiement sur des appareils périphériques, des plateformes mobiles ou dans des environnements avec des ressources informatiques limitées.
Malgré sa taille réduite, il offre des performances compétitives par rapport à des modèles de taille similaire dans diverses tâches (voir le tableau ci-dessus).
Si vous souhaitez affiner Llama 3.1 8B, lisez ce tutoriel sur l' affinage de Llama 3.1 pour la classification de textes.
Améliorations communes à tous les modèles Llama 3.1
Tous les modèles de Llama 3.1 partagent plusieurs améliorations clés :
- Fenêtre contextuelle étendue (128K Tokens) : La fenêtre contextuelle, qui représente la quantité de texte que le modèle peut prendre en compte en une seule fois, a été considérablement augmentée pour atteindre 128 000 mots. Cela permet aux modèles de traiter des entrées beaucoup plus longues et de maintenir le contexte au cours de conversations ou de documents prolongés.
- Support multilingue : Tous les modèles prennent désormais en charge huit langues : Anglais, allemand, français, italien, portugais, hindi, espagnol et thaï. Ce support linguistique élargi étend leur applicabilité à un public mondial.
- Amélioration de l'utilisation des outils et du raisonnement : Les modèles ont été améliorés grâce à de meilleures capacités d'utilisation des outils et de raisonnement, ce qui les rend plus polyvalents et plus aptes à gérer des tâches complexes.
- Sécurité accrue : Des tests de sécurité rigoureux et des mises au point ont été effectués sur tous les modèles Llama 3.1 afin de réduire les risques potentiels et de promouvoir une utilisation responsable de l'IA. Il s'agit notamment d'efforts visant à réduire les biais et les résultats préjudiciables.
Big vs. Petits LLM : Le débat
La publication de Llama 3.1 405B, bien qu'impressionnante par son ampleur, suscite une discussion sur la taille optimale des modèles de langage dans le paysage actuel de l'IA.
Comme indiqué brièvement dans l'introduction, des concurrents comme Mistral et Falcon ont opté pour des modèles plus petits, arguant du fait qu'ils offrent une approche plus pratique et plus accessible. Ces modèles plus petits nécessitent souvent moins de ressources informatiques, ce qui facilite leur déploiement et leur adaptation à des tâches spécifiques.
Cependant, les partisans des grands modèles comme le Llama 3.1 405B affirment que leur taille même leur permet de saisir une plus grande profondeur et une plus grande étendue de connaissances, ce qui se traduit par des performances supérieures dans un plus grand nombre de tâches. Ils soulignent également que ces grands modèles peuvent servir de "modèles de base". "modèles de base" sur lesquels des modèles plus petits et spécialisés peuvent être construits par distillation.
Le débat entre les grands et les petits LLM se résume en fin de compte à un compromis entre les capacités et l'aspect pratique. Si les modèles de plus grande taille offrent un plus grand potentiel de performances avancées, ils s'accompagnent également d'une augmentation des besoins en calcul et d'un impact potentiel sur l'environnement en raison de leur consommation d'énergie. Les modèles plus petits, en revanche, peuvent sacrifier certaines performances au profit d'une plus grande accessibilité et d'une plus grande facilité de déploiement.
La sortie par Meta de la Llama 3.1 405B, accompagnée de variantes plus petites comme les modèles 70B et 8B, semble reconnaître ce compromis. En proposant une gamme de tailles de modèles, ils répondent aux différents besoins et préférences de la communauté de l'IA.
En fin de compte, le choix entre les grands et les petits LLM dépendra du cas d'utilisation spécifique, des ressources disponibles et des caractéristiques de performance souhaitées. À mesure que le domaine continue d'évoluer, il est probable que les deux approches coexisteront, chacune trouvant sa place dans le paysage diversifié des applications de l'IA.
Obtenez une certification de haut niveau en matière d'IA
Conclusion
La publication de la famille Llama 3.1, en particulier le modèle 405B, représente une contribution notable au domaine des grands modèles linguistiques libres.
Même si ses performances ne dépassent pas systématiquement celles de tous les modèles fermés, ses capacités et l'engagement de Meta en faveur de la transparence et de la collaboration ouvrent une nouvelle voie pour le développement de l'IA.
La disponibilité de plusieurs tailles de modèles et d'améliorations communes élargit les applications potentielles pour les chercheurs, les développeurs et les organisations.
En partageant ouvertement cette technologie, Meta favorise un environnement de collaboration qui pourrait accélérer les progrès dans ce domaine et rendre l'IA avancée plus accessible.
L'impact de Llama 3.1 sur l'avenir de l'IA reste à voir, mais sa publication souligne l'importance croissante des initiatives open-source dans la recherche de technologies d'IA responsables et bénéfiques.
FAQ
Llama 3.1 405B est-il meilleur que GPT-4o et GPT-4 ?
Llama 3.1 405B obtient des résultats compétitifs par rapport à GPT-4 et GPT-4o, excellant dans certains benchmarks tels que les tâches de raisonnement et la génération de code. Cependant, les évaluations humaines suggèrent qu'il se situe légèrement derrière le GPT-4o en termes de performances globales.
Le Llama 3.1 405B est-il meilleur que le Claude 3.5 Sonnet ?
Llama 3.1 405B et Claude 3.5 Sonnet démontrent des performances comparables dans de nombreux benchmarks et évaluations humaines, chaque modèle ayant des points forts dans différents domaines.
Le Llama 3.1 405B est-il meilleur que Gemini ?
Les comparaisons directes entre Llama 3.1 405B et Gemini sont limitées car ils n'ont pas fait l'objet d'une évaluation comparative approfondie. Cependant, les performances de la Llama 3.1 405B sur différents benchmarks suggèrent qu'elle pourrait être compétitive par rapport à la Gemini.
Llama 3.1 405B est-il open source ?
Oui, Llama 3.1 405B est publié sous l'accord de licence de modèle ouvert personnalisé de Meta, qui autorise à la fois la recherche et l'utilisation commerciale.
Combien de tailles différentes sont disponibles dans la famille de modèles Llama 3.1 ?
La famille Llama 3.1 se compose de plusieurs modèles de tailles différentes, dont le modèle phare 405B, un modèle 70B et un modèle 8B.

Richie aide les individus et les organisations à mieux utiliser les données et l'IA. Il est data scientist depuis bien avant que l'on parle de data science, et a écrit deux livres et créé de nombreux cours DataCamp sur le sujet. Il est l'hôte du podcast DataFramed et dirige le programme de webinaires de DataCamp.
Apprenez l'IA avec ces cours !
cursus
Développer de grands modèles linguistiques
cours