Course
8 LLM Open-Source pour 2024 et leurs utilisations
La révolution actuelle de l'IA générative ne serait pas possible sans les grands modèles de langage (LLM). Basés sur des transformateurs, une puissante architecture neuronale, les LLM sont des systèmes d'intelligence artificielle utilisés pour modéliser et traiter le langage humain. Ils sont qualifiés de "grands" parce qu'ils ont des centaines de millions, voire des milliards de paramètres, qui sont préformés à l'aide d'un corpus massif de données textuelles.
Commencez dès aujourd'hui notreLarge Language Models (LLMs) Concepts Course aujourd'hui pour en savoir plus sur le fonctionnement des LLMs.
Les LLM sont les modèles de base des chatbots populaires et largement utilisés, comme ChatGPT et Google Bard. En particulier, ChatGPT est alimenté par GPT-4, un LLM développé et détenu par OpenAI, tandis que Google Bard est basé sur le modèle PaLM 2 de Google.
ChatGPT et Bard, ainsi que de nombreux autres chatbots populaires, ont en commun que leurs LLM sous-jacents sont propriétaires. Cela signifie qu'ils sont la propriété d'une entreprise et qu'ils ne peuvent être utilisés par les clients qu'après l'achat d'une licence. Cette licence est assortie de droits, mais aussi de restrictions éventuelles sur la manière d'utiliser le LLM, ainsi que d'informations limitées sur les mécanismes qui sous-tendent la technologie.
Cependant, un mouvement parallèle dans le domaine du LLM prend rapidement de l'ampleur : les LLM à source ouverte. Suite aux préoccupations croissantes concernant le manque de transparence et l'accessibilité limitée des LLM propriétaires, principalement contrôlés par les Big Tech, tels que Microsoft, Google et Meta, les LLM open-source promettent de rendre le domaine en pleine expansion des LMM et de l'IA générative plus accessible, plus transparent et plus innovant.
Cet article a pour but d'explorer les meilleurs LLM open-source disponibles en 2023. Bien qu'il ne se soit écoulé qu'un an depuis le lancement de ChatGPT et la popularisation des LLM (propriétaires), la communauté open-source a déjà franchi des étapes importantes, avec un bon nombre de LLM open-source disponibles pour différents usages. Poursuivez votre lecture pour découvrir les plus populaires d'entre eux !
Développer des applications d'IA
Apprenez à créer des applications d'IA à l'aide de l'API OpenAI.
Avantages de l'utilisation de LLM à source ouverte
Il y a de nombreux avantages à court et à long terme à choisir des LLM open-source plutôt que des LLM propriétaires. Vous trouverez ci-dessous une liste des raisons les plus convaincantes :
Amélioration de la sécurité et de la confidentialité des données
L'une des principales préoccupations liées à l'utilisation de LLM propriétaires est le risque de fuites de données ou d'accès non autorisé à des données sensibles par le fournisseur de LLM. En effet, il y a déjà eu plusieurs controverses concernant l'utilisation présumée de données personnelles et confidentielles à des fins de formation.
En utilisant le logiciel libre LLM, les entreprises seront seules responsables de la protection des données à caractère personnel, car elles en garderont le contrôle total.
Réduction des coûts et de la dépendance à l'égard des fournisseurs
La plupart des LLM propriétaires nécessitent une licence pour être utilisés. À long terme, il peut s'agir d'une dépense importante que certaines entreprises, en particulier les PME, ne peuvent pas se permettre. Ce n'est pas le cas des MLD à code source ouvert, dont l'utilisation est normalement gratuite.
Cependant, il est important de noter que l'exécution des LLM nécessite des ressources considérables, même uniquement pour l'inférence, ce qui signifie que vous devrez normalement payer pour l'utilisation de services en nuage ou d'une infrastructure puissante.
Transparence du code et personnalisation du modèle linguistique
Les entreprises qui optent pour des LLM à code source ouvert auront accès au fonctionnement des LLM, y compris leur code source, leur architecture, leurs données d'apprentissage et leur mécanisme d'apprentissage et d'inférence. Cette transparence est la première étape d'un examen minutieux, mais aussi d'une personnalisation.
Étant donné que les LLM à code source ouvert sont accessibles à tous, y compris leur code source, les entreprises qui les utilisent peuvent les adapter à leurs cas d'utilisation particuliers.
Soutien actif de la communauté et encouragement de l'innovation
Le mouvement open-source promet de démocratiser l'utilisation et l'accès aux technologies LLM et d'IA générative. Permettre aux développeurs d'inspecter le fonctionnement interne des LLM est essentiel pour le développement futur de cette technologie. En abaissant les barrières à l'entrée pour les codeurs du monde entier, les LLM open-source peuvent favoriser l'innovation et améliorer les modèles en réduisant les biais et en augmentant la précision et la performance globale.
S'attaquer à l'empreinte environnementale de l'IA
Suite à la popularisation des LLM, les chercheurs et les défenseurs de l'environnement s'inquiètent de l'empreinte carbone et de la consommation d'eau nécessaires au fonctionnement de ces technologies. Les LLM propriétaires publient rarement des informations sur les ressources nécessaires à la formation et au fonctionnement des LLM, ni sur l'empreinte environnementale associée.
Avec le LLM à source ouverte, les chercheurs ont plus de chances de connaître ces informations, ce qui peut ouvrir la voie à de nouvelles améliorations destinées à réduire l'empreinte environnementale de l'IA.
8 Modèles de langues larges à source ouverte pour 2024
1. LLaMA 3.1
La plupart des grands acteurs de l'espace LLM ont choisi de construire leur LLM à huis clos. Cependant, Meta continue d'être une exception avec sa série de LLM open-source, qui inclut maintenant la dernière LLaMA 3.1.
Publié le 23 juillet 2024, LLaMA 3.1 comprend des modèles avec des paramètres de 8B, 70B et, pour la première fois, 405B, ce qui en fait le plus grand de la série. Ces modèles ont été conçus pour traiter une variété de tâches de traitement du langage naturel dans plusieurs langues, dont l'anglais, l'espagnol, le portugais, l'allemand, le thaï, le français, l'italien et l'hindi.
Les modèles LLaMA 3.1 prennent en charge une longueur de contexte considérablement accrue de 128 000 tokens, ce qui renforce leur capacité à traiter et à comprendre des textes longs, améliorant ainsi de manière significative les performances dans des tâches de raisonnement complexes et le maintien du contexte dans des conversations plus longues.
Le modèle 405B, en particulier, est une centrale pour la génération de données synthétiques, qui peuvent être utilisées pour former d'autres modèles, et pour la distillation des connaissances, ce qui permet de transférer les connaissances de ce grand modèle à des modèles plus petits et plus efficaces. Cette capacité ouvre de nouvelles perspectives pour le déploiement d'une IA avancée dans des environnements où les ressources sont limitées.
En outre, LLaMA 3.1 continue de tirer parti de l'apprentissage par renforcement à partir du retour d'information humain (RLHF), garantissant que les modèles s'alignent sur les préférences humaines en matière d'utilité et de sécurité.
Pour en savoir plus sur LLaMA, consultez notre Introduction à LLaMA de Meta AI et notre article Fine-Tuning LLaMA 3.1.
2. BLOOM
Lancé en 2022 à la suite d'un projet collaboratif d'un an avec des volontaires de plus de 70 pays et des chercheurs de Hugging Face, BLOOM est un LLM autorégressif entraîné à poursuivre un texte à partir d'une invite sur de vastes quantités de données textuelles à l'aide de ressources informatiques à l'échelle industrielle.
La sortie de BLOOM a marqué une étape importante dans la démocratisation de l'IA générative. Avec 176 milliards de paramètres, BLOOM est l'un des LLM open-source les plus puissants, capable de fournir des textes cohérents et précis dans 46 langues et 13 langages de programmation.
La transparence est l'épine dorsale de BLOOM, un projet où chacun peut accéder au code source et aux données d'entraînement afin de l'exécuter, de l'étudier et de l'améliorer.
BLOOM peut être utilisé gratuitement par l'intermédiaire de l'écosystème Hugging Face.
3. BERT
La technologie sous-jacente du LLM est un type d'architecture neuronale appelé transformateur. Il a été développé en 2017 par des chercheurs de Google dans l'article Attention is All You Need. L'une des premières expériences visant à tester le potentiel des transformateurs a été l'expérience BERT.
Lancé en 2018 par Google en tant que LLM open-source, BERT (pour Bidirectional Encoder Representations from Transformers), a rapidement atteint des performances de pointe dans de nombreuses tâches de traitement du langage naturel.
Grâce à ses fonctionnalités innovantes dès les premiers jours des LLM et à sa nature open-source, Bert est l'un des LLM les plus populaires et les plus utilisés. Par exemple, en 2020, Google a annoncé qu'il avait adopté Bert via Google Search dans plus de 70 langues.
Il existe actuellement des milliers de modèles Bert libres, gratuits et pré-entraînés disponibles pour des cas d'utilisation spécifiques, tels que l'analyse des sentiments, l'analyse des notes cliniques et la détection des commentaires toxiques.
Les possibilités de l'ORET vous intéressent ? Consultez notre article Introduction à BERT.
4. Falcon 180B
Si le Falcon 40B a déjà impressionné la communauté des LLM open-source (il s'est classé au premier rang du classement de Hugging Face pour les grands modèles de langage open-source), le nouveau Falcon 180B suggère que l'écart entre les LLM propriétaires et les LLM open-source se réduit rapidement.
Lancé par l'Institut d'innovation technologique des Émirats arabes unis en septembre 2023, le Falcon 180B est formé sur 180 milliards de paramètres et 3,5 trillions de jetons. Grâce à cette puissance de calcul impressionnante, Falcon 180B a déjà surpassé LLaMA 2 et GPT-3.5 dans diverses tâches NLP, et Hugging Face suggère qu'il peut rivaliser avec PaLM 2 de Google, le LLM qui équipe Google Bard.
Bien que gratuit pour une utilisation commerciale et de recherche, il est important de noter que Falcon 180B nécessite d'importantes ressources informatiques pour fonctionner.
5. OPT-175B
La publication des modèles de langage Open Pre-trained Transformers (OPT) en 2022 a marqué une autre étape importante dans la stratégie de Meta visant à libérer la course au LLM par le biais de l'open source.
L'OPT comprend une suite de transformateurs pré-entraînés uniquement pour le décodeur, allant de 125M à 175B paramètres. OPT-175B, l'un des LLM open-source les plus avancés du marché, est le frère le plus puissant, avec des performances similaires à celles de GPT-3. Les modèles pré-entraînés et le code source sont à la disposition du public.
Cependant, si vous envisagez de développer une entreprise pilotée par l'IA avec des LLM, vous feriez mieux de penser à autre chose, car OPT-175B est publié sous une licence non commerciale, autorisant uniquement l'utilisation du modèle pour des cas d'utilisation à des fins de recherche.
6. XGen-7B
De plus en plus d'entreprises se lancent dans la course au LLM. L'un des derniers à se lancer dans l'aventure a été Salesforce, qui a lancé son LLM XGen-7B en juillet 2023.
Selon les auteurs, la plupart des LLM à code source ouvert se concentrent sur la fourniture de réponses complètes avec des informations limitées (c'est-à-dire des questions courtes avec peu de contexte). L'idée derrière XGen-7B est de construire un outil qui supporte des fenêtres contextuelles plus longues. En particulier, la variante la plus avancée de XGen (XGen-7B-8K-base) permet une fenêtre contextuelle de 8K, c'est-à-dire la taille cumulée du texte d'entrée et du texte de sortie.
L'efficacité est une autre priorité importante pour XGen, qui utilise seulement 7B paramètres pour l'apprentissage, bien moins que les LLMs open-source les plus puissants, comme LLaMA 2 ou Falcon.
Malgré sa taille relativement petite, XGen peut encore fournir d'excellents résultats. Le modèle est disponible à des fins commerciales et de recherche, à l'exception de la variante XGen-7B-{4K,8K}-inst, qui a été entraînée sur des données pédagogiques et RLHF et est publiée sous une licence non commerciale.
7. GPT-NeoX et GPT-J
Développés par des chercheurs d'EleutherAI, un laboratoire de recherche en IA à but non lucratif, GPT-NeoX et GPT-J sont deux excellentes alternatives open-source à GPT.
GPT-NeoX compte 20 milliards de paramètres, tandis que GPT-J en compte 6 milliards. Bien que les LLM les plus avancés puissent être formés avec plus de 100 milliards de paramètres, ces deux LLM peuvent encore fournir des résultats d'une grande précision.
Ils ont été formés à l'aide de 22 ensembles de données de haute qualité provenant d'un ensemble diversifié de sources qui permettent leur utilisation dans de multiples domaines et de nombreux cas d'utilisation. Contrairement à la GPT-3, la GPT-NeoX et la GPT-J n'ont pas été entraînées avec la RLHF.
Toute tâche de traitement du langage naturel peut être réalisée avec GPT-NeoX et GPT-J, de la génération de texte à l'analyse des sentiments, en passant par la recherche et le développement de campagnes de marketing.
Les deux LLM sont disponibles gratuitement via l' API NLP Cloud.
8. Vicuna 13-B
Vicuna-13B est un modèle conversationnel open-source formé à partir de l'affinement du modèle LLaMa 13B en utilisant des conversations partagées par les utilisateurs et recueillies par ShareGPT.
En tant que chatbot intelligent, les applications de Vicuna-13B sont innombrables, et certaines d'entre elles sont illustrées ci-dessous dans différents secteurs, tels que le service à la clientèle, les soins de santé, l'éducation, la finance, les voyages et l'hôtellerie.
Une évaluation préliminaire utilisant GPT-4 comme juge a montré que Vicuna-13B atteignait une qualité supérieure à 90 % de ChatGPT et Google Bard, puis surpassait d'autres modèles comme LLaMa et Alpaca dans plus de 90 % des cas.
Choisir le LLM Open-Source le plus adapté à vos besoins
L'espace LLM à source ouverte se développe rapidement. Aujourd'hui, il existe beaucoup plus de LLM à code source ouvert que de LLM propriétaires, et l'écart de performance pourrait bientôt être comblé, car les développeurs du monde entier collaborent pour mettre à niveau les LLM actuels et en concevoir d'autres plus optimisés.
Dans ce contexte dynamique et passionnant, il peut être difficile de choisir le LLM open-source qui vous convient. Voici une liste de certains des facteurs auxquels vous devriez réfléchir avant d'opter pour un LLM open-source spécifique :
- Que voulez-vous faire ? C'est la première chose que vous devez vous demander. Les LLM à source ouverte sont toujours ouverts, mais certains d'entre eux ne sont diffusés qu'à des fins de recherche. Par conséquent, si vous envisagez de créer une entreprise, soyez conscient des limitations possibles en matière de licences.
- Pourquoi avez-vous besoin d'un LLM ? Ce point est également très important. Les LLM sont actuellement en vogue. Tout le monde parle d'eux et de leurs possibilités infinies. Mais si vous pouvez développer votre idée sans avoir besoin de LLM, ne les utilisez pas. Ce n'est pas obligatoire (et vous économiserez probablement beaucoup d'argent et éviterez d'utiliser d'autres ressources).
- Quel est le degré de précision dont vous avez besoin ? Il s'agit d'un aspect important. Il existe une relation directe entre la taille et la précision des LLM de pointe. Cela signifie, dans l'ensemble, que plus le LLM est important en termes de paramètres et de données d'apprentissage, plus le modèle sera précis. Par conséquent, si vous avez besoin d'une grande précision, vous devriez opter pour des LLM plus importants, tels que LLaMA ou Falcon.
- Combien d'argent voulez-vous investir ? Cette question est étroitement liée à la précédente. Plus le modèle est important, plus il faudra de ressources pour le former et le faire fonctionner. Cela se traduit par une infrastructure supplémentaire à utiliser ou une facture plus élevée de la part des fournisseurs d'informatique en nuage si vous souhaitez exploiter votre LLM dans l'informatique en nuage. Les LLM sont des outils puissants, mais leur utilisation nécessite des ressources considérables, même s'il s'agit de logiciels libres.
- Pouvez-vous atteindre vos objectifs avec un modèle pré-entraîné ? Pourquoi investir de l'argent et de l'énergie dans l'entraînement de votre LLM à partir de zéro si vous pouvez simplement utiliser un modèle pré-entraîné ? Il existe de nombreuses versions de LLM à code source ouvert formées pour un cas d'utilisation spécifique. Si votre idée correspond à l'un de ces cas d'utilisation, foncez.
Renforcer votre équipe grâce à l'IA et aux LLM
Les programmes d'éducation et de formation tout au long de la vie à code source ouvert ne sont pas réservés à des projets ou à des intérêts particuliers. Alors que la révolution de l'IA générative continue de s'accélérer, les entreprises reconnaissent l'importance cruciale de comprendre et de mettre en œuvre ces outils. Les LLM sont déjà devenus essentiels pour alimenter les applications d'IA avancées, des chatbots aux tâches de traitement de données complexes. S'assurer que votre équipe maîtrise les technologies d'IA et de LLM n'est plus seulement un avantage concurrentiel, c'est une nécessité pour préparer l'avenir de votre entreprise.
Si vous êtes un chef d'équipe ou un propriétaire d'entreprise cherchant à doter votre équipe d'une expertise en IA et LLM, DataCamp for Business propose des programmes de formation complets qui peuvent aider vos employés à acquérir les compétences nécessaires pour tirer parti de ces outils puissants. Nous fournissons :
- Des parcours d'apprentissage ciblés en matière d'IA et de LLM: Personnalisable pour s'aligner sur les connaissances actuelles de votre équipe et les besoins spécifiques de votre entreprise, il couvre tout, des concepts de base de l'IA au développement avancé du LLM.
- Pratique de l'IA : Des projets concrets axés sur la construction et le déploiement de modèles d'IA, y compris l'utilisation de LLM populaires tels que GPT-4 et d'alternatives open-source.
- Suivi des progrès en matière de compétences en IA : Des outils pour suivre et évaluer les progrès de votre équipe, en veillant à ce qu'elle acquière les compétences nécessaires pour développer et mettre en œuvre des solutions d'IA de manière efficace.
Investir dans l'IA et la montée en compétences des LLM permet non seulement de renforcer les capacités de votre équipe, mais aussi de positionner votre entreprise à la pointe de l'innovation, en vous permettant d'exploiter tout le potentiel de ces technologies transformatrices. Contactez notre équipe pour demander une démonstration et commencer dès aujourd'hui à mettre en place votre personnel prêt pour l'IA..
Conclusion
Les masters en droit à source ouverte font l'objet d'un mouvement passionnant. Compte tenu de leur évolution rapide, il semble que l'espace de l'IA générative ne sera pas nécessairement monopolisé par les grands acteurs qui peuvent se permettre de construire et d'utiliser ces outils puissants.
Nous n'avons vu que huit LLM à source ouverte, mais leur nombre est bien plus élevé et augmente rapidement. DataCamp continuera à fournir des informations sur les dernières nouveautés dans le domaine du LLM, en proposant des cours, des articles et des tutoriels sur le LLM. Pour l'instant, consultez notre liste de documents sélectionnés :
- Grands modèles de langage (LLM) Concepts Course
- Comment créer des applications LLM avec LangChain
- Comment former un LLM avec PyTorch
- LlamaIndex : Ajout de données à caractère personnel aux modules d'apprentissage tout au long de la vie
- Avantages et inconvénients de l'utilisation des LLM dans le nuage par rapport à l'exécution locale des LLM
FAQ
Qu'est-ce qu'un master en droit de l'environnement à source ouverte ?
Les grands modèles linguistiques (LLM) à source ouverte sont des modèles dont le code source et l'architecture sont accessibles au public en vue de leur utilisation, de leur modification et de leur distribution. Ils sont construits à l'aide d'algorithmes d'apprentissage automatique qui traitent et génèrent des textes semblables à ceux d'un être humain. En tant que source ouverte, ils favorisent la transparence, l'innovation et la collaboration de la communauté dans leur développement et leur application.
Pourquoi les masters en droit à source ouverte sont-ils importants ?
Les LLM open-source démocratisent l'accès à l'IA de pointe, permettant aux développeurs du monde entier de contribuer aux progrès de l'IA et d'en bénéficier sans les coûts élevés associés aux modèles propriétaires. Ils améliorent la transparence, favorisent la confiance et permettent une personnalisation pour répondre à des besoins spécifiques.
Quels sont les problèmes les plus fréquents que posent les programmes d'éducation et de formation tout au long de la vie à source ouverte ?
Parmi les défis à relever, citons les exigences élevées en matière de calcul pour la course et l'entraînement, qui peuvent constituer un obstacle pour les particuliers ou les petites organisations. Le maintien et la mise à jour des modèles pour rester au fait des dernières recherches et des normes de sécurité peuvent également être exigeants sans un soutien structuré.
Obtenez une certification de haut niveau en matière d'IA
Je suis analyste de données indépendant et je collabore avec des entreprises et des organisations du monde entier dans le cadre de projets de science des données. Je suis également formateur en science des données avec plus de 2 ans d'expérience. Je rédige régulièrement des articles sur les sciences des données en anglais et en espagnol, dont certains ont été publiés sur des sites web réputés tels que DataCamp, Towards Data Science et Analytics Vidhya En tant que scientifique des données ayant une formation en sciences politiques et en droit, mon objectif est de travailler à l'interaction des politiques publiques, du droit et de la technologie, en tirant parti du pouvoir des idées pour faire avancer des solutions et des récits innovants qui peuvent nous aider à relever des défis urgents, à savoir la crise climatique. Je me considère comme un autodidacte, un apprenant permanent et un fervent partisan de la pluridisciplinarité. Il n'est jamais trop tard pour apprendre de nouvelles choses.
Commencez dès aujourd'hui votre voyage dans l'IA !
Track
Principes de l'IA
Course