cours
Tout ce que nous savons sur le GPT-5
Cela fait déjà plus d'un an que le ChatGPT a été lancé et ouvert au public. Au départ, il nous a tous stupéfiés par sa capacité à comprendre et à générer du langage naturel.
Cependant, la progression constante de l'innovation dans le domaine de l'IA signifie que l'OpenAI ne peut pas être sous les feux de la rampe. Du lancement de Bard de Google à l'annonce de son nouveau modèle de pointe Gemini, en passant par l'arrivée de nouveaux concurrents comme Anthropic et le fort mouvement open-source boosté par LLaMA de Meta, l'OpenAI devra évoluer rapidement si elle veut conserver son avance dans le domaine de l'IA.
Aujourd'hui, alors que nous sommes à l'aube d'une nouvelle étape technologique, les attentes à l'égard du GPT-5 ne cessent de croître. Elle est principalement alimentée par notre imagination et les spéculations qui circulent au sein de la communauté technologique.
Cet article tente de faire la lumière sur ce que l'on peut attendre du GPT-5, en s'inspirant de ses prédécesseurs comme le GPT-4 et de la trajectoire des principales avancées dans le domaine de l'IA.
Il est important de considérer qu'une grande partie de ce qui est discuté ici est basé sur des prédictions, peignant une image d'un avenir à la fois excitant et, jusqu'à présent, extrêmement incertain.
Essayons donc de découvrir la vérité sur ce qui nous attend avec le GPT-5.
Qu'est-ce que le GPT-5 ?
Generative Pre-trained Transformer ou GPT est une série de grands modèles de langage (LLM) développés par OpenAI qui ont influencé de manière significative les domaines de la ML et de l'IA.
Le GPT, à la base, est conçu pour comprendre et générer un texte de type humain sur la base des données qu'il reçoit. Ces modèles sont formés à partir de vastes ensembles de données. La famille de modèles GPT a contribué à populariser les applications basées sur le LLM, établissant de nouvelles références pour ce qui est possible dans le traitement du langage naturel, la génération et au-delà.
Le GPT-5 représente la prochaine itération de la série GPT. Certains d'entre vous se demandent peut-être ce que signifie la prochaine itération. Jetons un coup d'œil sur l'histoire des modèles TPG jusqu'à présent :
GPT-1
En 2018, OpenAI a introduit le concept de pré-entraînement génératif avec GPT-1, en utilisant une architecture de transformateur pour améliorer la compréhension du langage naturel. Ce modèle, décrit dans leur article intitulé "Improving Language Understanding by Generative Pre-Training", a servi de preuve de concept et n'a pas été rendu public.
GPT-2
Un an plus tard, l'OpenAI a publié GPT-2, qui présente des améliorations significatives en matière de génération de texte. Le GPT-2 était capable de générer de courts passages de texte, ce qui constituait une avancée notable par rapport à son prédécesseur. Il était accessible au public, ce qui a permis d'élargir l'expérimentation dans la communauté de l'apprentissage automatique.
GPT-3
Avec la publication de GPT-3 en 2020, OpenAI a considérablement augmenté la taille de son modèle, avec 100 fois plus de paramètres que GPT-2. Cette expansion a permis à GPT-3 de produire des textes beaucoup plus longs et plus cohérents, et de réaliser des performances impressionnantes dans diverses tâches. L'introduction de ChatGPT, une itération de la série GPT-3.5 axée sur la conversation, a démontré la remarquable capacité du modèle à générer des textes semblables à ceux d'un être humain. Le modèle a été rapidement adopté et a atteint 100 millions d'utilisateurs en l'espace de deux mois seulement.
GPT-4
Le GPT-4, dernier né de la série, affine encore les capacités introduites par ses prédécesseurs. Avec un ensemble de données encore plus important et davantage de paramètres, GPT-4 améliore les capacités de compréhension et de génération de langage naturel de GPT-3. Il est plus performant lorsqu'il s'agit de générer des textes cohérents et pertinents en fonction du contexte sur de longs passages et fait preuve d'une meilleure compréhension dans des scénarios de conversation complexes.
Les avancées de GPT-4 comprennent une compréhension plus nuancée du contexte, une amélioration de la factualité et une réduction de la production de contenu biaisé ou nuisible. Son adoption s'étend à diverses applications, des agents conversationnels avancés aux outils de création de contenu sophistiqués, ce qui souligne sa polyvalence et l'évolution constante des technologies de traitement du langage naturel basées sur l'IA.
En novembre 2023, OpenAI a dévoilé GPT-4 Turbo with Vision, qui a mis à jour plusieurs fonctionnalités. Puis, en mai 2024, le GPT-4o a été lancé, un modèle multimodal qui offre des vitesses encore plus rapides et des coûts plus bas. Vous pouvez en savoir plus sur l 'évolution de la famille GPT dans notre article précédent concernant GPT-4.
GPT-5
Le GPT-5 représente donc probablement la prochaine version du transformateur génératif pré-entraîné (Generative Pre-trained Transformer).
Bien que les informations sur la prochaine itération potentielle soient rares, nous savons que le GPT-4 a présenté des améliorations significatives par rapport à ses prédécesseurs, en particulier en ce qui concerne sa capacité de raisonnement logique. Même s'il ignore tout des événements qui se dérouleront au-delà d'avril 2023, le GPT-4 dispose d'une base de connaissances générales plus étendue et d'une compréhension plus approfondie de notre monde. Tout indique donc que le GPT-5 suivra la même tendance et améliorera le modèle actuel du GPT-4.
Une image créée avec DALLE-3 dans le GPT-4 avec l'invite "l'évolution des modèles GPT".
Quand le GPT-5 sera-t-il publié ?
Lors d'une discussion entre Sam Altman et Bill Gates en janvier 2024, ce dernier a reçu la confirmation que le travail sur le GPT-5 avait commencé, sans donner d'indice sur la date de sortie.
Nous pouvons considérer ce qui s'est passé avec GPT-4 pour essayer de prédire ce qui pourrait se passer avec le lancement de GPT-5. Bien que l'OpeanAI ait publié GPT-4 quelques mois seulement après ChatGPT, nous savons que le cycle de développement de GPT-4, comprenant une phase de formation, de développement et de test, a duré plus de deux ans.
Par conséquent, si le GPT-5 suit un calendrier similaire, son lancement pourrait s'étendre jusqu'à la fin de l'année 2025. Même si ce nouveau lancement semble lointain, cela ne signifie pas nécessairement qu'OpenAI ne continuera pas à améliorer GPT-4.
Il est très probable qu'OpenAI continue d'améliorer GPT-4, et nous pourrions voir l'introduction d'une mise à jour intermédiaire, GPT-4.5, comme nous l'avons déjà vu avec GPT-3.5.
Quelles sont les caractéristiques que l'on peut attendre du GPT-5 ?
La sortie du GPT-5 pouvant avoir lieu dans un an ou deux, la plupart des prévisions concernant ses avancées sont basées sur les tendances actuelles façonnées par Google et les initiatives d'IA à code source ouvert. Ces développements nous donnent des indications précieuses sur l'orientation future de l'industrie.
Cependant, les premiers indices proviennent directement de l'équipe centrale de l'OpenAI. Lors de l'entretien avec M. Gates, M. Altman a souligné que les efforts de l'OpenAI se concentreraient sur l'amélioration des capacités de raisonnement et sur l'intégration de capacités de traitement vidéo.
Essayons donc d'y voir un peu plus clair et d'examiner les principales améliorations attendues du GPT-5.
Taille des paramètres
Bien que la taille exacte des paramètres du GPT-4 ne soit pas encore connue, la tendance actuelle est à l'élaboration de modèles plus complexes et plus performants. La plupart des sources indiquent que le nombre de paramètres pourrait être de l'ordre de 1,5 trillion.
Image par l'auteur. Famille GPT nombre de paramètres évolution.
Si cette trajectoire se poursuit, le GPT-5 pourrait redéfinir les limites des LLM actuels, en offrant une taille sans précédent.
Multimodalité
Étant donné que le modèle GPT-4 existant prend déjà en charge les fonctionnalités de la parole et de l'image, l 'intégration du traitement vidéo apparaît comme une progression naturelle pour le modèle GPT-5. Google a déjà commencé à expérimenter cette fonction dans son modèle Gemini, et ce n'est qu'une question de temps avant que la concurrence n'oblige OpenAI à innover également.
Par conséquent, le GPT-5 pourrait améliorer les capacités multimodales actuelles du GPT-4 et ajouter de nouvelles fonctionnalités telles que l'intégration de la vidéo, ce qui entraînerait un changement radical dans la manière dont nous interagissons avec l'IA, en permettant des formes de communication plus naturelles et plus polyvalentes.
Du chatbot à l'agent
Le passage des chatbots à des agents entièrement autonomes est une autre frontière passionnante. Imaginez que vous puissiez assigner des tâches ou des emplois subalternes à une application alimentée par GPT. Cela pourrait devenir une réalité si OpenAI continue d'intégrer des services tiers. Nous avons déjà assisté à l'introduction de GPT personnalisés, et ce phénomène va probablement continuer à se développer.
Cette nouvelle fonctionnalité permettrait au GPT-5 de se connecter à divers services et d'effectuer des actions dans le monde de manière transparente, en agissant au nom des utilisateurs pour accomplir des tâches sans supervision humaine directe. Par exemple, nous pourrions demander à un agent autonome de faire nos courses en fonction de nos préférences alimentaires.
Une meilleure précision
À chaque itération, la précision des modèles GPT s'est améliorée, ce qui les rend plus fiables pour comprendre le contexte et générer des réponses appropriées. Une nouvelle génération de modèles GPT impliquerait une augmentation de la taille et de la variété des ensembles de données d'entraînement.
Le modèle GPT-4 actuel est 40 % plus performant que son prédécesseur GPT-3. Le modèle GPT-5 devrait donc poursuivre cette tendance, en réduisant les erreurs et en améliorant la fidélité de ses interactions.
Augmentation du nombre de fenêtres contextuelles
L'une des limites des modèles actuels est la taille de la fenêtre contextuelle qu'ils peuvent prendre en compte pour générer des réponses. Étant donné que le GPT-5 pourrait être entraîné avec une plus grande quantité de données, on s'attend à ce qu'il dispose d'une fenêtre contextuelle élargie, lui permettant de comprendre et de référencer de plus grandes portions de texte, ce qui conduira à des résultats plus cohérents et plus pertinents sur le plan contextuel.
Utilisation rentable de l'API OpenAI
Avec l'apparition de nouveaux modèles, on peut également s'attendre à une réduction du coût d'utilisation de l'API OpenAI, ce qui rendra les technologies telles que GPT-4 et GPT-3.5 plus accessibles. Le lancement du GPT-5 pourrait signifier que le GPT-4 deviendra accessible et moins cher à utiliser.
Cette démocratisation de l'accès pourrait susciter une vague d'innovation, permettant à un plus grand nombre de développeurs et d'organisations d'intégrer l'IA avancée dans leurs applications.
Lorsqu'ils seront moins chers et plus accessibles, les modèles GPT pourraient devenir plus performants pour effectuer des tâches complexes telles que le codage ou la recherche. Si vous n'avez pas encore essayé l' API d'OpenAI, je vous recommande vivement de suivre le guide de DataCamp sur l'API d'OpenAI pour en avoir un aperçu.
Conclusion
Alors que nous attendons avec impatience des détails concrets sur le GPT-5, il est crucial de se rappeler que nos discussions actuelles sont enracinées dans la spéculation et la simple prédiction basée sur des faits historiques, les tendances générales de l'IA, et quelques petits indices que l'équipe de l'OpenAI semble partager.
L'histoire suggère que nous pourrions voir des mises à jour incrémentales, comme une GPT-4.5, avant l'arrivée de la GPT-5 à moyen terme.
Quelle que soit l'époque, l'évolution de la série GPT continue de captiver l'imagination, promettant un avenir où le potentiel de l'IA n'est limité que par notre capacité à envisager ses applications.
Si vous êtes impatient de commencer à explorer tout ce que les modèles GPT ont à offrir, commencez par notre cours Introduction au ChatGPT ou, si vous êtes déjà familier avec le modèle, notre webinaire sur l'utilisation de l'analyse avancée des données du ChatGPT.
Josep est data scientist et chef de projet à l'Office du tourisme de Catalogne, où il utilise les données pour améliorer l'expérience des touristes en Catalogne. Son expertise comprend la gestion du stockage et du traitement des données, associée à des analyses avancées et à la communication efficace des données.
Il est également un éducateur dévoué, enseignant le programme de Master Big Data à l'Université de Navarre, et contribuant régulièrement à des articles perspicaces sur la science des données sur Medium et KDNuggets.
Il est titulaire d'une licence en ingénierie physique de l'université polytechnique de Catalogne et d'une maîtrise en systèmes interactifs intelligents de l'université Pompeu Fabra.
Actuellement, il s'engage avec passion à rendre les technologies liées aux données plus accessibles à un public plus large par le biais de la publication ForCode'Sake sur Medium.
Commencez dès aujourd'hui votre voyage dans l'IA !
cours
Travailler avec l'API OpenAI
cours