cursus
Tutoriel de l'API GPT-4o : Débuter avec l'API d'OpenAI
Le GPT-4o d'OpenAI intègre des capacités audio, visuelles et textuelles dans un modèle linguistique unique et puissant.
Cette évolution marque un pas important vers une interaction homme-machine plus naturelle et plus intuitive.
Dans ce tutoriel, je vous guiderai pas à pas dans l'utilisation de GPT-4o via l'API OpenAI.
Même si OpenAI a récemment lancé le modèle O1 - son modèle de raisonnement le plus performant -, les modèles GPT-4o et GPT-4o mini restent les meilleures options pour les applications qui nécessitent des réponses rapides, la manipulation d'images ou l'appel de fonctions. Si votre projet nécessite un raisonnement avancé, n'hésitez pas à consulter ce tutoriel sur l'API O1 d'OpenAI.
Qu'est-ce que le GPT-4o ?
GPT-4o, abréviation de "omni", représente une avancée significative en matière d'IA. Contrairement au GPT-4, qui ne traite que du texte, le GPT-4o est un modèle multimodal qui traite et génère des données textuelles, audio et visuelles.
En intégrant des données audio et visuelles en plus du texte, GPT-4o s'affranchit des contraintes des modèles traditionnels basés uniquement sur le texte, créant ainsi des interactions plus naturelles et plus intuitives.
Le GPT-4o a un temps de réponse plus rapide, est 50 % moins cher que le GPT-4 Turbo et est plus performant que les modèles existants en matière de compréhension audio et visuelle.
Si vous souhaitez obtenir une vue d'ensemble plus détaillée du GPT-4o, consultez cet article sur ce qu'est le GPT-4o d'OpenAI.
Cas d'utilisation du GPT-4o
En plus d'interagir avec GPT-4o via l'interface ChatGPT, les développeurs peuvent interagir avec GPT-4o via l 'API OpenAI, ce qui leur permet d'intégrer les capacités de GPT-4o dans leurs applications et systèmes.
L'API GPT-4o ouvre la voie à une vaste gamme de cas d'utilisation potentiels grâce à ses capacités multimodales :
Modalité | Cas d'utilisation | Description |
Texte | Génération de texte, résumé de texte, analyse de données et codage | Création de contenu, résumés concis, explications de code et assistance au codage. |
Audio | Transcription audio, traduction en temps réel, génération audio | Convertissez l'audio en texte, traduisez en temps réel, créez des assistants virtuels ou des cours de langue. |
Vision | Légende des images, analyse et logique des images, accessibilité pour les malvoyants | Décrire des images, analyser des informations visuelles, assurer l'accessibilité pour les malvoyants. |
Multi | Interactions multimodales, scénarios de jeux de rôle | Combinez les modalités en toute transparence et créez des expériences immersives. |
GPT-4o API : Comment se connecter à l'API d'OpenAI
Voyons maintenant comment utiliser GPT-4o via l'API OpenAI.
Étape 1 : Générer une clé API
Avant d'utiliser l'API GPT-4o, nous devons créer un compte OpenAI et obtenir une clé API. Vous pouvez créer un compte sur le site de l'API OpenAI.
Une fois que nous avons un compte, nous pouvons naviguer jusqu'à la page des clés API :
Nous pouvons maintenant générer une clé API. Nous devons le mettre en sécurité, car nous ne pourrons pas le consulter à nouveau. Mais nous pouvons toujours en générer un nouveau si nous le perdons ou si nous en avons besoin pour un autre projet.
Étape 2 : Importer l'API OpenAI dans Python
Pour interagir avec l'API GPT-4o de manière programmatique, nous aurons besoin d'installer la bibliothèque OpenAI Python. Pour ce faire, exécutez la commande suivante :
Une fois installés, nous pouvons importer les modules nécessaires dans notre script Python :
from openai import OpenAI
Étape 3 : Effectuer un appel à l'API
Avant de pouvoir effectuer des requêtes API, nous devons nous authentifier à l'aide de notre clé API :
## Set the API keyclient = OpenAI(api_key="your_api_key_here")
Remplacez "your_api_key_here"
par votre véritable clé API.
Une fois la connexion client établie, nous pouvons commencer à générer du texte à l'aide de GPT-4o :
MODEL="gpt-4o"completion = client.chat.completions.create( model=MODEL, messages=[ {"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"}, {"role": "user", "content": "Hello! Could you solve 20 x 5?"} ])print("Assistant: " + completion.choices[0].message.content)
Cet extrait de code utilise l'API de complétion des chats avec le modèle GPT-4o, qui accepte des questions liées aux mathématiques en entrée et génère une réponse :
GPT-4o API : Cas d'utilisation audio
La transcription et le résumé audio sont devenus des outils essentiels dans diverses applications, qu'il s'agisse d'améliorer l'accessibilité ou la productivité. Grâce à l'API GPT-4o, nous pouvons traiter efficacement des tâches telles que la transcription et le résumé de contenus audio.
Bien que GPT-4o ait le potentiel de gérer directement l'audio, la fonction d'entrée audio directe n'est pas encore disponible par le biais de l'API. Pour l'instant, nous pouvons utiliser un processus en deux étapes avec l'API GPT-4o pour transcrire et résumer le contenu audio.
Étape 1 : Transcription de l'audio en texte
Pour transcrire un fichier audio à l'aide de GPT-4o, nous devons fournir les données audio à l'API. En voici un exemple :
# Transcribe the audioaudio_path = "path/to/audio.mp3"transcription = client.audio.transcriptions.create( model="whisper-1", file=open(audio_path, "rb"),)
Remplacez "path/to/audio.mp3"
par le chemin d'accès à votre fichier audio. Cet exemple utilise le modèle whisper-1
pour la transcription.
Étape 2 : Résumer un texte audio
response = client.chat.completions.create( model=MODEL, messages=[ {"role": "system", "content":"""You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""}, {"role": "user", "content": [ {"type": "text", "text": f"The audio transcription is: {transcription.text}"} ], } ], temperature=0,)print(response.choices[0].message.content)
GPT-4o API : Cas d'utilisation de la vision
L'analyse visuelle des données est cruciale dans divers domaines, des soins de santé à la sécurité et au-delà. Avec l'API GPT-4o, vous pouvez analyser des images de manière transparente, engager des conversations sur le contenu visuel et extraire des informations précieuses des images.
Étape 1 : Ajouter des données d'image à l'API
Pour analyser une image à l'aide de GPT-4o, nous devons d'abord fournir les données de l'image à l'API. Pour ce faire, nous pouvons soit encoder une image locale sous la forme d'une chaîne base64
, soit fournir l'URL d'une image en ligne :
import base64IMAGE_PATH = "image_path"# Open the image file and encode it as a base64 stringdef encode_image(image_path): with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read()).decode("utf-8")base64_image = encode_image(IMAGE_PATH)
"url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"
Étape 2 : Analyser les données de l'image
Une fois que nous avons traité l'entrée de l'image, nous pouvons transmettre les données de l'image à l'API pour analyse.
Essayons d'analyser une image pour déterminer la surface d'une forme. Utilisons d'abord l'image ci-dessous :
Nous allons maintenant demander à GPT-4o de demander la surface de cette forme - remarquez que nous utilisons une image base64 ci-dessous :
response = client.chat.completions.create( model=MODEL, messages=[ {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"}, {"role": "user", "content": [ {"type": "text", "text": "What's the area of the shape in this image?"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"} } ]} ], temperature=0.0,)print(response.choices[0].message.content)
Examinons maintenant cette forme :
Nous transmettrons l'URL de l'image à GPT-4o pour trouver la surface de la forme :
response = client.chat.completions.create( model=MODEL, messages=[ {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"}, {"role": "user", "content": [ {"type": "text", "text": "What's the area of the shape in the image?"}, {"type": "image_url", "image_url": { "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"} } ]} ], temperature=0.0,)print(response.choices[0].message.content)
Remarquez que le GPT-4o a mal mesuré la largeur du rectangle vertical - elle devrait être de quatre centimètres, et non de deux. Cet écart provient du décalage entre les étiquettes de mesure et les proportions réelles du rectangle. Cela souligne une fois de plus l'importance de la supervision et de la validation humaines.
Prix de l'API GPT-4o
OpenAI a introduit une structure de prix compétitive pour l'API GPT-4o, la rendant plus accessible et plus rentable que les modèles précédents.
Voici un résumé des prix des modèles Claude d'Antropic et Gemini de Google (les prix sont en dollars américains) :
Comme vous pouvez le constater, le prix du GPT-4o est nettement inférieur à celui du GPT-4 Turbo et du GPT-4. Son prix est également compétitif par rapport à d'autres modèles linguistiques de pointe tels que Claude Opus et Gemini 1.5 Pro.
GPT-4o API : Principales considérations
Lorsque vous travaillez avec l'API GPT-4o, il est important de garder à l'esprit quelques considérations clés pour garantir des performances optimales, un bon rapport coût-efficacité et un alignement sur chaque cas d'utilisation spécifique. Voici trois facteurs cruciaux à prendre en considération :
Tarification et gestion des coûts
L'API OpenAI suit un modèle de paiement à l'utilisation, où les coûts sont basés sur le nombre de jetons traités.
Bien que le GPT-4o soit moins cher que le GPT-4 Turbo, il est essentiel de planifier notre utilisation en conséquence pour estimer et gérer les coûts.
Pour minimiser les coûts, vous pouvez envisager des techniques telles que la mise en lots et l'optimisation des invites afin de réduire le nombre d'appels API et de jetons traités.
Temps de latence et performances
Même si le GPT-4o offre des performances impressionnantes et une faible latence, il s'agit toujours d'un modèle linguistique de grande taille, ce qui signifie que le traitement des demandes peut être intensif en termes de calcul, ce qui entraîne une latence relativement élevée.
Nous devons optimiser notre code et utiliser des techniques telles que la mise en cache et le traitement asynchrone pour atténuer les problèmes de latence.
En outre, nous pouvons envisager d'utiliser les instances dédiées d'OpenAI ou d'adapter le modèle à notre cas d'utilisation spécifique, ce qui peut améliorer les performances et réduire la latence.
Alignement des cas d'utilisation
GPT-4o est un modèle général puissant qui offre un large éventail de possibilités, mais nous devons veiller à ce que notre cas d'utilisation spécifique s'aligne sur les points forts du modèle.
Avant de se fier uniquement à GPT-4o, nous devons évaluer soigneusement notre cas d'utilisation et déterminer si les capacités du modèle répondent à nos besoins.
Si nécessaire, nous pourrions affiner des modèles plus petits ou explorer d'autres modèles qui pourraient être mieux adaptés à notre tâche particulière.
Conclusion
Les capacités multimodales de GPT-4o répondent aux limites des modèles antérieurs qui peinaient à intégrer et à traiter différents types de données de manière transparente.
En exploitant l'API GPT-4o, les développeurs peuvent créer des solutions innovantes qui intègrent de manière transparente des données textuelles, audio et visuelles.
Si vous souhaitez vous entraîner davantage avec GPT-4o, je vous recommande ce code-along sur la création d'assistants IA avec GPT-4o. De même, si vous souhaitez en savoir plus sur le travail avec les API, je vous recommande ces ressources :
FAQ
Qu'est-ce que le GPT-4o et en quoi diffère-t-il des modèles précédents ?
GPT-4o est un modèle de langage multimodal développé par OpenAI, capable de traiter et de générer des données textuelles, audio et visuelles. Contrairement aux modèles précédents, comme le GPT-4, qui ne traitaient que le texte, le GPT-4o intègre des informations audio et visuelles, ce qui permet des interactions plus naturelles et des capacités accrues dans toutes les modalités.
Comment les développeurs peuvent-ils accéder à GPT-4o via l'API OpenAI ?
Les développeurs peuvent accéder à GPT-4o via l'API OpenAI en s'inscrivant à un compte OpenAI, en obtenant une clé API et en installant la bibliothèque OpenAI Python.
Quels sont les coûts d'utilisation de l'API GPT-4o et comment se situe-t-elle par rapport à d'autres modèles ?
L'API GPT-4o suit un modèle de paiement à l'utilisation, avec des coûts basés sur le nombre de jetons traités. Par rapport aux modèles précédents comme le GPT-4, le GPT-4o offre une réduction de 50 % des coûts, ce qui le rend plus abordable. Une comparaison des prix avec d'autres modèles est fournie dans l'article.
Le GPT-4o peut-il être adapté à des cas d'utilisation ou à des secteurs d'activité spécifiques ?
Oui, le GPT-4o peut être adapté à des cas d'utilisation ou à des secteurs spécifiques grâce à des techniques telles que l'apprentissage par transfert. En affinant les données ou les tâches spécifiques à un domaine, les développeurs peuvent améliorer les performances du modèle et l'adapter à leurs besoins particuliers.
Quelles sont les ressources disponibles pour poursuivre l'apprentissage et la mise en œuvre de l'API GPT-4o ?
Diverses ressources, y compris des tutoriels, des cours et des exemples pratiques, sont disponibles pour approfondir l'apprentissage et la mise en œuvre de l'API GPT-4o. L'article recommande d'explorer le cours Working with the OpenAI API de DataCamp, le livre de cuisine OpenAI et l'antisèche de DataCamp pour une référence rapide et des conseils pratiques de mise en œuvre.
Quand dois-je utiliser le GPT-4o ou le GPT-4o-mini ?
Le GPT-4o est idéal pour les cas d'utilisation plus complexes qui nécessitent une analyse approfondie, une compréhension de la langue ou des interactions plus longues. En revanche, le GPT-4o-mini est plus rapide et plus économique, ce qui le rend plus adapté aux tâches légères ou lorsqu'une réponse rapide est nécessaire. Les deux modèles offrent des capacités multimodales, mais le GPT-4o excelle lorsque des raisonnements plus avancés et une interaction entre les modalités sont essentiels.
Comment l'API GPT-4o se compare-t-elle à l'API o1 pour des cas d'utilisation spécifiques ?
Alors que le GPT-4o est excellent pour les tâches impliquant des données multimodales (texte, audio et images), l'API o1 brille dans les tâches de raisonnement et de résolution de problèmes complexes, en particulier pour les sciences, le codage et les mathématiques. Si vous avez besoin de réponses rapides avec un raisonnement modéré, GPT-4o est votre meilleur choix. Cependant, pour les tâches nécessitant une analyse logique approfondie et de la précision, comme la génération de codes complexes ou la résolution de problèmes mathématiques avancés, l'API o1 offre des capacités plus importantes.
Obtenez une certification de haut niveau en matière d'IA
Ryan est un data scientist de premier plan spécialisé dans la création d'applications d'IA utilisant des LLM. Il est candidat au doctorat en traitement du langage naturel et graphes de connaissances à l'Imperial College de Londres, où il a également obtenu une maîtrise en informatique. En dehors de la science des données, il rédige une lettre d'information hebdomadaire Substack, The Limitless Playbook, dans laquelle il partage une idée exploitable provenant des plus grands penseurs du monde et écrit occasionnellement sur les concepts fondamentaux de l'IA.
Apprenez l'IA avec ces cours !
cursus
Principes de base de l'IA pour les entreprises
cours