Tutoriel Google AI Studio : Guide complet des modes Chat, Création et Diffusion

Découvrez comment utiliser les modes Chat, Build et Stream de Google AI Studio pour créer des prototypes avec les modèles Gemini.

Actualisé 17 déc. 2025 · 12 min lire

Développer à l'aide de modèles d'IA implique généralement de gérer les clés API, de consulter la documentation et de rédiger du code standard avant de pouvoir tester une seule invite. Google AI Studio vous évite cette configuration et vous permet d'accéder directement à un environnement de test basé sur un navigateur, où vous pouvez interagir avec les modèles Gemini, générer des médias et créer des prototypes d'applications sans avoir à manipuler de code.

Ce tutoriel présente les principales fonctionnalités de Google AI Studio : Mode Chat pour les tests rapides, mode Stream pour les interactions vocales et vidéo, mode Build pour la création d'applications avec langage naturel, et outils de génération de médias pour les images, les vidéos et l'audio.

Vous découvrirez quels modèles Gemini utiliser pour différentes tâches et comment exporter vos prototypes vers un code prêt pour la production. Pour connaître les dernières annonces de Google concernant l'IA cette année, veuillez consulter notre guide sur Gemini 3 et notre tutoriel Google Antigravity. Vous pouvez également apprendre comment créer des agents IA avec Google ADK.

Qu'est-ce que Google AI Studio ?

Google AI Studio est une plateforme gratuite accessible via un navigateur qui permet de créer des prototypes à l'aide des modèles d'IA Gemini. Il propose un mode Chat pour tester les invites, un mode Build pour créer des applications React à partir du langage naturel et un mode Stream pour les interactions vocales et vidéo, le tout sans avoir à écrire de code de configuration.

Commencer à utiliser Google AI Studio

La prise en main de Google AI Studio ne nécessite pas plus d'une minute. Veuillez vous rendre sur aistudio.google.com et connectez-vous avec n'importe quel compte Google. Aucune installation n'est nécessaire, aucune carte de crédit n'est requise et il n'y a pas de période d'attente. La plateforme fonctionne entièrement dans votre navigateur.

L'interface utilise une barre latérale gauche pour la navigation, avec cinq sections principales : Accueil, Espace de jeu, Créer, Tableau de bord et Documentation. La page d'accueil présente trois cartes d'action permettant d'accéder rapidement à des tâches courantes telles que discuter avec des modèles ou créer des applications. Au bas de la barre latérale, vous trouverez des liens vers « Obtenir une clé API » et « Paramètres » pour gérer votre compte.

Page d'accueil de Google AI Studio

Pour commencer à utiliser l'API Gemini dans vos propres applications, veuillez cliquer sur « Obtenir une clé API » en bas de la barre latérale gauche. Cela ouvre la page de gestion des clés API, où vous pouvez créer de nouvelles clés à l'aide du bouton « Créer une clé API ».

Le niveau gratuit vous offre un accès immédiat avec des limites de débit adaptées au prototypage (allant de 5 à 15 requêtes par minute, selon le modèle). Pour bénéficier de limites plus élevées et d'une utilisation en production, vous pouvez passer à un niveau payant.

Page de gestion des clés API

Veuillez conserver votre clé API en lieu sûr et éviter de la stocker dans des référentiels publics.

Avant de commencer vos essais, il est important de déterminer quel modèle Gemini convient le mieux à votre tâche. AI Studio vous offre plusieurs options, chacune présentant des avantages distincts.

Quels modèles sont disponibles dans Google AI Studio ?

Vous trouverez plusieurs modèles Gemini dans AI Studio, chacun étant conçu pour des tâches différentes. Votre choix dépendra de vos priorités : optimisation de la puissance de raisonnement, de la vitesse, du coût ou de fonctionnalités spécialisées telles que la génération d'images.

Série Gemini 3 (dernière version)

Le modèle d'gemini-3-pro s gère les tâches de raisonnement complexes qui nécessitent une analyse approfondie. Il a obtenu un score de 1501 au classement Elo, ce qui le place en tête des modèles axés sur la réflexion en plusieurs étapes.

Avec une fenêtre contextuelle d'un million de tokens, vous pouvez lui fournir des bases de code ou des articles de recherche complets et obtenir jusqu'à 65 000 tokens en retour.

Le modèle comprend un paramètre d'thinking_level e qui vous permet d'augmenter ou de réduire la profondeur du raisonnement en fonction de votre tâche. Pour une analyse approfondie des fonctionnalités et des benchmarks de Gemini 3, veuillez consulterle guide Gemini 3 de DataCamp sur .

Pour la génération d'images, gemini-3-pro-image (surnommé Nano Banana Pro) est capable de créer des images 2K et 4K contenant du texte lisible. La plupart des modèles d'image ne parviennent pas à afficher correctement le texte, mais celui-ci le gère efficacement. Vous disposez de 65 000 jetons d'entrée et de 32 000 jetons de sortie pour travailler.

Veuillez noter l: La fonctionnalité Google Maps Grounding n'est pas disponible sur les modèles Gemini 3. Si vous avez besoin de fonctionnalités de localisation, nous vous recommandons Gemini 2.5 Pro.

Série Gemini 2.5

Le modèle de l'gemini-2.5-pro e privilégie une approche axée sur la réflexion, consacrant davantage de temps à un travail d'analyse complexe avant de répondre. Il correspond au contexte 1M et à la capacité de sortie 65K du Gemini 3 Pro, et c'est le seul modèle qui prend en charge la mise à la terre Google Maps.

Les variantes Flash privilégient la rapidité et le coût au détriment de la profondeur du raisonnement :

gemini-2.5-flash: Réponses plus rapides que les modèles Pro tout en conservant la fenêtre contextuelle 1M. Paramètre par défaut approprié pour les tâches générales

gemini-2.5-flash-lite: Conçu pour les tâches à volume élevé où vous exécutez des requêtes simples à grande échelle.

Comment sélectionner le modèle approprié dans Google AI Studio

Commencez par gemini-3-pro si vous travaillez sur des problèmes de codage, d'analyse mathématique ou tout autre sujet nécessitant un raisonnement étape par étape.

Passez à gemini-2.5-pro lorsque vous avez besoin d'une base cartographique ou que vous souhaitez adopter une approche axée sur la réflexion.

Pour la plupart des tâches quotidiennes, gemini-2.5-flash offre des performances fiables à un coût raisonnable.

Veuillez utiliser gemini-2.5-flash-lite lorsque vous traitez un volume élevé de requêtes simples.

Et optez pour gemini-3-pro-image lorsque vous avez besoin d'images accompagnées de texte lisible.

Les limites de débit du niveau gratuit varient de 5 à 15 requêtes par minute, selon le modèle que vous choisissez.

Maintenant que vous savez quel modèle utiliser, explorons comment interagir avec eux via le mode Chat, où vous pouvez tester des invites et affiner votre approche avant d'écrire du code.

Mode Chat et Playground d'AI Studio

Le Playground vous permet de tester des invites avec des commandes visuelles pour chaque paramètre. Vous pouvez modifier les paramètres, activer ou désactiver des outils et exporter l'ensemble de la configuration sous forme de code fonctionnel lorsque vous trouvez une solution qui fonctionne.

Interface Google AI Studio Playground affichant les instructions du système, les paramètres du modèle tels que la température et le niveau de réflexion, ainsi que les outils, notamment l'exécution de code et la recherche Google.

Les instructions système définissent le comportement du modèle pour l'ensemble de votre conversation, vous évitant ainsi de répéter le même contexte dans chaque invite. La température contrôle le caractère aléatoire des réponses : des valeurs faibles, autour de 0,3, permettent d'obtenir un formatage cohérent, tandis que des valeurs plus élevées, autour de 1,5, conviennent mieux à l'écriture créative. Le menu déroulant « Niveau de réflexion » sur les modèles Gemini 3 vous permet de privilégier la rapidité au détriment de la profondeur de raisonnement.

Veuillez sélectionner le modèle Nano Banana Pro dans le menu déroulant supérieur si vous souhaitez générer des images plutôt que du texte. Les mêmes paramètres de contrôle s'appliquent, mais vous obtiendrez des images 2K ou 4K avec un rendu de texte lisible.

Au-delà des images, le mode Chat prend également en charge d'autres types de médias. Veo 3 génère des vidéos avec audio natif et synchronisation labiale. Pour l'audio, vous pouvez utiliser la synthèse vocale ou Lyria 2 pour la génération musicale. Lyria RealTime permet la création musicale interactive, où le modèle réagit à vos actions en temps réel.

Des outils tels que Grounding with Google Search fournissent des informations actuelles lorsque les données d'entraînement du modèle sont insuffisantes.

L'exécution du code utilise directement Python pour les calculs ou le traitement des données. Les autres boutons permettent de se connecter à vos propres API, d'appliquer des schémas JSON ou d'intégrer des URL dans la conversation.

Ouvrir la boîte de dialogue « Obtenir le code » dans Google AI Studio pour afficher l'exportation du code Python avec l'implémentation de l'API Gemini.

Lorsque vous êtes prêt à passer de la phase de test à la phase de production, « Obtenir le code » exporte tout sous forme de code d'implémentation.

Le mode Stream va encore plus loin en ajoutant des interactions vocales et vidéo.

Mode Stream AI Studio (API Live)

Le mode Stream transforme les invites textuelles en conversations où Gemini peut vous voir et vous entendre. Vous communiquez avec le modèle via votre microphone, partagez votre écran et recevez des réponses vocales en temps réel sans avoir à taper.

Pour accéder au mode flux, veuillez vous rendre sur https://aistudio.google.com/live.

Interface du mode Stream de Google AI Studio affichant les boutons Talk, Webcam et Share Screen avec les paramètres vocaux et les options de configuration dans la barre latérale.

L'interface vous propose trois options : Utilisez la fonction « Parler » pour une interaction vocale uniquement, la webcam pour inclure une vidéo de vous-même ou la fonction « Partager l'écran » pour montrer ce qui s'affiche sur votre écran.

La détection d'activité vocale s'exécute automatiquement. Gemini attend que vous fassiez une pause avant de répondre, ce qui vous permet de réfléchir à votre explication sans avoir à cliquer entre chaque tour. Le modèle traite simultanément votre voix, toute vidéo provenant de votre webcam et tout ce que vous montrez.

Vous pouvez également sélectionner différentes voix pour les réponses du modèle, comme la voix « Zephyr » indiquée dans les paramètres. Le raisonnement interne du modèle apparaît dans des sections « Réflexions » extensibles, vous permettant de comprendre comment il est parvenu à chaque réponse.

Conversation en mode flux affichant l'interaction vocale avec des formes d'onde audio, les réflexions du modèle et les réponses en temps réel entre l'utilisateur et Gemini.

L'interaction mains libres est particulièrement utile pour les sessions de tutorat en direct, où il est nécessaire de montrer son travail et d'obtenir des conseils verbaux en temps réel.

Vous pouvez résoudre un problème mathématique tout en expliquant votre raisonnement à voix haute, et Gemini peut identifier les points où votre logique présente des failles. Le débogage est plus rapide lorsque vous pouvez afficher votre IDE et décrire l'erreur que vous rencontrez. Votre écran s'affiche en mode image dans l'image, ce qui permet à Gemini de visualiser précisément ce que vous montrez.

Mode flux avec partage d'écran actif, affichant une vue image dans l'image de l'écran partagé et les réponses audio pendant que Gemini analyse le contenu affiché.

Si vous répétez une présentation ou effectuez une démonstration, le mode Stream peut visionner vos diapositives et répondre à des questions sur le contenu. Cela est également utile lorsque vous apprenez à utiliser un nouveau logiciel. Vous pouvez présenter votre interface à Gemini, lui demander où trouver une fonctionnalité spécifique et obtenir des instructions pendant que vous naviguez.

Le mode flux convient aux situations où vous souhaitez échanger en temps réel à l'aide de la voix et d'éléments visuels. Pour les tâches impliquant beaucoup de texte, où il est nécessaire de copier des réponses ou de répéter des invites écrites, le mode Chat reste plus approprié. Alors que le mode Stream gère les interactions en temps réel, le mode Build vous permet de créer des applications complètes à partir de descriptions en langage naturel.

Mode de création AI Studio (codage Vibe)

Le mode Build transforme les descriptions en applications React fonctionnelles. Vous saisissez ce que vous souhaitez, et le modèle génère le code. Google appelle cela le « vibe coding », mais il s'agit simplement de passer de l'idée au prototype en moins d'une minute.

Page d'accueil du mode Création affichant une boîte de saisie rapide avec le sélecteur de modèle Gemini 3 Pro Preview, le bouton « Je me sens chanceux » et la section « Puces IA » présentant les options pour l'application Nano Banana, les applications vocales conversationnelles, l'animation vidéo Veo et l'intégration des données de recherche Google.

J'ai d'abord parcouru la galerie des débutants. Des applications telles que Shader Pilot démontrent les possibilités offertes : visualisations 3D interactives, pages d'accueil avec typographie personnalisée, et même petits jeux. Vous pouvez créer une fourchette à partir de n'importe quel exemple et modifier le code via le panneau assistant.

Galerie d'applications de démarrage présentant des exemples phares de Gemini 3 Pro, notamment des jeux en 3D, des applications multimodales et une section consacrée à de superbes pages d'accueil avec la visualisation des recherches d'AlphaQubit, la page événementielle du Lumina Festival et la démonstration de commerce électronique d'Aura Quiet Living.

Je souhaitais créer un projet à partir de zéro, j'ai donc saisi : « une application minimaliste mais visuellement attrayante qui me permette de visualiser n'importe quelle équation comportant jusqu'à 3 variables en coordonnées polaires ».

Polar.ai en cours de construction, affichant une invite utilisateur demandant le visualiseur d'équations de coordonnées polaires, l'indicateur d'état Gemini 3 Pro Preview affichant « Running for 24s » (En cours d'exécution depuis 24 secondes) avec le message de progression « Building the Core Logic » (Construction de la logique centrale), et le panneau de l'explorateur de fichiers affichant les fichiers index.tsx et metadata.json générés.

Environ 60 secondes plus tard, Polar.ai est apparu. Le modèle a généré des fichiers React (index.tsx, metadata.json), a construit un analyseur syntaxique d'équations et a configuré des curseurs de variables. J'ai saisi « un cœur » et j'ai observé le dessin de la courbe polaire. Le passage à « bat » a produit une forme différente.

Application Polar.ai affichant une courbe polaire en forme de cœur rendue en cyan sur un fond quadrillé sombre, avec un éditeur d'équations indiquant la formule r = a × sinus, des curseurs variables pour a, b, t réglés sur 1,0, Max theta à 2 pi, un bouton Animate T et la mention « Powered by Gemini 2.5 Flash credit ».

Application Polar.ai affichant une visualisation polaire en forme de chauve-souris avec un motif symétrique à six lobes en cyan, éditeur d'équations affichant une formule cosinus modifiée avec des commandes variables pour ajuster les paramètres de la courbe : a réglé sur 1,0, b sur 1,0, t sur 0,0 et curseur Max theta.

Lorsque les coordonnées de la batte ont disparu au milieu de la courbe, j'ai décrit le problème dans le chat. Le modèle a identifié le problème (les nombres imaginaires perturbaient le rendu), expliqué la solution et créé un point de contrôle avec « View diff » afin que je puisse observer les modifications apportées.

Session de débogage Polar.ai affichant, dans le panneau de gauche, le rapport de bogue de l'utilisateur concernant la disparition des coordonnées de la chauve-souris, la réponse du modèle analysant le problème des nombres imaginaires dans l'évaluation de l'équation avec un temps de réflexion de 83 secondes, le plan de correction détaillé pour réorganiser le pipeline de rendu, les contrôles des points de contrôle avec les boutons « View diff » (Afficher les différences) et « Restore » (Restaurer), et, dans le panneau de droite, l'aperçu en direct avec la barre d'outils d'annotation en bas affichant les outils de dessin et l'option « Add to chat » (Ajouter au chat).

La barre d'outils d'annotation vous permet de cliquer sur les éléments de l'interface pour demander des modifications visuelles. Une fois que votre application fonctionne, veuillez l'exporter sous forme de fichier ZIP téléchargeable, la publier sur GitHub ou la déployer sur un hébergement cloud. Le code généré utilise des modèles React standard, mais il sera probablement nécessaire de l'affiner avant de le déployer en production.

Barre d'outils d'exportation affichant le statut « Non enregistré » avec six icônes d'action permettant d'enregistrer le projet sur Google Drive, de le télécharger sous forme de fichier ZIP, de le transférer vers le référentiel GitHub, de le déployer sur un hébergement cloud, de le partager via un lien et d'accéder aux options de gestion de projet.

Google AI Studio par rapport aux alternatives

Lorsque vous serez prêt à étendre votre utilisation de l'IA au-delà de la plateforme Google, vous constaterez différents compromis avec les services concurrents. La vaste bibliothèque de plugins et la mémoire intersession de chatGPT en ont fait l'outil par défaut de nombreux utilisateurs.

Claude s'adresse aux développeurs avec des artefacts qui transforment les conversations en applications persistantes, se connectant à Slack ou Asana via des connexions MCP.

Grok se connecte au flux en temps réel de X, mais présente un retard dans les tâches de raisonnement complexes. Pour une comparaison détaillée des performances de Gemini et chatGPT à travers différents benchmarks, veuillez consulter notre analyse comparative de Gemini et chatGPT. notre analyse comparative entre Gemini et chatGPT.

Plateforme	Niveau gratuit	Niveau payant	Principaux atouts	Idéal pour
Google AI Studio	Limité (5 à 15 tours par minute, modèles haut de gamme payants)	Paiement à l'utilisation	Mode Construction, Mode Diffusion, Vidéo (Veo 3), Cartographie du sol	Prototypage multimodal, expérimentation avec Gemini
ChatGPT	10 à 60 messages/5 heures (GPT-4o)	20 $ par mois	Mémoire, plugins, écosystème mature	Tâches générales, processus de travail établis
Claude	20 à 40 messages par jour	20 $ par mois	Artefacts, projets (200K), compétences solides en codage	Prototypage d'applications, assistance au codage
Grok	2 à 10 messages/2 heures	40 $ par mois	Données X en temps réel, images Aurora	Intégration X, utilisation simplifiée

La situation en matière d'offre gratuite varie considérablement d'une plateforme à l'autre :

s sur AI Studio: 5 à 15 requêtes par minute pour les modèles Gemini 2.5, mais Gemini 3 Pro nécessite un paiement.
ChatGPT: 10 à 60 messages GPT-4o toutes les 5 heures avant de passer au mode mini.
Claude: Environ 20 à 40 messages quotidiens avec des fenêtres de réinitialisation de 5 heures.
Veuillez consulter le site: 2 à 10 messages toutes les 2 heures.

chatGPT et Claude demandent 20 dollars par mois pour un accès complet au web. Grok a doublé ce montant pour atteindre 40 dollars. Pour le travail API, cependant, Grok est plus avantageux à 0,20 $ par million de jetons, contre 5 $ pour GPT-4o ou 3 $ pour Claude Sonnet.

Le budget et les priorités influencent cette décision différemment pour chacun. Si vous développez des prototypes d'applications multimodales, le mode Build et la génération vidéo d'AI Studio peuvent justifier ses limites tarifaires plus strictes.

L'écosystème chatGPT bénéficie d'une dynamique favorable : les plugins, la mémoire et les flux de travail établis rendent les coûts de transition élevés. Les projets 200K-token de Claude sont destinés aux développeurs qui ont besoin de grandes fenêtres contextuelles pour le code. Grok a trouvé sa niche dans l'accès API à faible coût (0,20 $ par million de jetons) et l'intégration X en temps réel, en acceptant le compromis en termes de performances.

Conclusion

Dans ce tutoriel, j'ai démontré comment Google AI Studio gère trois flux de travail distincts : tester des invites en mode Chat, créer des applications à l'aide du langage naturel en mode Build et discuter des problèmes à l'aide de la voix et de la vidéo en mode Stream. La plateforme est particulièrement efficace lorsque vous avez besoin de créer des prototypes avec des modèles Gemini sans avoir à écrire de code de configuration.

Les limites du forfait gratuit (5 à 15 requêtes par minute) conviennent pour les tests initiaux. Une fois que vous êtes prêt à intégrer Gemini dans des applications de production, je vous recommande de consulter le tutoriel sur l'API Gemini, qui traite de l'authentification, de la gestion des erreurs et des modèles d'optimisation.

La force d'AI Studio réside dans le prototypage rapide. Vous pouvez tester une idée en mode Chat, la développer en mode Build, puis exporter le code lorsqu'il fonctionne. L'interface basée sur un navigateur élimine les difficultés habituelles, mais une intégration API adéquate reste nécessaire pour une utilisation en production.

Qu'est-ce que Google AI Studio ?

L'utilisation de Google AI Studio est-elle gratuite ?

Que pouvez-vous créer avec le mode Création de Google AI Studio ?

Comment Google AI Studio se positionne-t-il par rapport à chatGPT ?

Est-ce que j'ai besoin d'une expérience en codage pour utiliser Google AI Studio ?

Author

Bex Tuychiev

Je suis un créateur de contenu en science des données avec plus de 2 ans d'expérience et l'un des plus grands followings sur Medium. J'aime écrire des articles détaillés sur l'IA et la ML dans un style un peu sarcastıc, car il faut bien faire quelque chose pour les rendre un peu moins ennuyeux. J'ai produit plus de 130 articles et un cours DataCamp, et un autre est en cours d'élaboration. Mon contenu a été vu par plus de 5 millions de personnes, dont 20 000 sont devenues des adeptes sur Medium et LinkedIn.

Sujets

Intelligence artificielle

Agents d'intelligence artificielle

Meilleurs cours DataCamp

Cursus

Principes fondamentaux de l'IA

10 h

Découvrez les principes fondamentaux de l'IA, apprenez à l'utiliser efficacement dans votre travail et explorez des modèles tels que chatGPT pour vous orienter dans le paysage dynamique de l'IA.

Afficher les détails

Commencer le cours

Cours

Créer des agents IA avec Google ADK

1 h

4.1K

Développez progressivement un assistant de service client à l'aide du kit de développement d'agent (ADK) de Google.

Afficher les détails

Commencer le cours

Cours

Systèmes multi‑agents avec LangGraph

2 h 45 min

Créez des systèmes multi-agents puissants avec LangGraph et ses patterns de conception émergents.

Afficher les détails

Commencer le cours

Qu'est-ce que Google AI Studio ?

Commencer à utiliser Google AI Studio

Quels modèles sont disponibles dans Google AI Studio ?

Série Gemini 3 (dernière version)

Série Gemini 2.5

Comment sélectionner le modèle approprié dans Google AI Studio

Mode Chat et Playground d'AI Studio

Mode Stream AI Studio (API Live)

Mode de création AI Studio (codage Vibe)

Google AI Studio par rapport aux alternatives

Conclusion

Foire aux questions sur Google AI Studio

Que pouvez-vous créer avec le mode Création de Google AI Studio ?

Comment Google AI Studio se positionne-t-il par rapport à chatGPT ?

Est-ce que j'ai besoin d'une expérience en codage pour utiliser Google AI Studio ?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Principes fondamentaux de l'IA

Créer des agents IA avec Google ADK

Systèmes multi‑agents avec LangGraph

Principes fondamentaux de l'IA