Gemini Diffusion : Un guide avec 8 exemples pratiques

Apprenez ce qu'est la diffusion Gemini de Google et comment elle fonctionne grâce à huit exemples pratiques de génération de texte, de développement de jeux, de simulations, etc.

Actualisé 30 mai 2025 · 8 min lire

L'une des annonces que j'ai trouvées les plus intéressantes lors de la conférence Google I/O 2025 est la suivante Gemini Diffusionet j'ai été ravi d'avoir un accès anticipé pour l'essayer !

Dans ce tutoriel, je vais vous présenter Gemini Diffusion et vous expliquer comment l'utiliser pour des tâches pratiques. Nous utiliserons Gemini Diffusion pour :

Générer du texte à la vitesse de l'éclair
Créez une simulation de particules en direct et une application audio de xylophone
Appliquez des corrections de code et visualisez des aperçus en direct
Créer des outils de dessin en temps réel et des jeux par navigateur

Nous tenons nos lecteurs informés des dernières nouveautés en matière d'IA en leur envoyant The Median, notre lettre d'information gratuite du vendredi qui analyse les principaux sujets de la semaine. Abonnez-vous et restez à la pointe de la technologie en quelques minutes par semaine :

Qu'est-ce que la diffusion Gemini ?

Gemini Diffusion est le nouveau modèle de diffusion de texte de Google DeepMind , un système de pointe qui ne génère pas les tokens un par un comme les LLM traditionnels. Au lieu de cela, il apprend à générer du texte en affinant le bruit aléatoire en plusieurs étapes, de la même manière que Stable Diffusion génère des images.

Cela permet à Gemini Diffusion :

Générer des blocs entiers de résultats cohérents en une seule fois
Corriger rapidement ses propres erreurs pendant la génération
Offrez aux utilisateurs une interaction en temps réel avec des aperçus en direct, un code modifiable et un contrôle créatif.

Vous pouvez essayer cette diffusion Gemini en vous inscrivant sur la liste d'attente ici.

Comment fonctionne Gemini Diffusion ?

Les modèles linguistiques traditionnels sont autorégressifs et prédisent un élément à la fois. Cette approche séquentielle peut ralentir la génération et limiter la cohérence.

Les modèles de diffusion, quant à eux, partent d'un espace latent bruyant et le "débruitent" progressivement pour obtenir des résultats significatifs grâce à de multiples étapes d'apprentissage. Cette technique, utilisée à l'origine dans la génération d'images (comme Stable Diffusion), fait désormais partie de la génération de textes dans Gemini, ce qui lui permet de créer des réponses plus cohérentes, de corriger les erreurs en cours de génération et de produire des résultats à une vitesse record.

Cela permet :

Génération de texte plus rapide (jusqu'à 1479 tokens/sec)
Des blocs de texte plus cohérents
Amélioration des flux de travail d'édition en temps réel

Ainsi, vous n'attendez plus un mot à la fois, mais vous voyez instantanément un résultat complet et affiné. Cela fait de Gemini Diffusion l'un des modèles les plus rapides en termes de vitesse d'échantillonnage publiés par Google pour les tâches de génération en temps réel. Voici quelques critères de référence dans lesquels ce modèle excelle pour produire des résultats aussi étonnants.

Comment accéder à Gemini Diffusion ?

Au moment où nous écrivons ces lignes, Gemini Diffusion est disponible en tant que démo expérimentale pour les utilisateurs invités uniquement. Il fonctionne entièrement dans le navigateur et prend en charge le texte, le code, le canevas et les interactions audio (via la génération de sons MIDI intégrée).

Pour commencer :

Accédez au formulaire de liste d'attente Formulaire de liste d'attente pour Gemini Diffusion
Connectez-vous avec votre compte Google
Attendre l'autorisation d'accès
Une fois l'autorisation accordée, vous pouvez expérimenter directement dans l'interface de DeepMind.

Aucun SDK ou API n'est nécessaire !

Voyons ce que Gemini Diffusion peut faire dans de nombreux domaines, du développement de jeux au dessin en passant par l'édition de code et même l'audio.

Exemple 1 : Génération de texte

Dans l'aire de jeu, j'ai testé la capacité du modèle à générer du contenu de longue durée à l'aide de l'invitation suivante.

Prompt : Expliquez les mérites du toast dans le style de Hegel. Traduisez ensuite l'essai dans 10 autres langues.

Le modèle a retourné plus de 7000 tokens en moins de 9 secondes, avec des titres clairs, des commentaires et des textes en 10 langues.

Remarquez dans la vidéo ci-dessus que la vitesse de génération était de 892 jetons/s. En revanche, Gemini 2.0 Flash-Lite génère généralement entre 250 et 400 jetons/seconde dans la plupart des scénarios en temps réel.

Exemple 2 : Développement de jeux avec interactions en temps réel

Pour les fans de Rock Paper Scissors Lizard Spock, j'ai testé la génération de cette simulation de jeu en utilisant le modèle Gemini Diffusion.

Prompt : Créez une application web HTML+JavaScript pour jouer à Pierre, Papier, Ciseaux, Lézard, Spock. Utilisez des emojis pour chaque option (🪨📄✂️🦎🖖), rendez l'interface néon/lumière et futuriste. Laissez le joueur en cliquer un, et l'ordinateur choisira au hasard. Montrez le résultat avec une animation et un cursus. Inclure un bouton "Redémarrer le jeu". Rendre le jeu réactif.

Cela a généré un jeu entièrement jouable et interactif, avec des commandes au clavier fluides, idéal pour prototyper des boucles de jeu ou enseigner les bases de l'animation.

Exemple 3 : Simulation en temps réel

La meilleure partie du modèle Gemini Diffusion est constituée par les simulations en temps réel. Ils donnent vie aux messages. Ici, j'ai testé deux exemples : des particules rebondissantes et des simulations de longueurs d'onde sinusoïdales et cosinusoïdales.

Exemple 3.1 : Simulation d'un système de particules rebondissantes

Prompt : Simulez 100 particules se déplaçant dans des directions aléatoires à l'intérieur d'une boîte en utilisant JavaScript.

Lorsque j'ai appliqué l'invite ci-dessus, Gemini Diffusion a généré une simulation de particules rebondissantes entièrement fonctionnelle, avec les mises à jour DOM et la physique de base. L'animation était fluide et réactive, et je pouvais facilement modifier des paramètres tels que le nombre de particules, leur vitesse et leur couleur.

Pour aller plus loin, j'ai demandé au modèle d'ajouter un curseur permettant d'ajuster la taille des cercles en temps réel, ce qu'il a parfaitement mis en œuvre. Cependant, lorsque j'ai demandé à remplacer les cercles par des icônes de papillon, il n'a pas été en mesure de répondre à l'invitation comme prévu.

Exemple 3.2 : Simulation interactive de formes d'onde

Pour l'exemple suivant, j'ai essayé de générer une simulation interactive de forme d'onde :

Prompt: Construisez un simulateur interactif de forme d'onde qui visualise une onde sinusoïdale. Permet aux utilisateurs de régler la longueur d'onde, l'amplitude et la fréquence à l'aide de curseurs. La visualisation doit montrer clairement comment la modification de la longueur d'onde étire ou comprime l'onde. Ajoutez des infobulles pour expliquer chaque paramètre et sa signification dans le monde réel.

En exécutant l'invite, Gemini a généré un simulateur de forme d'onde réactif avec des curseurs permettant de régler la longueur d'onde (λ), l'amplitude (A) et la fréquence (f), ce qui en fait un outil idéal pour les démonstrations éducatives.

Au départ, il ne prenait en charge que les ondes sinusoïdales. Lorsque je lui ai demandé de prendre également en charge les ondes cosinusoïdales, Gemini a rapidement ajouté une liste déroulante permettant de passer d'un type d'onde à l'autre, démontrant ainsi sa capacité à itérer sur les composants de l'interface utilisateur. Cependant, lorsque je lui ai demandé de fusionner les ondes sinusoïdales et cosinusoïdales en une forme d'onde combinée, le modèle n'y est pas parvenu.

Exemple 4 : Génération et exécution du code

En tant que professionnel du ML, j'ai voulu tester la capacité de Gemini Diffusion à générer et à exécuter du code d'apprentissage automatique basé sur Python. Je lui ai donc demandé de le faire :

Prompt : Créez un réseau neuronal simple à l'aide de NumPy et exécutez-le.

Gemini a renvoyé une implémentation complète et bien structurée d'un réseau neuronal feedforward utilisant uniquement NumPy, y compris la fonction d'activation, l'initialisation des poids, la logique de rétropropagation et la boucle d'apprentissage. Il comprend même des explications pour chaque étape.

Pour tester les capacités d'exécution, j'ai poursuivi avec :

Prompt : Pouvez-vous effectuer cette opération pour moi ?

Gemini a répondu qu'il ne peut pas exécuter le code Python en mode natif, car il ne dispose pas d'un environnement d'exécution intégré. Cependant, il a simulé le résultat attendu en estimant la perte à différents intervalles d'entraînement, démontrant ce à quoi ressemblerait un résultat typique s'il était exécuté dans un environnement local tel que Jupyter Notebook.

Bien que Gemini Diffusion ne puisse pas encore exécuter le code dans le navigateur, cette capacité à simuler le comportement de la sortie et à fournir les résultats attendus est toujours très précieuse pour le prototypage. Si l'intégration de la durée d'exécution est ajoutée à l'avenir, elle pourrait transformer l'outil en un terrain de jeu entièrement autonome pour l'apprentissage et l'expérimentation de modèles d'apprentissage automatique.

Exemple 5 : Application de dessin en temps réel

Ensuite, j'ai expérimenté quelque chose de plus ludique, c'est-à-dire une application de dessin interactive avec des pinceaux, des couleurs et des formes. J'ai commencé par une demande de base :

Prompt : Faites-moi une application de dessin avec de multiples pinceaux et couleurs.

Gemini a répondu avec un carnet de croquis basé sur un canevas, comprenant une palette de couleurs de base, des sélecteurs de taille de pinceau (petit, moyen, grand) et un bouton d'effacement.

Sur cette base, j'ai demandé au modèle d'ajouter une option de couleur "rose" à la palette, ce qu'il a fait sans problème. J'ai ensuite demandé des outils de dessin supplémentaires - rectangle, carré et cercle - et Gemini Diffusion les a livrés en tant qu'options de forme sélectionnables.

Le résultat final correspondait à toutes mes demandes et a bien fonctionné en tant qu'outil créatif. Le seul inconvénient notable est un certain décalage et une fluidité réduite lors des interactions de dessin, probablement dus aux limites de l'exécution en mode prévisualisation. Mais dans l'ensemble, il s'est avéré très fonctionnel pour un prototype en temps réel dans le navigateur.

Exemple 6 : Édition instantanée avec code

Au-delà de l'aire de jeu, Gemini Diffusion offre une fonction puissante appelée Édition instantanéequi vous permet d'apporter des modifications en temps réel au texte ou au code avec un minimum d'indications.

Pour le tester, j'ai fourni une fonction Python dans la zone de texte du contenu :

def find_median(nums):
    if not nums:
        return None
    nums.sort()
    n = len(nums)
    mid = n // 2
    if n % 2 == 1:
        return nums[mid]
    else:
        return (nums[mid - 1] + nums[mid]) / 2

Prompt : Convertir ce code en C++

Gemini a traduit avec succès la fonction en une syntaxe C++ propre. Je l'ai ensuite invité à ajouter deux fonctions supplémentaires : une pour calculer la moyenne et une autre pour le mode. Il les a ajoutés correctement au bloc de code.

Comme dernière étape, j'ai demandé au modèle d'ajouter des cas de test pour valider les trois fonctions, ce qu'il a également fait. Cependant, lorsque j'ai tenté de lui demander d'exécuter ce code, Gemini n'a pas répondu, ce qui montre que, bien qu'il excelle dans la génération de code, l'exécution ou la simulation de code compilé n'est pas actuellement prise en charge dans cet environnement.

Exemple 7 : Édition instantanée avec texte

Cet outil est également très utile pour rédiger et éditer des histoires. À l'aide de Instant Edit, j'ai donné au modèle une histoire d'une seule ligne et je lui ai demandé de la prolonger.

Zone de texte du contenu: Écrivez l'histoire d'un arbre heureux nommé Sprig qui vit à Treewood et qui rêve de devenir une célèbre star de cinéma.

Pour approfondir le récit, j'ai ensuite demandé au modèle d'ajouter une tension dramatique en introduisant une figure paternelle désapprobatrice.

Prompt: Ajoutez du drame à cette histoire en ajoutant un personnage de père qui n'est pas satisfait du choix de carrière de Sprig.

Le modèle a réagi en développant l'histoire en ligne, en y intégrant un père chêne, sage mais sévère, qui désapprouvait les rêves théâtraux de Sprig. Les modifications ont été mises en évidence à l'aide de boutons visuels, ce qui m'a permis de comparer le contenu original et le contenu mis à jour.

Cet exemple montre comment Instant Edit peut permettre une narration progressive et un affinement créatif contrôlé, tout en gardant l'utilisateur dans la boucle.

Exemple 8 : Xylophone avec audio

Pour mon dernier test, j'ai demandé à Gemini Diffusion de créer une application de xylophone interactive. Le modèle a généré un ensemble de touches colorées et bien disposées avec les correspondances sonores, les récepteurs d'événements et les effets de survol, démontrant ainsi sa capacité à gérer des interfaces audio interactives.

Prompt : Créez une application de xylophone dans laquelle l'utilisateur peut appuyer sur les touches et générer des sons. Chaque note dure un temps raisonnable après avoir été appuyée. N'utilisez pas de ressources externes. Utilisez la génération de sons MIDI intégrée. Disposez les touches comme sur un vrai xylophone.

Note : Bien que Gemini Diffusion ne prenne pas en charge la génération d'audio ou de vidéo, il a été possible de simuler un comportement audio réaliste à l'aide d'une synthèse sonore de type MIDI dans la prévisualisation du navigateur.

Cela met en évidence la capacité du modèle à construire des interfaces audio fonctionnelles sans nécessiter de ressources ou de bibliothèques externes.

Je vous recommande d'activer le son pour la vidéo ci-dessous :

Pourquoi la diffusion de Gemini est-elle importante ?

Gemini Diffusion représente un changement de paradigme dans la manière dont nous interagissons avec les LLM. Voici pourquoi c'est important :

Génération en temps réel: Il s'agit du modèle de texte le plus rapide de Google à ce jour.
Une édition plus intelligente: Il affine et corrige la production tout en la générant.
Une interactivité riche: Il permet de créer des simulations, des jeux et des applications basées sur le son dans le navigateur.
Performances de référence: Enfin, il présente des performances comparables sur de nombreux benchmarks de codage, tels que HumanEval (89,6 %) et MBPP (76 %), tout en étant nettement plus rapide.

J'ai trouvé Gemini Diffusion assez impressionnant, à la fois en termes de vitesse de génération, de cohérence et de qualité des résultats. Qu'il s'agisse de développer des histoires, de simuler la physique ou de créer des outils interactifs, le modèle a toujours fourni des résultats rapides et utilisables avec un minimum d'indications.

Bien entendu, des améliorations sont encore possibles. Par exemple, il ne conserve pas l'historique des discussions et il lui arrive de manquer la cible pour les changements en plusieurs étapes. En outre, il se peut qu'il ne soit pas aussi performant que les modèles autorégressifs optimisés pour toutes les tâches et il est limité à 200 requêtes par jour et par utilisateur, mais la phase bêta est prometteuse.

Conclusion

Gemini Diffusion est l'un des outils les plus intéressants que j'ai explorés cette année. En adoptant une approche de diffusion pour le texte, Google a construit un modèle plus rapide et plus interactif que les modèles précédents à petite et moyenne échelle, même s'il n'est pas encore aussi polyvalent que Gemini 2.5 Pro.

Dans cette présentation pratique, j'ai montré comment Gemini Diffusion peut améliorer votre flux de travail, que ce soit pour le prototypage de composants d'interface utilisateur, la création de démonstrations éducatives ou l'itération rapide de concepts créatifs.

Au fur et à mesure que Gemini Diffusion évolue, je prévois des intégrations plus poussées avec des outils de développement, des environnements de codage créatifs et des IDE basés sur un navigateur, ce qui en fera un compagnon polyvalent pour les concepteurs, les ingénieurs et les éducateurs.

Pour en savoir plus sur les derniers outils annoncés lors de la conférence Google I/O 2025, je vous recommande ces tutoriels :

Author

Aashi Dutt

Sujets

Intelligence artificielle

IA générative

Apprenez l'IA avec ces cours !

Cursus

Principes fondamentaux de l'IA

0 min

Découvrez les principes fondamentaux de l'IA, apprenez à l'utiliser efficacement dans votre travail et explorez des modèles tels que chatGPT pour vous orienter dans le paysage dynamique de l'IA.

Afficher les détails

Commencer le cours

Cursus

Développer des applications d'IA

0 min

Apprenez à créer des applications alimentées par l'IA avec les derniers outils de développement d'IA, notamment l'API OpenAI, Hugging Face et LangChain.

Afficher les détails

Commencer le cours

Cours

Working with DeepSeek in Python

3 h

933

Discover what all of the DeepSeek hype was really about! Build applications using DeepSeek's R1 and V3 models.

Afficher les détails

Commencer le cours

Qu'est-ce que la diffusion Gemini ?

Comment fonctionne Gemini Diffusion ?

Comment accéder à Gemini Diffusion ?

Exemple 1 : Génération de texte

Exemple 2 : Développement de jeux avec interactions en temps réel

Exemple 3 : Simulation en temps réel

Exemple 3.1 : Simulation d'un système de particules rebondissantes

Exemple 3.2 : Simulation interactive de formes d'onde

Exemple 4 : Génération et exécution du code

Exemple 5 : Application de dessin en temps réel

Exemple 6 : Édition instantanée avec code

Exemple 7 : Édition instantanée avec texte

Exemple 8 : Xylophone avec audio

Pourquoi la diffusion de Gemini est-elle importante ?

Conclusion

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Principes fondamentaux de l'IA

Développer des applications d'IA

Working with DeepSeek in Python

Principes fondamentaux de l'IA