Gemini Diffusion: Ein Leitfaden mit 8 praktischen Beispielen

Erfahre, was Gemini Diffusion von Google ist und wie es funktioniert, anhand von acht praktischen Beispielen aus den Bereichen Texterstellung, Spieleentwicklung, Simulationen und mehr.

Aktualisiert 30. Mai 2025 · 8 Min. lesen

Eine der für mich interessantesten Ankündigungen der Google I/O 2025 war Gemini Diffusionund ich habe mich sehr gefreut, dass ich frühzeitig Zugang bekommen habe, um es auszuprobieren!

In diesem Tutorial gebe ich dir einen Überblick über Gemini Diffusion und zeige dir, wie du es für praktische Aufgaben einsetzen kannst. Wir verwenden Gemini Diffusion, um:

Erstelle Text in Blitzgeschwindigkeit
Baue eine Live-Partikel-Simulation und eine Xylophon-Audio-App
Codekorrekturen anwenden und Live-Vorschauen sehen
Echtzeit-Zeichentools und browserbasierte Spiele erstellen

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Was ist Gemini Diffusion?

Gemini Diffusion ist das neue große Textdiffusions-Sprachmodell von Google DeepMind , ein hochmodernes System, das nicht wie herkömmliche LLMs ein Token nach dem anderen erzeugt. Stattdessen lernt es, Text zu erzeugen, indem es zufälliges Rauschen in mehreren Schritten verfeinert, ähnlich wie Stable Diffusion Bilder erzeugt.

Dies ermöglicht Gemini Diffusion:

Ganze Blöcke mit kohärenter Ausgabe auf einmal erzeugen
Eigene Fehler bei der Erzeugung schnell korrigieren
Biete den Nutzern Echtzeit-Interaktion mit Live-Vorschauen, editierbarem Code und kreativer Kontrolle

Du kannst diese Gemini Diffusion ausprobieren, indem du dich auf die Warteliste hier.

Wie funktioniert die Gemini Diffusion?

Traditionelle Sprachmodelle sind autoregressiv und sagen ein Token nach dem anderen voraus. Dieser sequenzielle Ansatz kann die Generierung verlangsamen und die Kohärenz einschränken.

Diffusionsmodelle hingegen gehen von einem verrauschten latenten Raum aus und "entrauschen" ihn allmählich durch mehrere Lernschritte zu einem aussagekräftigen Ergebnis. Diese Technik wurde ursprünglich bei der Bilderzeugung eingesetzt (wie Stable Diffusion) und ist jetzt Teil der Texterzeugung in Gemini. Sie ermöglicht es, kohärentere Antworten zu erstellen, Fehler während der Erzeugung zu korrigieren und Ergebnisse in Rekordgeschwindigkeit zu produzieren.

Dies ermöglicht:

Schnellere Texterstellung (bis zu 1479 Token/Sek.)
Mehr zusammenhängende Textblöcke
Bessere Bearbeitungsabläufe in Echtzeit

Jetzt wartest du also nicht mehr auf ein Wort nach dem anderen, sondern siehst sofort ein ganzes, verfeinertes Ergebnis. Das macht Gemini Diffusion zu einem der schnellsten Modelle in Bezug auf die Sampling-Geschwindigkeit, die von Google für Echtzeit-Generierungsaufgaben freigegeben wurden. Hier sind ein paar Benchmarks, bei denen dieses Modell so erstaunliche Ergebnisse erzielt.

Wie erreiche ich Gemini Diffusion?

Zum Zeitpunkt der Erstellung dieses Artikels ist Gemini Diffusion nur als experimentelle Demo für eingeladene Nutzer verfügbar. Es läuft komplett im Browser und unterstützt Text-, Code-, Canvas- und Audio-Interaktionen (über die eingebaute MIDI-Klangerzeugung).

Um loszulegen:

Weiter zum Gemini Diffusion Warteliste Formular
Melde dich mit deinem Google-Konto an
Warte auf die Zugangsgenehmigung
Sobald du sie erhalten hast, kannst du direkt in der DeepMind-Schnittstelle.

Keine SDKs oder APIs erforderlich!

Sehen wir uns an, was Gemini Diffusion in verschiedenen Bereichen leisten kann, von der Spieleentwicklung und dem Zeichnen bis hin zur Codebearbeitung und sogar Audio.

Beispiel 1: Textgenerierung

Auf dem Spielplatz habe ich die Fähigkeit des Modells, lange Inhalte zu erstellen, mit der folgenden Aufforderung getestet.

Prompt: Erkläre die Vorzüge eines Toasts im Stil von Hegel. Dann übersetze den Aufsatz in 10 andere Sprachen.

Das Modell lieferte über 7000 Token in weniger als 9 Sekunden, mit klaren Überschriften, Kommentaren und Text in 10 Sprachen.

Im Video oben siehst du, dass die Generierungsgeschwindigkeit 892 Token/s beträgt. Im Gegensatz dazu erzeugt Gemini 2.0 Flash-Lite in den meisten Echtzeitszenarien etwa 250-400 Token/Sekunde.

Beispiel 2: Spielentwicklung mit Echtzeit-Interaktionen

Für die Fans von Rock Paper Scissors Lizard Spock habe ich getestet, diese Spielsimulation mit dem Gemini Diffusion Modell zu erstellen.

Prompt: Erstelle eine HTML+JavaScript-Web-App, um Stein, Papier, Schere, Echse, Spock zu spielen. Verwende Emojis für jede Option (🪨📄✂️🦎🖖), mach das UI neon/glowy und futuristisch. Lass den Spieler auf eines klicken, und der Computer wählt zufällig aus. Zeige das Ergebnis mit Animation und Lernpfad. Füge eine Schaltfläche "Spiel neu starten" ein. Mach das Spiel reaktionsschnell.

Das Ergebnis ist ein vollständig spielbares und interaktives Spiel mit reibungsloser Tastatursteuerung, das sich ideal für das Prototyping von Spielschleifen oder die Vermittlung von Animationsgrundlagen eignet.

Beispiel 3: Simulation in Echtzeit

Der beste Teil des Gemini Diffusionsmodells sind die Echtzeitsimulationen. Sie lassen die Aufforderungen zum Leben erwachen. Hier habe ich zwei Beispiele getestet: abprallende Partikel und Simulationen von Sinus- und Kosinus-Wellenlängen.

Beispiel 3.1: Simulation eines springenden Partikelsystems

Prompt: Simuliere 100 Partikel, die sich in einem Kasten in zufällige Richtungen bewegen, mit JavaScript.

Als ich die obige Eingabeaufforderung anwandte, erzeugte Gemini Diffusion eine voll funktionsfähige Partikelsimulation, komplett mit DOM-Updates und grundlegender Physik. Die Animation war flüssig und reaktionsschnell, und ich konnte Parameter wie die Anzahl der Partikel, die Geschwindigkeit und die Farbe leicht anpassen.

Um noch einen Schritt weiter zu gehen, bat ich das Modell, einen Schieberegler hinzuzufügen, mit dem die Kreisgrößen in Echtzeit angepasst werden können, was es einwandfrei umsetzte. Als ich jedoch verlangte, die Kreise durch Schmetterlingssymbole zu ersetzen, konnte er die Aufforderung nicht wie vorgesehen erfüllen.

Beispiel 3.2: Interaktive Wellenformsimulation

Für mein nächstes Beispiel habe ich versucht, eine interaktive Wellenformsimulation zu erstellen:

Prompt: Baue einen interaktiven Wellenformsimulator, der eine Sinuswelle visualisiert. Du kannst die Wellenlänge, Amplitude und Frequenz mit Schiebereglern einstellen. Die Visualisierung sollte deutlich zeigen, wie die Veränderung der Wellenlänge die Welle dehnt oder staucht. Füge Tooltips hinzu, um jeden Parameter und seine Bedeutung in der Praxis zu erklären.

Nach dem Ausführen der Eingabeaufforderung generierte Gemini einen reaktionsschnellen Wellenformsimulator mit Schiebereglern zum Einstellen von Wellenlänge (λ), Amplitude (A) und Frequenz (f), der sich ideal für Unterrichtsdemonstrationen eignet.

Anfänglich unterstützte es nur Sinuswellen. Als ich es bat, auch Kosinuswellen zu unterstützen, fügte Gemini schnell ein Dropdown-Menü hinzu, um zwischen den Wellentypen zu wechseln, und zeigte damit seine Fähigkeit, UI-Komponenten zu iterieren. Als ich jedoch verlangte, dass das Modell die Sinus- und Kosinuswellen zu einer kombinierten Wellenform zusammenfasst, tat es das nicht.

Beispiel 4: Codegenerierung und Ausführung

Als ML-Profi wollte ich die Fähigkeit von Gemini Diffusion testen, Python-basierten Code für maschinelles Lernen zu erstellen und auszuführen. Also habe ich sie darum gebeten:

Prompt: Schreibe ein einfaches neuronales Netzwerk mit NumPy und führe es aus.

Gemini lieferte eine vollständige, gut strukturierte Feedforward-Implementierung eines neuronalen Netzes, die nur NumPy verwendet, einschließlich Aktivierungsfunktion, Gewichtsinitialisierung, Backpropagation-Logik und Trainingsschleife. Er enthielt sogar Erklärungen für jeden Schritt.

Um die Laufzeitfähigkeiten zu testen, habe ich nachgefragt:

Prompt: Kannst du das für mich überprüfen?

Gemini antwortete, dass es Python-Code nicht nativ ausführen kann, da ihm eine integrierte Laufzeitumgebung fehlt. Es simulierte jedoch die erwartete Ausgabe, indem es den Verlust in verschiedenen Trainingsintervallen schätzte und so zeigte, wie eine typische Ausgabe aussehen würde, wenn sie in einer lokalen Umgebung wie Jupyter Notebook ausgeführt würde.

Gemini Diffusion kann zwar noch keinen Code im Browser ausführen, aber diese Möglichkeit, das Ausgabeverhalten zu simulieren und erwartete Ergebnisse zu liefern, ist für das Prototyping sehr wertvoll. Wenn in Zukunft eine Laufzeitintegration hinzugefügt wird, könnte dies das Tool in eine völlig eigenständige Spielwiese zum Lernen und Experimentieren mit maschinellen Lernmodellen verwandeln.

Beispiel 5: Echtzeit-Zeichen-App

Als Nächstes habe ich mit etwas Spielerischem experimentiert, nämlich mit einer interaktiven Zeichen-App mit Pinseln, Farben und Formen. Ich begann mit einer einfachen Aufforderung:

Prompt: Mach mir eine Zeichen-App mit mehreren Pinseln und Farben.

Gemini reagierte mit einem leinwandbasierten Skizzenblock, der eine Basisfarbpalette, Pinselgrößenauswahl (klein, mittel, groß) und eine Löschtaste enthält.

Darauf aufbauend bat ich das Modell, eine "rosa" Farboption in die Palette aufzunehmen, die es nahtlos integrierte. Ich habe dann zusätzliche Zeichenwerkzeuge angefordert - Rechteck, Quadrat und Kreis - und Gemini Diffusion hat diese als auswählbare Formoptionen geliefert.

Das Endergebnis entsprach allen meinen Vorgaben und funktionierte gut als kreatives Werkzeug. Der einzige spürbare Nachteil war eine gewisse Verzögerung und eine geringere Flüssigkeit beim Zeichnen, was wahrscheinlich auf die Einschränkungen des Vorschaumodus zurückzuführen ist. Aber insgesamt war er für einen Echtzeit-Prototyp im Browser beeindruckend funktional.

Beispiel 6: Sofortige Bearbeitung mit Code

Neben dem Playground bietet Gemini Diffusion eine leistungsstarke Funktion namens Sofortige Bearbeitungmit der du in Echtzeit und mit minimaler Eingabeaufforderung Änderungen an Text oder Code vornehmen kannst.

Um das zu testen, habe ich eine Python-Funktion in das Textfeld des Inhalts eingegeben:

def find_median(nums):
    if not nums:
        return None
    nums.sort()
    n = len(nums)
    mid = n // 2
    if n % 2 == 1:
        return nums[mid]
    else:
        return (nums[mid - 1] + nums[mid]) / 2

Aufforderung: Konvertiere diesen Code in C++

Gemini hat die Funktion erfolgreich in saubere C++-Syntax übersetzt. Ich habe ihn dann aufgefordert, zwei zusätzliche Funktionen hinzuzufügen: eine für die Berechnung des Mittelwerts und eine für den Modus. Er hat sie korrekt an den Codeblock angehängt.

Als letzten Schritt bat ich das Modell, Testfälle hinzuzufügen, um alle drei Funktionen zu überprüfen, was es auch tat. Als ich jedoch versuchte, Gemini aufzufordern, diesen Code auszuführen, reagierte es nicht. Das zeigt, dass Gemini zwar hervorragend in der Lage ist, Code zu generieren, aber die Ausführung oder Simulation von kompiliertem Code in dieser Umgebung derzeit nicht unterstützt wird.

Beispiel 7: Sofortige Bearbeitung mit Text

Dieses Tool eignet sich auch hervorragend zum Schreiben und Bearbeiten von Geschichten. Mit Instant Edit habe ich dem Modell eine einzeilige Geschichte gegeben und es gebeten, sie zu erweitern .

Inhalt Textfeld: Schreibe eine Geschichte über einen glücklichen Baum namens Sprig, der in Treewood lebt und davon träumt, ein berühmter Filmstar zu werden.

Um die Geschichte zu vertiefen, bat ich das Modell, die dramatische Spannung durch die Einführung einer missbilligenden Vaterfigur zu erhöhen.

Prompt: Bringe Dramatik in die Geschichte, indem du eine Vaterfigur hinzufügst, die mit Sprigs Berufswahl unzufrieden ist.

Das Modell reagierte darauf, indem es die Geschichte um einen weisen, aber strengen Eichenvater erweiterte, der Sprigs Theaterträume missbilligte. Die Änderungen wurden mit visuellen Kippschaltern hervorgehoben, sodass ich den ursprünglichen und den aktualisierten Inhalt vergleichen konnte.

Dieses Beispiel zeigt, wie Instant Edit das schrittweise Erzählen von Geschichten und die kontrollierte kreative Verfeinerung unterstützen kann, ohne dass der Nutzer oder die Nutzerin den Überblick verliert.

Beispiel 8: Xylophon mit Audio

Für meinen letzten Test habe ich Gemini Diffusion aufgefordert, eine interaktive Xylophon-App zu erstellen. Das Modell generierte einen bunten, übersichtlichen Satz von Tasten mit entsprechenden Sound-Mappings, Event-Listenern und Hover-Effekten und zeigte damit seine Fähigkeit, interaktive Audio-UIs zu handhaben.

Prompt: Erstelle eine Xylophon-App, bei der der Benutzer die Tasten drücken kann und die Töne erzeugt. Jede Note hält nach dem Drücken eine angemessene Zeit an. Verwende keine externen Vermögenswerte. Verwende die integrierte MIDI-Klangerzeugung. Lege die Tasten wie bei einem echten Xylophon aus.

Hinweis: Obwohl Gemini Diffusion keine Audio- oder Videogenerierung unterstützt, konnte es mit der MIDI-ähnlichen Klangsynthese innerhalb der Browser-Vorschau ein realistisches Audioverhalten simulieren.

Dies unterstreicht die Fähigkeit des Modells, funktionale Audioschnittstellen zu erstellen, ohne dass externe Ressourcen oder Bibliotheken benötigt werden.

Ich empfehle, den Ton für das Video unten einzuschalten:

Warum ist die Zwillingsdiffusion wichtig?

Gemini Diffusion stellt einen Paradigmenwechsel in der Art und Weise dar, wie wir mit LLMs umgehen. Hier ist, warum das wichtig ist:

Echtzeit-Erzeugung: Es ist das bisher schnellste Textmodell von Google.
Intelligentere Bearbeitung: Sie verfeinert und korrigiert die Ausgabe während der Erzeugung.
Reichhaltige Interaktivität: Es erstellt Simulationen, Spiele und soundbasierte Anwendungen im Browser.
Benchmark-Leistung: Und schließlich hat sie eine vergleichbare Leistung bei vielen Coding-Benchmarks wie HumanEval (89,6 %) und MBPP (76 %) und ist dabei noch deutlich schneller.

Ich fand Gemini Diffusion ziemlich beeindruckend, sowohl in Bezug auf die Generierungsgeschwindigkeit, die Kohärenz als auch die Qualität der Ergebnisse. Egal, ob es darum ging, Geschichten zu erweitern, Physik zu simulieren oder interaktive Tools zu entwickeln, das Modell lieferte stets schnelle und brauchbare Ergebnisse bei minimaler Eingabeaufforderung.

Natürlich gibt es immer noch Bereiche, die verbessert werden können. So wird zum Beispiel der Chatverlauf nicht gespeichert, und bei mehrstufigen Änderungen kommt es gelegentlich zu Fehlern. Auch wenn es nicht bei allen Aufgaben so gut abschneidet wie optimierte autoregressive Modelle und auf 200 Anfragen pro Tag und Nutzer begrenzt ist, ist die Beta-Phase vielversprechend.

Fazit

Gemini Diffusion ist eines der aufregendsten Tools, die ich dieses Jahr erforscht habe. Durch die Anwendung eines Diffusionsansatzes für Text hat Google ein Modell entwickelt, das schneller und interaktiver ist als frühere Modelle auf kleiner bis mittlerer Ebene, obwohl es noch nicht so universell einsetzbar ist wie Gemini 2.5 Pro.

In diesem praktischen Walkthrough zeige ich dir, wie Gemini Diffusion deinen Workflow verbessern kann, egal ob du Prototypen von UI-Komponenten erstellst, Demos für den Unterricht entwickelst oder kreative Konzepte schnell überarbeitest.

Ich gehe davon aus, dass Gemini Diffusion in Zukunft noch stärker in Entwickler-Tools, kreative Programmierumgebungen und browserbasierte IDEs integriert wird, sodass es ein vielseitiger Begleiter für Designer, Ingenieure und Pädagogen gleichermaßen ist.

Um mehr über die neuesten Tools zu erfahren, die auf der Google I/O 2025 angekündigt wurden, empfehle ich diese Tutorials:

Author

Aashi Dutt

Themen

Künstliche Intelligenz

Generative KI

Lerne KI mit diesen Kursen!

Lernpfad

Grundlagen der KI

0 Min.

Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.

Details anzeigen

Kurs starten

Lernpfad

Entwicklung von KI-Anwendungen

0 Min.

Lerne, KI-gestützte Anwendungen mit den neuesten KI-Entwicklungstools zu erstellen, darunter die OpenAI API, Hugging Face und LangChain.

Details anzeigen

Kurs starten

Kurs

Working with DeepSeek in Python

3 Std.

933

Discover what all of the DeepSeek hype was really about! Build applications using DeepSeek's R1 and V3 models.

Details anzeigen

Kurs starten

Verwandt

Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.

Zoumana Keita

15 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Was ist Gemini Diffusion?

Wie funktioniert die Gemini Diffusion?

Wie erreiche ich Gemini Diffusion?

Beispiel 1: Textgenerierung

Beispiel 2: Spielentwicklung mit Echtzeit-Interaktionen

Beispiel 3: Simulation in Echtzeit

Beispiel 3.1: Simulation eines springenden Partikelsystems

Beispiel 3.2: Interaktive Wellenformsimulation

Beispiel 4: Codegenerierung und Ausführung

Beispiel 5: Echtzeit-Zeichen-App

Beispiel 6: Sofortige Bearbeitung mit Code

Beispiel 7: Sofortige Bearbeitung mit Text

Beispiel 8: Xylophon mit Audio

Warum ist die Zwillingsdiffusion wichtig?

Fazit

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Grundlagen der KI

Entwicklung von KI-Anwendungen

Working with DeepSeek in Python

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

Grundlagen der KI