Difusión Géminis: Una guía con 8 ejemplos prácticos

Aprende qué es y cómo funciona la Difusión Gemini de Google a través de ocho ejemplos prácticos de generación de texto, desarrollo de juegos, simulaciones y mucho más.

Actualizado 30 may 2025 · 8 min leer

Uno de los anuncios que me parecieron más interesantes de Google I/O 2025 fue Difusión Geminiy me encantó tener acceso anticipado para probarlo.

En este tutorial, te daré una vuelta por Gemini Diffusion y te mostraré cómo utilizarlo para tareas prácticas. Utilizaremos la Difusión Gemini para:

Generar texto a velocidad flash
Construye una simulación de partículas en vivo y una aplicación de audio para xilófono
Aplica correcciones de código y ve vistas previas en directo
Crea herramientas de dibujo en tiempo real y juegos basados en navegador

Mantenemos a nuestros lectores al día de lo último en IA enviándoles The Median, nuestro boletín gratuito de los viernes que desglosa las noticias clave de la semana. Suscríbete y mantente alerta en sólo unos minutos a la semana:

¿Qué es la difusión géminis?

Gemini Diffusion es el nuevo modelo de gran lenguaje de difusión de texto de Google DeepMind , un sistema de última generación que no genera tokens uno a uno como los LLM tradicionales. En lugar de eso, aprende a generar texto refinando el ruido aleatorio en múltiples pasos, de forma muy parecida a como la Stable Diffusion genera imágenes.

Esto permite la Difusión Géminis:

Generar bloques enteros de salida coherente a la vez
Corregir rápidamente sus propios errores durante la generación
Ofrece a los usuarios interacción en tiempo real con previsualizaciones en directo, código editable y control creativo

Puedes probar esta Difusión Géminis inscribiéndote en la lista de espera aquí.

¿Cómo funciona la Difusión Gemini?

Los modelos lingüísticos tradicionales son autorregresivos y predicen un token cada vez. Este enfoque secuencial puede ralentizar la generación y limitar la coherencia.

Los modelos de difusión, en cambio, parten de un espacio latente ruidoso y lo "desdenotizan" gradualmente hasta convertirlo en una salida significativa mediante múltiples pasos aprendidos. Esta técnica se utiliza originalmente en la generación de imágenes (como la Stable Diffusion), que ahora forma parte de la generación de texto en Gemini, lo que le permite crear respuestas más coherentes, corregir errores a mitad de generación y producir resultados a velocidades récord.

Esto permite:

Generación de texto más rápida (hasta 1479 tokens/seg.)
Bloques de texto más coherentes
Mejores flujos de trabajo de edición en tiempo real

Así, ahora no esperas una palabra cada vez, sino que ves un resultado completo y refinado al instante. Esto convierte a Gemini Diffusion en uno de los modelos más rápidos en cuanto a velocidad de muestreo lanzados por Google para tareas de generación en tiempo real. He aquí algunos puntos de referencia en los que este modelo destaca por producir resultados tan sorprendentes.

¿Cómo acceder a la Difusión Géminis?

En el momento de escribir esto, Gemini Diffusion está disponible como demostración experimental sólo para usuarios invitados. Se ejecuta completamente en el navegador y admite interacciones de texto, código, lienzo y audio (mediante la generación de sonido MIDI incorporada).

Para empezar:

Ir al Formulario de lista de espera de Gemini Diffusion
Accede con tu cuenta de Google
Espera la aprobación de acceso
Una vez concedida, puedes experimentar directamente dentro de la interfaz de DeepMind.

No necesitas SDK ni API

Veamos lo que Gemini Diffusion puede hacer en múltiples ámbitos, desde el desarrollo de juegos y el dibujo hasta la edición de código e incluso el audio.

Ejemplo 1: Generación de texto

Dentro del patio de recreo, puse a prueba la capacidad del modelo para generar contenido de formato largo con la siguiente instrucción.

Prompt: Explica los méritos del brindis al estilo de Hegel. Después, traduce la redacción a otras 10 lenguas.

El modelo devolvió más de 7000 tokens en menos de 9 segundos, con encabezamientos claros, comentarios y texto en 10 idiomas.

Observa en el vídeo anterior que la velocidad de generación era de 892 tokens/s. En cambio, Gemini 2.0 Flash-Lite suele generar unos 250-400 tokens/seg en la mayoría de los escenarios en tiempo real.

Ejemplo 2: Desarrollo de juegos con interacciones en tiempo real

Para los fans de Piedra, Papel o Tijera, el Lagarto Spock, he probado a generar esta simulación de juego utilizando el modelo de Difusión Gemini.

Prompt: Crea una aplicación web HTML+JavaScript para jugar a Piedra, Papel, Tijera, Lagarto, Spock. Utiliza emojis para cada opción (🪨📄✂️🦎🖖), haz que la IU sea neón/brillante y futurista. Deja que el jugador haga clic en uno, y el ordenador elige al azar. Muestra el resultado con animación y seguimiento de la puntuación. Incluye un botón "Reiniciar partida". Haz que el juego responda.

Esto generó un juego totalmente jugable e interactivo, completo con controles de teclado suaves, ideal para crear prototipos de bucles de juego o enseñar conceptos básicos de animación.

Ejemplo 3: Simulación en tiempo real

Lo mejor del modelo Gemini Diffusion son las simulaciones en tiempo real. Hacen que los mensajes cobren vida. Aquí he probado dos ejemplos: partículas que rebotan y simulaciones de longitudes de onda sinusoidales y cosenoidales.

Ejemplo 3.1: Simulación de un sistema de partículas que rebotan

Prompt: Simula 100 partículas moviéndose en direcciones aleatorias dentro de una caja utilizando JavaScript.

Cuando apliqué la indicación anterior, Gemini Diffusion generó una simulación de partículas rebotantes totalmente funcional, completa con actualizaciones DOM y física básica. La animación era fluida y sensible, y podía ajustar fácilmente parámetros como el número de partículas, la velocidad y el color.

Para ir un paso más allá, pedí a la modelo que añadiera un control deslizante para ajustar el tamaño de los círculos en tiempo real, que implementó a la perfección. Sin embargo, cuando solicité sustituir los círculos por iconos de mariposas, no fue capaz de cumplir la petición como estaba previsto.

Ejemplo 3.2: Simulación interactiva de formas de onda

Para mi siguiente ejemplo, he intentado generar una simulación interactiva de forma de onda:

Pregunta: Construye un simulador interactivo de forma de onda que visualice una onda sinusoidal. Permite a los usuarios ajustar la longitud de onda, la amplitud y la frecuencia mediante controles deslizantes. La visualización debe mostrar claramente cómo el cambio de longitud de onda estira o comprime la onda. Añade información sobre herramientas para explicar cada parámetro y su significado en el mundo real.

Al ejecutar el indicador, Gemini generó un simulador de forma de onda sensible con controles deslizantes para ajustar la longitud de onda (λ), la amplitud (A) y la frecuencia (f), lo que lo hace ideal para demostraciones educativas.

Al principio, sólo admitía ondas sinusoidales. Cuando le pedí que admitiera también las ondas coseno, Géminis añadió rápidamente un desplegable para cambiar entre los tipos de onda, demostrando su capacidad para iterar sobre los componentes de la interfaz de usuario. Sin embargo, cuando le pedí que fusionara las ondas sinusoidal y cosenoidal en una forma de onda combinada, el modelo no lo hizo.

Ejemplo 4: Generación y ejecución de código

Como profesional del ML, quería probar la capacidad de Gemini Diffusion para generar y ejecutar código de machine learning basado en Python. Así que se lo pedí:

Prompt: Escribe una red neuronal sencilla utilizando NumPy y ejecútala.

Gemini devolvió una implementación de red neuronal feedforward completa y bien estructurada utilizando sólo NumPy, incluyendo la función de activación, la inicialización de pesos, la lógica de retropropagación y el bucle de entrenamiento. Incluso incluía explicaciones para cada paso.

Para probar las capacidades de ejecución, seguí con:

Prompt: ¿Puedes hacerlo por mí?

Géminis respondió que no puede ejecutar código Python de forma nativa, ya que carece de un entorno de ejecución integrado. Sin embargo, simuló el resultado esperado estimando la pérdida en varios intervalos de entrenamiento, demostrando cómo sería un resultado típico si se ejecutara en un entorno local como Jupyter Notebook.

Aunque Gemini Diffusion todavía no puede ejecutar código en el navegador, esta capacidad de simular el comportamiento de la salida y proporcionar los resultados esperados sigue siendo muy valiosa para la creación de prototipos. Si en el futuro se añade la integración en tiempo de ejecución, podría transformar la herramienta en un patio de recreo totalmente autónomo para aprender y experimentar con modelos de machine learning.

Ejemplo 5: App de dibujo en tiempo real

A continuación, experimenté con algo más lúdico, es decir, una aplicación de dibujo interactiva con pinceles, colores y formas. Empecé con una pregunta básica:

Prompt: Hazme una aplicación de dibujo con múltiples pinceles y colores.

Géminis respondió con un bloc de dibujo basado en lienzos, que incluye una paleta de colores base, selectores de tamaño de pincel (pequeño, mediano, grande) y un botón de borrado.

Basándome en esto, pedí a la modelo que añadiera una opción de color "rosa" a la paleta, que integró a la perfección. Entonces solicité herramientas de dibujo adicionales -rectángulo, cuadrado y círculo- y Gemini Diffusion me las proporcionó como opciones de forma seleccionables.

El resultado final se ajustó a todas mis indicaciones y funcionó bien como herramienta creativa. El único inconveniente apreciable fue cierto retraso y menor suavidad durante las interacciones de dibujo, probablemente debido a las limitaciones de la ejecución en modo de vista previa. Pero, en general, era impresionantemente funcional para un prototipo en tiempo real dentro del navegador.

Ejemplo 6: Edición instantánea con código

Más allá de la zona de juegos, Gemini Diffusion ofrece una potente función llamada Edición instantáneaque te permite realizar modificaciones en tiempo real en el texto o el código con una mínima intervención.

Para probarlo, he proporcionado una función Python en el cuadro de texto de contenido:

def find_median(nums):
    if not nums:
        return None
    nums.sort()
    n = len(nums)
    mid = n // 2
    if n % 2 == 1:
        return nums[mid]
    else:
        return (nums[mid - 1] + nums[mid]) / 2

Prompt: Convierte este código a C++

Gemini tradujo correctamente la función a una sintaxis C++ limpia. Luego le pedí que añadiera dos funciones adicionales: una para calcular la media y otra para la moda. Los ha añadido correctamente al bloque de código.

Como paso final, pedí al modelo que añadiera casos de prueba para validar las tres funciones, lo que también completó. Sin embargo, cuando intenté preguntarle "ejecuta este código", Gemini no respondió, lo que pone de manifiesto que, aunque es excelente generando código, la ejecución o simulación de código compilado no está soportada actualmente en este entorno.

Ejemplo 7: Edición instantánea con texto

Esta herramienta también es estupenda para escribir y editar historias. Utilizando Instant Edit, le di al modelo una historia de una sola línea y le pedí que la ampliara .

Cuadro de texto de contenido: Escribe una historia sobre un árbol feliz llamado Sprig que vive en Treewood y sueña con convertirse en una famosa estrella de cine.

Para profundizar en la narración, pedí a la modelo que añadiera tensión dramática introduciendo una figura paterna desaprobadora.

Pregunta: Añade dramatismo a esta historia añadiendo un personaje paterno descontento con la elección de carrera de Sprig.

La modelo respondió ampliando la historia en línea, entretejiendo a la perfección un padre roble sabio pero severo que desaprobaba los sueños teatrales de Sprig. Las ediciones se resaltaban con interruptores visuales, lo que me permitía comparar el contenido original y el actualizado.

Este ejemplo demostró cómo la Edición Instantánea puede apoyar la narración incremental y el refinamiento creativo controlado, todo ello manteniendo al usuario en el bucle.

Ejemplo 8: Xilófono con audio

Para mi prueba final, pedí a Gemini Diffusion que creara una aplicación interactiva de xilófono. El modelo generó un conjunto colorido y bien dispuesto de teclas con sus correspondientes mapeos de sonido, escuchadores de eventos y efectos hover, mostrando su capacidad para manejar IU de audio interactivas.

Prompt: Genera una app de xilófono donde el usuario pueda pulsar las teclas y éste genere sonidos. Cada nota dura un tiempo razonable después de pulsarla. No utilices ningún activo externo. Utiliza la generación de sonido MIDI integrada. Coloca las teclas como en un xilófono de verdad.

Nota: Aunque Gemini Diffusion no admite la generación de audio o vídeo, fue capaz de simular un comportamiento de audio realista utilizando la síntesis de tonos de estilo MIDI dentro de la vista previa del navegador.

Esto pone de relieve la capacidad del modelo para construir interfaces de audio funcionales sin necesidad de recursos o bibliotecas externas.

Te recomiendo que actives el sonido del vídeo que aparece a continuación:

¿Por qué es importante la difusión geminada?

La Difusión Gemini representa un cambio de paradigma en la forma de interactuar con los LLM. He aquí por qué es importante:

Generación en tiempo real: Es el modelo de texto más rápido de Google hasta la fecha.
Edición más inteligente: Afina y corrige la salida mientras se genera.
Rica interactividad: Crea simulaciones, juegos y aplicaciones basadas en sonido en el navegador.
Rendimiento de referencia: Por último, tiene un rendimiento comparable en muchos puntos de referencia de codificación, como HumanEval (89,6%) y MBPP (76%), siendo bastante más rápido.

Gemini Diffusion me pareció bastante impresionante, tanto por su velocidad de generación como por su coherencia y la calidad de sus resultados. Tanto si se trataba de ampliar historias, simular la física o crear herramientas interactivas, el modelo ofrecía sistemáticamente resultados rápidos y utilizables con un mínimo de indicaciones.

Por supuesto, todavía hay aspectos que mejorar. Por ejemplo, actualmente no conserva el historial de chat, y de vez en cuando falla en los cambios de varios pasos. Además, puede que no funcione tan bien como los modelos autorregresivos optimizados en todas las tareas y está limitado a 200 solicitudes diarias por usuario, pero la fase beta es prometedora.

Conclusión

Géminis Difusión es una de las herramientas más emocionantes que he explorado este año. Al adoptar un enfoque de difusión para el texto, Google ha creado un modelo más rápido e interactivo que los modelos anteriores a pequeña y mediana escala, aunque todavía no tan generalista como Géminis 2.5 Pro.

En este recorrido práctico, destaqué cómo Gemini Diffusion puede elevar tu flujo de trabajo, tanto si estás creando prototipos de componentes de interfaz de usuario como demos educativas o iterando rápidamente sobre conceptos creativos.

A medida que Gemini Diffusion evolucione, preveo integraciones más profundas con herramientas para programadores, entornos de codificación creativa e IDE basados en navegador, lo que lo convertirá en un compañero versátil para diseñadores, ingenieros y educadores por igual.

Para saber más sobre las últimas herramientas anunciadas en Google I/O 2025, te recomiendo estos tutoriales:

Author

Aashi Dutt

Temas

Inteligencia Artificial

IA Generativa

Aprende IA con estos cursos

programa

Fundamentos de la IA

10 h

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

programa

Desarrollo de aplicaciones de IA

21 h

Aprende a crear aplicaciones potenciadas por IA con las últimas herramientas para desarrolladores de IA, como la API OpenAI, Hugging Face y LangChain.

Ver detalles

Iniciar curso

Curso

Trabajar con DeepSeek en Python

3 h

1.1K

¡Descubre por qué se ha generado tanto revuelo en torno a DeepSeek! Crea aplicaciones utilizando los modelos R1 y V3 de DeepSeek.

Ver detalles

Iniciar curso

Relacionado

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.

Abid Ali Awan

10 min

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Tutorial

Cómo ejecutar Stable Diffusion:

Explora la IA generativa con nuestro tutorial introductorio sobre Stable Diffusion. Aprende a ejecutar el modelo de aprendizaje profundo en línea y localmente para generar imágenes detalladas.

Kurtis Pykes

Tutorial

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Descubra cómo conseguir que ChatGPT le proporcione los resultados que desea dándole las entradas que necesita.

Matt Crabtree

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.

Arunn Thevapalan

Ver más Ver más

¿Qué es la difusión géminis?

¿Cómo funciona la Difusión Gemini?

¿Cómo acceder a la Difusión Géminis?

Ejemplo 1: Generación de texto

Ejemplo 2: Desarrollo de juegos con interacciones en tiempo real

Ejemplo 3: Simulación en tiempo real

Ejemplo 3.1: Simulación de un sistema de partículas que rebotan

Ejemplo 3.2: Simulación interactiva de formas de onda

Ejemplo 4: Generación y ejecución de código

Ejemplo 5: App de dibujo en tiempo real

Ejemplo 6: Edición instantánea con código

Ejemplo 7: Edición instantánea con texto

Ejemplo 8: Xilófono con audio

¿Por qué es importante la difusión geminada?

Conclusión

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Visión GPT-4: Guía completa para principiantes

Cómo ejecutar Stable Diffusion:

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Desarrollo de aplicaciones de IA

Trabajar con DeepSeek en Python

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Visión GPT-4: Guía completa para principiantes

Cómo ejecutar Stable Diffusion:

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Fundamentos de la IA