Veo 3 de Google: Una guía con ejemplos prácticos

Aprende a utilizar Veo 3 para crear un anuncio de especificaciones, mantener la coherencia de los caracteres en diferentes tomas y ganar control modular con la función Ingredientes.

Actualizado 22 may 2025 · 12 min leer

Google acaba de lanzar Veo 3, su último generador de vídeo por IA. Lo que me llamó la atención enseguida es que ofrece salida de audio nativa. Puedes generar videoclips completos con sonido horneado en el diálogo, efectos ambientales, música de fondo. Eso es algo que aún no he visto en Runway ni en Sora. En este punto, diría que Veo 3 está un paso por delante.

Ahora bien, he visto suficientes vídeos de demostración de IA para saber que a menudo exageran. Parecen pulidos, pero en cuanto tu mensaje se adentra en territorio desconocido en relación con los datos de entrenamiento -un escenario extraño, un personaje inusual o algo con demasiada sutileza-, la mayoría de los modelos se rompen.

Pero le he dado una vuelta a Veo 3, y te diré una cosa: es muy bueno. A continuación, te explicaré cómo funciona y te mostraré algunos de los clips que conseguí crear. Creo que quedarás impresionado.

Mantenemos a nuestros lectores al día de lo último en IA enviándoles The Median, nuestro boletín gratuito de los viernes que desglosa las noticias clave de la semana. Suscríbete y mantente alerta en sólo unos minutos a la semana:

¿Qué es Veo 3?

Antes de ponernos manos a la obra y mostrarte ejemplos, vamos a entender rápidamente qué es Veo y qué tiene de nuevo.

Veo 3 es el último modelo de generación de vídeo con IA de Google, anunciado en Google I/O 2025. Transforma las indicaciones de texto o imagen en vídeos de alta definición, ahora con integración nativa de audio. Esto significa que Veo 3 puede generar diálogos sincronizados, sonidos ambientales y música de fondo, produciendo clips que parecen extraordinariamente reales.

He aquí un ejemplo:

De momento, Veo 3 sólo está disponible en EE.UU. y únicamente a través de Flujola nueva interfaz de filmación de Google potenciada por IA. Para acceder a ella, necesitarás un plan AI Ultra, que cuesta 250 $/mes (unos 272 $ con impuestos).

¡Empecemos a construir!

Crear un anuncio

Para mi primera prueba, quería crear un anuncioúnico en para una marca ficticia de caramelos de menta llamada Mintro. La idea: algo breve, contundente y memorable. Imaginé un momento incómodo y cercano, algo que pudiera servir para detener el desplazamiento.

Este es el escenario: dos compañeros de trabajo atrapados en un ascensor abarrotado, cara a cara, el tipo de espacio donde la confianza (y el aliento fresco) importan. Para romper la tensión, uno suelta una frase trágica e hilarante a partes iguales:

"Una vez estornudé en el "todos a una" y pulsé "compartir pantalla" al mismo tiempo. No hay supervivientes".

Luego el anuncio se cortaba con el logotipo de Mintro, junto con el eslogan:

"Aprobado para hablar en el ascensor".

Si quieres seguirnos, utiliza las instrucciones visuales de esta imagen para crear un vídeo con Veo 3:

Empecemos con esta indicación y veamos qué obtenemos:

Prompt:

Un ascensor de empresa abarrotado durante la hora punta de la mañana. Dos colegas bien vestidos están cara a cara, incómodamente cerca debido al espacio abarrotado. Uno, manteniendo la cara seria, se inclina ligeramente y dice: "Una vez estornudé en el "todos a una" y pulsé "compartir pantalla" al mismo tiempo. No hay supervivientes". El otro intenta reprimir una carcajada. Suena el ascensor y las puertas se abren a una planta de oficinas muy animada.

La primera versión parecía prometedora, pero había algunas cosas que no acababan de cuajar.

Por un lado, todo el mundo en el ascensor miraba a los protagonistas, lo que desviaba la atención. Quería que la gente de alrededor permaneciera en sus propias cabezas, como hacemos la mayoría de nosotros en los desplazamientos matutinos. En el mejor de los casos, alguien está mirando su teléfono, otra persona parece perdida en sus pensamientos, tal vez alguien se ajusta el bolso... pero nadie debería estar observando la interacción.

Otra cuestión: la mujer se lleva la mano a la nariz, lo que implica sutilmente que el aliento del tipo huele mal. Eso desvirtúa por completo el objetivo del anuncio: se supone que se trata de la confianza que da tener un aliento fresco. Ese gesto tenía que desaparecer.

La ambientación también parecía fuera de lugar. Por alguna razón, el ascensor daba directamente a una oficina, que no es como se distribuyen las oficinas. Los ascensores suelen dar a un pasillo o a un vestíbulo, no directamente al puesto de trabajo de alguien. Es un pequeño detalle, pero hacía que la escena pareciera extrañamente artificial.

Además, aparecieron subtítulos en el vídeo, que yo no pedí, y estaban muy mal escritos. Y por último, el paisaje sonoro del interior del ascensor estaba demasiado muerto. Necesitaba algo sutil, como música ambiental de ascensor por los altavoces superiores, para que el entorno pareciera real.

Con estas notas en mente, hice unas cinco iteraciones hasta que llegué a una versión que me pareció bien. No es perfecto, pero se acerca mucho más a lo que pretendía.

Este es el mensaje revisado que he utilizado:

Prompt:

Un ascensor de oficina muy abarrotado durante la hora punta de la mañana. Las puertas están cerradas al principio del vídeo, y cuando empiezan a abrirse lentamente, oímos una suave música de ascensor por los altavoces del techo y un suave zumbido mecánico. La cámara mantiene un único plano continuo, a la altura de los ojos, enfocado fijamente a dos colegas bien vestidos que están cara a cara, incómodamente cerca debido al espacio abarrotado. Justo cuando las puertas del ascensor están a medio abrir, el hombre dice con calma y seguridad: "Una vez estornudé en el "todos a una" y pulsé "compartir pantalla" al mismo tiempo. No hay supervivientes". La mujer reacciona con una risa genuina -divertida pero nunca exagerada- y nunca habla, retrocede, se toca la cara o da un paso atrás. A su alrededor, los demás pasajeros del ascensor permanecen relajados y distantes: uno consulta su teléfono, otro mira hacia delante pensativo, otro mueve su bolso... pero nadie mira a los protagonistas ni reacciona ante ellos. Las puertas siguen abriéndose completamente y, al final de la toma, los dos compañeros salen del ascensor mientras la cámara permanece fija en su sitio. Los personajes nunca miran a la cámara. No incluyas subtítulos ni texto en pantalla.

Esta versión tiene la mayor parte del bloqueo y el tono correctos. Aun así, quedaban algunos pequeños problemas:

Las puertas del ascensor se abrieron un poco demasiado deprisa, lo que me pareció demasiado chocante.
El audio seguía pareciendo demasiado bajo, incluso con el aviso musical del ascensor incluido.

Según mi experiencia con la IA, se tarda un minuto en llegar al 90% del camino, y una hora en acertar el último 10%, aunque para ser sincero, casi nunca lo consigues exactamente como quieres. Así que llevé el borrador a DaVinci Resolve e hice el resto manualmente. Fueron unos 15 minutos de edición ligera: sólo algunos fundidos, música de fondo y el logotipo final de Mintro con el eslogan.

El logotipo en sí se generó utilizando Whisk, la herramienta de diseño de Google que se ejecuta en Imagen 4 bajo el capó (también puedes encontrarla dentro de Gemini si prefieres trabajar desde la app). La salida era lo suficientemente limpia como para que pudiera colocarla sin necesidad de retocarla.

Con esas modificaciones, el anuncio estaba listo. Es breve, extraño y -esperemos- memorable.

Creación de una escena multidisparo con coherencia de personajes

Ahora quiero mostrarte cómo construir una escena de varias tomas con coherencia de personajes, es decir, que el mismo personaje mantenga su rostro y apariencia de una toma a otra. Puede parecer básico, pero en la generación de vídeo de IA, este tipo de continuidad sigue siendo difícil de conseguir.

Para que quede claro: una escena es una unidad argumental con continuidad en el tiempo y en el espacio. Puede constar de uno o varios planos, según cómo quieras dividirlo. Una vez que comprendes esa estructura, te resulta más fácil construir escenas completas y, con el tiempo, unirlas en algo parecido a un cortometraje.

Para demostrarlo, crearé una historia muy rápida inspirada en lo que a menudo se considera una de las mejores obras de ficción flash jamás escritas (supuestamente por Hemingway):

En venta: zapatos de bebé, nunca usados.

Ese es el núcleo emocional en torno al que quiero construir. Imaginé un microrrelato en dos planos para dar vida a esta línea:

Tiro 1: Una mujer de unos 30 años abre un armario del pasillo lleno de abrigos viejos, sábanas dobladas y unas cuantas cajas de cartón sin etiquetar. Tira suavemente de una de las cajas y se arrodilla en el suelo. Abre la caja y desenvuelve con cuidado un pequeño objeto: un par de zapatitos blancos de bebé, envueltos en papel de seda.
Disparo 2: Unos minutos después, en la cocina. La mujer se sienta sola en la tabla de la cocina, con el teléfono en la mano. La cámara mantiene un ángulo lateral inmóvil, medio-cercano. Coloca los zapatos de bebé en la tabla que tiene a su lado y empieza a teclear una lista en su teléfono. Texto en la pantalla del teléfono: "En venta: zapatos de bebé, nunca usados".

Esta vez, no voy a iterar para obtener un resultado pulido y cinematográfico. Mi objetivo es simplemente mostrar lo que es posible con esta herramienta: cómo establecer el tono y mantener la apariencia del personaje en varias tomas.

Empecemos generando la primera toma normalmente (como generamos las tomas para el anuncio).

Prompt:

Interior de una vivienda tranquila y habitada durante las primeras horas de la mañana. La luz natural se filtra suavemente por una ventana del pasillo. Una mujer de unos 30 años abre un armario del pasillo lleno de abrigos viejos, sábanas dobladas y unas cuantas cajas de cartón sin etiquetar. Tira suavemente de una de las cajas y se arrodilla en el suelo. La cámara permanece inmóvil en un ángulo medio-ancho, a la altura de los ojos. Abre la caja y desenvuelve con cuidado un pequeño objeto: un par de zapatitos blancos de bebé, envueltos en papel de seda. Se sienta sobre los talones, sosteniendo los zapatos en el regazo. Su expresión es ilegible: no está triste, sólo presente y quieta. La toma es tranquila y sin prisas. No hay música. Haz hincapié en el ambiente natural: sonidos suaves de la casa, el crujido de la puerta del armario, el crujido de los cartones y sutiles detalles lejanos, como el tictac de un reloj o un pájaro al otro lado de la ventana. El momento debe ser silencioso y real. Estilo visual: realismo cálido y aterrizado con iluminación natural. Evita la sobreestilización cinematográfica. Mantén una sola toma continua, sin cortes ni zooms. No incluyas ningún texto en pantalla ni subtítulos.

No está nada mal. Me gusta el encuadre, el color y el sonido está bien. La actuación no es genial -no hay mucha emoción-, pero superemos esto.

Digamos que ahora queremos pasar a la siguiente toma de la cocina. Nuestra mejor oportunidad para mantener la coherencia del personaje -mantener la misma cara, atuendo y aspecto general- es utilizar el Constructor de Escenas.

Cuando estés satisfecho con tu primera toma, haz clic en Añadir a escena:

Se abrirá una línea de tiempo. Pulsa el signo más y elige entre:

Salta a: Esto ocurre y entonces (la escena salta a)
Ampliar: Esto ocurre y luego (toma ampliada)

Para este ejemplo, necesito un corte, así que elegiré Saltar a y luego utilizaré esta indicación (lo conseguí tras unas cuantas iteraciones; esta función necesita mejoras, sin duda):

Prompt:

En la cocina, unos minutos después. La luz del sol se filtra suavemente por la tabla y el suelo, creando una atmósfera tranquila y sosegada. Ambiente doméstico tranquilo: el suave zumbido del frigorífico, un leve crujido de la silla, suaves golpecitos en la pantalla del teléfono. Sin música ni voces externas. La mujer se sienta sola en la tabla de la cocina, con el teléfono en la mano. La cámara mantiene un ángulo lateral inmóvil, medio-cercano. Coloca los zapatos de bebé en la tabla que tiene a su lado y empieza a teclear una lista en su teléfono. La cámara pasa a un plano por encima del hombro o a un plano cerrado que muestra la pantalla del teléfono: "En venta: zapatos de bebé, nunca usados". Se queda mirando el texto durante un buen rato, con el pulgar sobre el botón de enviar. Le empiezan a brillar los ojos, pero rápidamente los disimula. No llora, sino que cierra el teléfono, lo pone boca abajo y exhala, tranquilizándose. Su expresión es contenida e ilegible, pero su lenguaje corporal lo dice todo: esto no es fácil. No incluyas subtítulos en pantalla.

El cumplimiento de los plazos fue bajo: el tono y la composición no se ajustaban a lo que tenía en mente. Dicho esto, la coherencia de los personajes era decente: mismo corte de pelo, estructura facial similar, pero la ropa cambiaba.

También he observado algunos artefactos visuales en la salida (comprueba los zapatos). Y aunque esperaba un solo disparo, obtuve tres cortes distintos en una generación. Más tarde, me di cuenta de que había sugerido involuntariamente un segundo corte en el mensaje, así que esa parte es culpa mía, pero sigo sin tener ni idea de dónde salió la tercera toma.

Además, al exportar desde el Creador de Escenas se eliminó por completo el audio. No estoy seguro de si se trata de un error o simplemente de una limitación de la configuración actual, pero no parece que haya una solución directa. Sin embargo, puedes descargar cada toma individualmente, así que simplemente las uní en DaVinci Resolve.

Google todavía tiene mucho trabajo que hacer con la función de Creador de Escenas, ¡pero esto promete!

Control Modular Con Ingredientes a Vídeo

Una de las funciones más experimentales (y divertidas) de Flow es Ingredientes a Vídeo. Te ofrece un control modular: generas elementos individuales -llamados ingredientes- yluego los combinas en una escena.

Puedes crear ingredientes utilizando la generación de imágenes, aunque todavía no se admite la carga de imágenes. Aquí tienes un ejemplo del equipo de Google:

Para esta prueba, quería probar algo un poco absurdo: un corto divertido y kafkiano:

Un bicho con cara humana conduce un todoterreno. Pero aquí está el giro (como si no fuera ya suficiente): el asiento del conductor es una silla de rey.

Primero, vamos a seleccionar la opción Ingredientes a Vídeo:

Empecé generando los tres ingredientes uno a uno: la silla, el todoterreno y el bicho.

Por desgracia, esta función funciona actualmente en Veo 2, no en Veo 3. Técnicamente, puedes seleccionar Veo 3 en el desplegable, pero siempre vuelve automáticamente a Veo 2 durante la generación y muestra este aviso:

Como era de esperar, la calidad del resultado fue decepcionante:

Prompt:

Un bicho con rostro humano conduce tranquilamente un todoterreno, sentado en un trono de rey sobredimensionado.

Dicho esto, dos de los tres ingredientes -especialmente el bicho y la silla- tenían un aspecto sorprendentemente bueno. El todoterreno, no tanto...

Con las capacidades de Veo 3, esta configuración probablemente habría sido mucho más potente. Por ahora, este modo es prometedor, pero aún no está del todo conseguido.

Fotogramas a Vídeo

La idea detrás de Fotogramas a Vídeo es la siguiente: le proporcionas al modelo un primer y un último fotograma, e intenta animar una transición entre ellos (mediante un movimiento de cámara que puedes controlar). Puedes generar estos marcos a partir de una solicitud o (eventualmente) subirlos tú mismo (la subida de imágenes aún no está disponible).

Al igual que la función Ingredientes, este modo se pone automáticamente por defecto en Veo 2, lo que limita considerablemente la calidad. No fui capaz de generar nada especialmente útil con él.

Al final, lo utilicé para animar un plano único de un camaleón. Establecí la misma imagen como fotograma inicial y final y pedí un movimiento de cámara dolly-in, pero esa parte no se respetó en el renderizado final.

Prompt:

Un camaleón permanece inmóvil sobre una rama, con los ojos escrutando lentamente en direcciones opuestas mientras espera pacientemente a su presa.

Buenas prácticas de Veo 3

Cuando accedas por primera vez a Veo 3 a través de Flow, empezarás con 12.500 créditos. Cada generación de vídeo consume una parte de ese total: 150 créditos por generación con Veo 3, así que vale la pena ser estratégico desde el principio.

Mi consejo: piensa detenidamente en tus indicaciones y genera sólo un resultado cada vez. Tendrás que repartir esos créditos a lo largo del mes, y cada generación lleva su tiempo, a menudo de 2 a 3 minutos o más. Eso hace que la iteración sea relativamente lenta, por lo que el ensayo-error no es barato ni rápido.

Para la creación de avisos, Google proporciona una Guía para la generación de vídeos de Vertex AI que ofrece ideas para estructurar indicaciones eficaces para Veo. Esta guía subraya la importancia de las indicaciones claras y descriptivas, y proporciona ejemplos para ayudarte a empezar.

Si buscas orientación adicional, la Guía de Indicaciones Alfa de la Pista Gen-3 es un recurso valioso. Ofrece estrategias detalladas para elaborar indicaciones que produzcan resultados de vídeo de alta calidad, lo que también puede ser beneficioso cuando se trabaja con Veo 3.

Conclusión

No me había quedado tan asombrado por un avance de la IA desde que la generación de imágenes de GPT-4o.

Veo 3 ofrece algo que parece fundamentalmente nuevo: vídeo coherente y con sonido a partir de indicaciones en lenguaje natural. Sólo eso ya lo diferencia de todo lo demás que he probado.

Claro que tiene sus defectos -el desvío, la falta de acceso completo a Veo 3 en herramientas clave como el Constructor de Escenas, y fallos visuales ocasionales-, pero la experiencia principal es realmente emocionante.

Lo que destaca es lo cerca que se siente ya de un conducto creativo utilizable. Con un poco de edición y algunas indicaciones cuidadosas, puedes pasar de la idea al guión gráfico y a un proyecto corto en funcionamiento en menos de unas horas. Añade consistencia de caracteres (aunque sea un poco frágil), audio integrado en la salida y compatibilidad con flujos de trabajo modulares, y esto empieza a parecer una herramienta seria.

Author

Alex Olteanu

Temas

Inteligencia Artificial

IA Generativa

Aprende IA con estos cursos

programa

Fundamentos de la IA

0 min

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

programa

Fundamentos empresariales de la IA

0 min

Acelera tu viaje hacia la IA, conquista ChatGPT y desarrolla una estrategia global de Inteligencia Artificial.

Ver detalles

Iniciar curso

Curso

Working with DeepSeek in Python

3 h

925

Discover what all of the DeepSeek hype was really about! Build applications using DeepSeek's R1 and V3 models.

Ver detalles

Iniciar curso

Relacionado

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.

Abid Ali Awan

10 min

blog

Los 7 mejores generadores de vídeo de IA para 2024 con vídeos de ejemplo

Descubre los mejores generadores de vídeo de IA disponibles en la actualidad, como RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo y el esperadísimo Sora y Veo de DeepMind.

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Tutorial

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Descubra cómo conseguir que ChatGPT le proporcione los resultados que desea dándole las entradas que necesita.

Matt Crabtree

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.

Arunn Thevapalan

Tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.

Zoumana Keita

Ver más Ver más

¿Qué es Veo 3?

Crear un anuncio

Creación de una escena multidisparo con coherencia de personajes

Control Modular Con Ingredientes a Vídeo

Fotogramas a Vídeo

Buenas prácticas de Veo 3

Conclusión

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Los 7 mejores generadores de vídeo de IA para 2024 con vídeos de ejemplo

Visión GPT-4: Guía completa para principiantes

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Fundamentos empresariales de la IA

Working with DeepSeek in Python

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Los 7 mejores generadores de vídeo de IA para 2024 con vídeos de ejemplo

Visión GPT-4: Guía completa para principiantes

Guía para principiantes sobre la ingeniería de avisos ChatGPT

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

Fundamentos de la IA