Ir al contenido principal

Pista Gen 4.5: ¿El mejor modelo de conversión de texto a vídeo hasta la fecha?

Descubre las capacidades de Runway Gen 4.5 y comprueba si realmente es la mejor IA de conversión de texto a vídeo que existe.
Actualizado 22 dic 2025  · 9 min leer

Runway ML ha lanzado recientemente Runway 4.5, la última versión de tu modelo de generación de IA de texto a vídeo. Afirman que su modelo es el mejor modelo de conversión de texto a vídeo hasta la fecha.

A pesar de su impresionante tráiler, siempre me muestra escéptico ante los ejemplos que utilizan las empresas de generación de IA para mostrar sus modelos, ya que suelen estar seleccionados cuidadosamente y la realidad a menudo no está a la altura de las expectativas.

En este artículo, te enseñaré cómo utilizar Runway 4.5 y te mostraré ejemplos sin filtrar para comprobar si Runway 4.5 realmente cumple lo que promete.

¿Qué es Runway 4.5?

Runway 4.5 es un modelo de generación de IA de texto a vídeo de Runway ML. Mientras Runway 4 se centraba en generar vídeos a partir de imágenes, Runway 4.5 se centra en las indicaciones de texto. El nuevo modelo aún no admite sonido, pero según Runway, debería estar disponible pronto.

Captura de pantalla de la aplicación web Runway que muestra que pronto estará disponible la compatibilidad con audio.

La falta de compatibilidad con el audio también significa que los sonidos del tráiler de lanzamiento se crearon externamente y no fueron generados por Runway 4.5.

Aunque el nuevo modelo supera a otros modelos existentes en pruebas comparativas de texto a vídeo, esto parece un paso atrás, ya que los modelos anteriores tenían un buen soporte de sonido e imagen. 

Según mi experiencia, el apoyo de las imágenes es fundamental para crear una historia coherente, ya que, aunque un modelo pueda seguir al pie de la letra las instrucciones del texto, sería imposible mantener la coherencia del personaje utilizando únicamente texto.

Comparativa entre texto y vídeo.

Si eres nuevo en Runway, te recomendamos que consultes nuestros otros artículos sobre Runway ML:

¿Cómo acceder a Runway 4.5?

Se puede acceder a Runway 4.5 a través de su aplicación web.

Captura de pantalla que muestra cómo utilizar Gen-4.5.

Su uso no es gratuito y requiere una suscripción. Para obtener más información, consulta su página de precios.

Cada segundo de generación de vídeo para Gen 4.5 cuesta 25 créditos. La suscripción más barata incluye 625 créditos, lo que solo permite generar 25 segundos de vídeo.

¿Qué hay de nuevo en Runway Gen-4.5?

Echemos un vistazo a las nuevas funciones de Runway Gen 4.5:

Cumplimiento preciso e inmediato

En tu artículo de lanzamiento, afirman que Runway 4.5 puede seguir instrucciones complejas con un alto grado de precisión. Es decir, puede:

  • Renderiza escenas complejas con múltiples elementos con precisión.
  • Maneja composiciones detalladas, lo que permite la colocación precisa de objetos y el movimiento fluido de personajes y objetos en la escena.
  • Gestiona con precisión las interacciones físicas con colisiones creíbles y movimientos naturales.
  • Crea personajes expresivos con emociones matizadas, gestos naturales y detalles realistas.

El siguiente vídeo es una recopilación de un ejemplo de cada una de estas funciones, extraído de tu página web oficial:

Control estilístico y coherencia visual

Al igual que los modelos modernos de conversión de texto a vídeo como Veo3.1, Gen-4.5 admite una amplia gama de estilos visuales, desde imágenes cinematográficas realistas hasta animaciones muy estilizadas, al tiempo que conserva una identidad visual coherente y unificada. En concreto, podemos:

  • Crea vídeos que no se pueden distinguir de las imágenes reales, con detalles realistas y precisión.
  • Crea movimientos estilizados y expresivos con libertad artística sin las limitaciones del realismo.
  • Crea vídeos que parezcan sacados de la vida cotidiana.
  • Renderiza vídeos con una profundidad impresionante y un acabado cinematográfico.

A continuación se muestran ejemplos extraídos de tu anuncio oficial en los que se muestran cada una de las características mencionadas anteriormente:

Prueba de la pista 4.5

Los ejemplos mostrados anteriormente han sido extraídos de la página web oficial. Son bastante impresionantes, pero suele ocurrir con los modelos de generación de vídeo con IA que hay que generar un montón de vídeos utilizando la misma indicación antes de obtener algo bueno. 

Es importante tener en cuenta que, por lo general, los resultados que se muestran en el anuncio de un nuevo modelo se seleccionan cuidadosamente como los mejores vídeos entre muchos ejemplos generados.

En esta sección, muestro los resultados de mis propios experimentos con Runway 4.5. Mientras realizaba estos experimentos, no seleccioné solo lo que me convenía. Por cada idea que se me ocurría, creaba un único vídeo y no intentaba generar varias versiones hasta que conseguía algo aceptable.

Para generar una buena indicación, recomendé seguir tu guía de indicaciones, que sugiere la siguiente estructura:

[Camera] shot of [a subject/object] [action] in [environment]. [Supporting component descriptions]

Precisión física

Mi primera prueba para Runway 4.5 fue comprobar si el modelo entiende la física. 

Para ello, se me ocurrió la idea de poner un elefante y un ratón en un balancín y ver hacia qué lado se inclinaba. No quería incluir en la indicación lo que sucedería para ver si el modelo había aprendido a generar física realista sin que se describiera.

En lugar de generar un solo vídeo, decidí generar dos vídeos:

  1. El ratón está solo en el balancín y el elefante salta al otro lado. Esperaba que el ratón saliera volando.
  2. El elefante está solo en el balancín y el ratón salta al otro lado. No esperaba que pasara nada, ya que el elefante pesa mucho más.

Estas son las indicaciones que utilicé:

Side-on static camera shot of a mouse sitting alone on one end of a wooden see-saw as an elephant falls onto the opposite end in an open grassy field. 
The full see-saw and pivot remain visible, the fall completes within the shot, the motion is shown in real-time, and the take is continuous with no cuts.
Side-on static camera shot of an elephant sitting alone on one end of a wooden see-saw as a mouse falls onto the opposite end in an open grassy field. 
The full see-saw and pivot remain visible, the fall completes within the shot, the motion is shown in real-time, and the take is continuous with no cuts.

Y aquí está el resultado:

Aunque el resultado no es exactamente lo que imaginaba, creo que, en términos físicos, Runway 4.5 lo maneja relativamente bien. 

En el primer vídeo, el elefante no se cae realmente sobre el balancín, pero cuando lo pisa, levanta el ratón, aunque haya algunas pequeñas inconsistencias.

En el segundo vídeo, como era de esperar, el ratón que cae sobre el balancín no tiene ningún efecto, lo cual es bueno.

Emociones de los personajes

A continuación, quería ver si podía evocar emociones fuertes en los personajes. Al principio, quería ver si se podía generar un momento incómodo haciendo que dos personas se miraran fijamente, sin saber qué hacer después de que terminara la conversación. Utilicé esta indicación:

Two-shot eye-level camera shot of two people holding eye contact after a conversation ends in a small elevator. 
Neither speaks, the doors remain closed, and the moment extends slightly longer than comfortable in real time.

Aquí está el vídeo generado por Runway Gen 4.5:

El vídeo no me dio una sensación de incomodidad. Sé que no pedí explícitamente esa emoción en la indicación, y tal vez sea subjetivo que sea la emoción que proviene de la mirada prolongada.

A pesar de no ser lo que esperaba, sentí que el vídeo transmitía expresiones faciales coherentes con la situación. A mí me pareció más bien que los personajes se estaban preparando para afrontar una situación difícil.

Hice un segundo experimento en el que una mujer recibió un mensaje de texto triste y reaccionó a él. Esta fue la indicación que utilicé:

Locked-off close-up camera shot of a young woman reading a very sad message on her phone and slowly lowering it in a quiet subway station. 
Her face remains fully visible, background movement continues naturally, and the moment plays out in a single continuous take.

Generación de escenas complejas

Una de las cosas en las que he visto que los modelos de IA fallan sistemáticamente es en generar escenas concurridas con mucha gente. Por lo general, hay muchos artefactos, con personas y objetos que desaparecen o aparecen de la nada.

Para probar la capacidad de Runway 4.5 para generar una escena compleja, le pedí que generara un vídeo de un mercado nocturno abarrotado utilizando esta indicación:

A crowded open-air night market just after a sudden rainstorm. 
Steam rises from food stalls while neon signs in different languages reflect in puddles on the ground. 
Dozens of people move through the narrow aisles: vendors cooking, customers eating, children weaving through the crowd, a street musician performing near an intersection. 
Some people carry umbrellas, others shake water from their clothes. 
Plastic tarps flutter overhead, partially blocking strings of warm lights. 
In the background, scooters pass by, and apartment windows glow at different heights. 
The scene feels alive, messy, and authentic, with many small interactions happening at once.

Este fue el resultado:

En general, el resultado no está mal. Las personas que aparecen en primer plano se mantienen constantes y el vídeo incluye la mayoría de los elementos solicitados. 

Sin embargo, adolece del mismo problema que otros modelos, que es la dificultad para mantener la consistencia del movimiento. 

Por ejemplo, en un momento dado, hay una moto en segundo plano que desaparece. Lo mismo ocurre con algunas personas.

Generación de escenas realistas

Una de las afirmaciones del anuncio es la capacidad del modelo para generar una escena cotidiana sencilla. Para comprobarlo, te pedí que generaras una de las escenas cotidianas más comunes que se me ocurrieron: alguien pagando en el supermercado.

Esta fue la indicación que utilicé:

Eye-level handheld camera shot of a customer placing items on a checkout counter and waiting in a small local grocery store. 
The cashier scans items off-screen, the line behind shifts slightly, and ambient motion continues.

Aunque el resultado no es tan malo, creo que el modelo ha tenido muchas dificultades para seguir las instrucciones:

No hay ninguna fila visible de clientes, y los artículos se desplazan por la cinta transportadora de una forma extraña y se acumulan al final. La escena me parece poco natural y muy generada por IA.

Creación de mundos fantásticos

Hay algo que llevaba tiempo queriendo crear y que no conseguía con ninguno de los modelos que probaba, así que decidí intentarlo con Runway 4.5. Quería crear un personaje con un pincel mágico que utilizara para salir de situaciones difíciles. 

Por ejemplo, podría estar huyendo de gente mala y utilizarlo para dibujar una escalera y escapar de un callejón sin salida.

Le pedí a Runway 4.5 que generara esta escena utilizando esta indicación:

A fantastical world where painted objects can become real. 
A lone character carrying a glowing magical paintbrush runs through a surreal alley as shadowy pursuers close in behind him. 
He reaches a dead end: a tall, blank wall with no exits. 
Panicked but focused, he turns, presses the brush against the wall, and quickly paints a ladder. 
As the final stroke is completed, the painted ladder transforms into a physical object attached to the wall. 
The character climbs the ladder and escapes upward just as the pursuers reach the wall below. 
The environment feels dreamlike and imaginative, with subtle magical effects reinforcing that art and reality blend together in this world.

El vídeo tiene algunas incoherencias, como que los malos huyen del protagonista al principio y que al final no suben por la escalera. A pesar de eso, después de haber probado esta idea en otros modelos, debo decir que es la primera vez que he conseguido algo remotamente parecido a lo que quería.

Creación de vídeos cinematográficos

Como último experimento, intenté generar un vídeo con un aspecto cinematográfico. Esta es la indicación que utilicé:

A cinematic sequence at dusk in a vast desert landscape. 
A solitary figure walks along a windswept ridge as the sky shifts from deep blue to burning orange. 
The camera begins wide and slowly pushes in, revealing dust catching the light and fabric moving in the wind. 
The character stops, turns toward the horizon, and exhales as distant thunder rolls. 
Subtle lens flares, natural motion blur, and layered sound cues suggest scale and tension. 
The moment feels quiet, dramatic, and intentional, like a scene from a high-budget film.

Aquí está el resultado:

En cuanto al aspecto y la sensación, creo que es muy preciso y resulta muy cinematográfico. Lo único que no me gustó fue que el personaje corría en lugar de caminar. Creo que esto cambia por completo la sensación que transmite el vídeo.

Comparación entre Runway 4.5 y Veo 3.1

Probé algunos ejemplos utilizando las mismas indicaciones tanto en Runway 4.5 como en lo que considero tu competidor más directo, Veo 3.1 (ten en cuenta que los vídeos generados por Veo 3.1 son ligeramente más largos).

Me sorprendió un poco lo bien que funcionó Runway 4.5 en los tres ejemplos. Aquí tienes una comparación entre los vídeos generados por ambos modelos para el ejemplo del balancín con el elefante sentado encima:

El vídeo Veo 3.1 tiene muchos errores. Por ejemplo, aparece un segundo ratón de la nada cuando el ratón está cayendo. Entonces parece que el balancín está golpeando al elefante, pero después de eso, el elefante está realmente delante de él.

Probé un último ejemplo con movimientos complejos e interacciones físicas:

Slow-motion dolly shot of a line of shopping carts colliding one after another in a steep supermarket parking garage. 
Each impact transfers momentum unevenly, carts crumple differently, loose items fly forward, and the final cart barely moves.

En este caso, ambos modelos fallaron, pero Veo 3.1 falló más gravemente:

Conclusión

En este tutorial, he mostrado cómo utilizar Runway 4.5 y lo he sometido a pruebas de estrés con indicaciones sin filtrar sobre física, emociones, multitudes complejas, momentos cotidianos, una escapada fantástica y una escena cinematográfica. También comparé Runway 4.5 directamente con Veo 3.1. 

Runway 4.5 puede generar vídeos atractivos y coherentes, con un cumplimiento riguroso de las instrucciones y momentos ocasionales destacados, pero nada aquí me pareció realmente innovador. 

Runway 4.5 todavía tiene limitaciones evidentes, sobre todo la falta de sonido nativo, que según dicen debería incorporarse pronto, junto con los persistentes problemas de consistencia que observamos en interacciones complejas o muy detalladas. 

En general, según mis experimentos y sus pruebas de rendimiento publicadas, Runway 4.5 parece ser más potente que Veo 3.1 en este momento.

Si deseas obtener más información sobre las técnicas utilizadas en la generación de vídeos con IA, te recomiendo que consultes nuestra guía sobre los mejores modelos de generación de vídeos y nuestro programa de formación sobre fundamentos de IA.

Preguntas frecuentes sobre Runway Gen 4.5

¿Cómo se accede a Runway 4.5?

Puedes acceder a Runway 4.5 a través de la aplicación web Runway. Se requiere una suscripción de pago.

¿Cuánto cuesta una generación Runway 4.5?

Cuesta 25 créditos por segundo; el plan más barato incluye 625 créditos (unos 25 segundos en total).

¿Runway 4.5 es compatible con audio?

En el momento de escribir este artículo, no; el audio del tráiler de lanzamiento se añadió externamente, pero se ha prometido que pronto habrá sonido nativo.Todavía no; el audio del tráiler de lanzamiento se añadió externamente, pero se ha prometido que pronto habrá sonido nativo.

¿En qué se diferencia Runway 4.5 de Veo 3.1?

En nuestras comparaciones paralelas, Runway 4.5 produjo resultados más limpios y coherentes, aunque ambos tropiezan con la compleja física de las reacciones en cadena.

¿Cómo debes indicar Runway 4.5?

Utiliza la estructura recomendada (cámara + sujeto/objeto + acción + entorno + detalles complementarios) y especifica la continuidad (toma única, tiempo real, encuadre).


François Aubry's photo
Author
François Aubry
LinkedIn
Ingeniero full-stack y fundador de CheapGPT. Enseñar siempre ha sido mi pasión. Desde mis primeros días como estudiante, busqué con entusiasmo oportunidades para dar clases particulares y ayudar a otros estudiantes. Esta pasión me llevó a realizar un doctorado, en el que también trabajé como ayudante de profesor para apoyar mis esfuerzos académicos. Durante esos años, encontré una inmensa satisfacción en el entorno tradicional del aula, fomentando las conexiones y facilitando el aprendizaje. Sin embargo, con la llegada de las plataformas de aprendizaje en línea, reconocí el potencial transformador de la educación digital. De hecho, participé activamente en el desarrollo de una plataforma de este tipo en nuestra universidad. Estoy profundamente comprometida con la integración de los principios de la enseñanza tradicional con metodologías digitales innovadoras. Mi pasión es crear cursos que no sólo sean atractivos e informativos, sino también accesibles para los alumnos en esta era digital.
Temas

Los mejores cursos de DataCamp

programa

Fundamentos de la IA

0 min
Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado

blog

Los 7 mejores generadores de vídeo de IA para 2024 con vídeos de ejemplo

Descubre los mejores generadores de vídeo de IA disponibles en la actualidad, como RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo y el esperadísimo Sora y Veo de DeepMind.

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

10 maneras de utilizar ChatGPT para las finanzas

Descubre cómo los modelos lingüísticos de IA como ChatGPT pueden revolucionar tus operaciones financieras, desde la generación de informes hasta la traducción de jerga financiera.
Matt Crabtree's photo

Matt Crabtree

13 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

Ver másVer más