Piste Gen 4.5 : Le meilleur modèle de conversion de texte en vidéo à ce jour ?

Découvrez les fonctionnalités de Runway Gen 4.5 et déterminez s'il s'agit réellement de la meilleure IA de conversion de texte en vidéo disponible sur le marché.

Actualisé 22 déc. 2025 · 9 min lire

Malgré leur bande-annonce impressionnante, je reste sceptique quant au fait que les exemples vidéo utilisés par les entreprises de génération d'IA pour présenter leurs modèles soient triés sur le volet et que la réalité ne corresponde souvent pas au battage médiatique.

Dans cet article, je vais vous expliquer comment utiliser Runway 4.5 et vous présenter des exemples non filtrés afin de déterminer si Runway 4.5 tient réellement ses promesses.

Qu'est-ce que Runway 4.5 ?

Runway 4.5 est un modèle de génération d'IA texte-vidéo de Runway ML. Pendant que Runway 4 se concentrait sur la génération de vidéos à partir d'images, Runway 4.5 se concentre sur les invites textuelles. Le nouveau modèle ne prend actuellement pas encore en charge le son, mais cette fonctionnalité devrait être disponible prochainement, selon Runway.

L'absence de prise en charge audio signifie également que les sons de leur bande-annonce de lancement ont été créés en externe et n'ont pas été générés par Runway 4.5.

Bien que le nouveau modèle surpasse les autres modèles existants dans les tests de conversion texte-vidéo, cela peut être perçu comme un recul, car les modèles précédents offraient une bonne qualité sonore et visuelle.

D'après mon expérience, le soutien visuel est essentiel pour créer une histoire cohérente, car même si un modèle peut respecter entièrement une consigne textuelle, il serait impossible de maintenir la cohérence du personnage en utilisant uniquement du texte.

Si vous débutez avec Runway, nous vous recommandons de consulter nos autres articles sur Runway ML :

Comment accéder à Runway 4.5 ?

Runway 4.5 est accessible via leur application web.

Son utilisation n'est pas gratuite et nécessite un abonnement. Pour plus de détails, veuillez consulter leur page de tarification.

Chaque seconde de génération vidéo pour Gen 4.5 coûte 25 crédits. Leur abonnement le plus abordable comprend 625 crédits, ce qui permet de générer seulement 25 secondes de vidéo.

Quelles sont les nouveautés de Runway Gen-4.5 ?

Veuillez découvrir les nouvelles fonctionnalités de Runway Gen 4.5 :

Respect précis et rapide

Dans leur article de lancement, ils affirment que Runway 4.5 est capable de respecter des consignes complexes avec un haut degré de précision. À savoir, il peut :

Rendez avec précision des scènes complexes comportant plusieurs éléments.
Gérer des compositions détaillées, permettant un placement précis des objets et un mouvement fluide des personnages et des objets dans la scène.
Gérer avec précision les interactions physiques grâce à des collisions réalistes et des mouvements naturels.
Créez des personnages expressifs avec des émotions nuancées, des gestes naturels et des détails réalistes.

La vidéo ci-dessous est une compilation d'un exemple pour chacune de ces fonctionnalités, tirée de leur site web officiel :

Contrôle stylistique et cohérence visuelle

À l'instar des modèles modernes de conversion texte-vidéo tels que Veo3.1, Gen-4.5 prend en charge un large éventail de styles visuels, allant d'images cinématographiques réalistes à des animations hautement stylisées, tout en conservant une identité visuelle cohérente et unifiée. Nous sommes en mesure notamment de :

Créez des vidéos qui sont difficilement distinguables des images réelles, avec des détails et une précision réalistes.
Créez des mouvements stylisés et expressifs avec une liberté artistique sans contrainte de réalisme.
Réalisez des vidéos qui reflètent la vie quotidienne.
Créez des vidéos d'une profondeur saisissante et d'une qualité cinématographique.

Vous trouverez ci-dessous des exemples tirés de leur annonce officielle illustrant chacune des fonctionnalités mentionnées ci-dessus :

Essai de la piste 4.5

Les exemples présentés ci-dessus sont tirés du site web officiel. Ces résultats sont impressionnants, mais il est fréquent, avec les modèles de génération vidéo basés sur l'IA, que nous devions générer un certain nombre de vidéos à partir de la même invite avant d'obtenir un résultat satisfaisant.

Il est important de garder à l'esprit que les résultats présentés lors de l'annonce d'un nouveau modèle sont généralement sélectionnés avec soin parmi les meilleures vidéos parmi de nombreux exemples générés.

Dans cette section, je présente les résultats de mes propres expériences réalisées à l'aide de Runway 4.5. Lors de la réalisation de ces expériences, je n'ai pas procédé à une sélection sélective. Pour chaque idée que j'avais, j'ai créé une seule vidéo et je n'ai pas tenté de générer plusieurs versions avant d'obtenir un résultat satisfaisant.

Afin de générer une bonne invite, je recommande de suivre leur guide d'invite. guide de prompt, qui suggère la structure suivante :

[Camera] shot of [a subject/object] [action] in [environment]. [Supporting component descriptions]

Précision physique

Mon premier test pour Runway 4.5 consistait à vérifier si le modèle comprenait la physique.

Pour cela, j'ai eu l'idée de placer un éléphant et une souris sur une balançoire et d'observer dans quel sens elle pencherait. Je n'ai pas souhaité inclure dans la consigne ce qui se produirait afin de déterminer si le modèle a appris à générer des effets physiques réalistes sans qu'ils soient décrits.

Au lieu de créer une seule vidéo, j'ai décidé de créer deux vidéos :

La souris est seule sur la balançoire, et l'éléphant saute de l'autre côté. Je m'attendais à ce que la souris s'envole.
L'éléphant est seul sur la balançoire, et la souris saute de l'autre côté. Je ne m'attendais pas à ce qu'il se passe quoi que ce soit, car l'éléphant est beaucoup plus lourd.

Voici les invites que j'ai utilisées :

Side-on static camera shot of a mouse sitting alone on one end of a wooden see-saw as an elephant falls onto the opposite end in an open grassy field. 
The full see-saw and pivot remain visible, the fall completes within the shot, the motion is shown in real-time, and the take is continuous with no cuts.

Side-on static camera shot of an elephant sitting alone on one end of a wooden see-saw as a mouse falls onto the opposite end in an open grassy field. 
The full see-saw and pivot remain visible, the fall completes within the shot, the motion is shown in real-time, and the take is continuous with no cuts.

Et voici le résultat :

Bien que le résultat ne corresponde pas exactement à ce que j'avais imaginé, j'estime que, d'un point de vue physique, Runway 4.5 gère relativement bien la situation.

Dans la première vidéo, l'éléphant ne tombe pas réellement sur la balançoire, mais lorsqu'il monte dessus, il soulève la souris, même s'il y a quelques incohérences mineures.

Dans la deuxième vidéo, comme prévu, la chute de la souris sur la balançoire n'a aucun effet, ce qui est satisfaisant.

Émotions des personnages

Ensuite, j'ai souhaité déterminer si je pouvais susciter des émotions fortes chez les personnages. Au départ, je souhaitais déterminer si cela pouvait créer un moment de gêne en amenant deux personnes à se regarder fixement, sans rien faire d'autre après la fin d'une conversation. J'ai utilisé cette invite :

Two-shot eye-level camera shot of two people holding eye contact after a conversation ends in a small elevator. 
Neither speaks, the doors remain closed, and the moment extends slightly longer than comfortable in real time.

Voici la vidéo générée par Runway Gen 4.5 :

La vidéo ne m'a pas donné un sentiment de gêne. Je suis conscient de ne pas avoir explicitement demandé cette émotion dans la consigne, et il est possible que ce soit subjectif de penser que cette émotion provienne du long regard.

Bien que cela ne corresponde pas à mes attentes, j'ai trouvé que les expressions faciales dans la vidéo étaient cohérentes avec la situation. Pour moi, j'avais plutôt l'impression que les personnages se préparaient à faire face à une situation difficile.

J'ai mené une deuxième expérience dans laquelle une femme a reçu un message texte triste et y a réagi. Voici l'invite que j'ai utilisée :

Locked-off close-up camera shot of a young woman reading a very sad message on her phone and slowly lowering it in a quiet subway station. 
Her face remains fully visible, background movement continues naturally, and the moment plays out in a single continuous take.

Création de scènes complexes

L'une des tâches que les modèles d'IA ne parviennent généralement pas à accomplir est la génération de scènes animées avec un grand nombre de personnes. Généralement, il existe de nombreux artefacts, avec des personnes et des objets qui disparaissent ou apparaissent soudainement.

Afin de tester la capacité de Runway 4.5 à générer une scène complexe, j'ai demandé à l'outil de créer une vidéo représentant un marché nocturne bondé à l'aide de la commande suivante :

A crowded open-air night market just after a sudden rainstorm. 
Steam rises from food stalls while neon signs in different languages reflect in puddles on the ground. 
Dozens of people move through the narrow aisles: vendors cooking, customers eating, children weaving through the crowd, a street musician performing near an intersection. 
Some people carry umbrellas, others shake water from their clothes. 
Plastic tarps flutter overhead, partially blocking strings of warm lights. 
In the background, scooters pass by, and apartment windows glow at different heights. 
The scene feels alive, messy, and authentic, with many small interactions happening at once.

Voici le résultat :

Dans l'ensemble, le résultat n'est pas trop mauvais. Les personnes à l'avant restent cohérentes et la vidéo comprend la plupart des éléments demandés.

Cependant, il présente le même problème que d'autres modèles, à savoir des difficultés à maintenir la cohérence des mouvements.

Par exemple, à un moment donné, on observe un scooter à l'arrière-plan qui disparaît. Il en va de même pour certaines personnes.

Création de scènes réalistes

L'une des affirmations contenues dans l'annonce concerne la capacité du modèle à générer une scène simple de la vie quotidienne. Pour vérifier cela, j'ai demandé au système de générer l'une des scènes quotidiennes les plus courantes qui me venait à l'esprit : une personne effectuant ses achats au supermarché.

Voici l'invite que j'ai utilisée :

Eye-level handheld camera shot of a customer placing items on a checkout counter and waiting in a small local grocery store. 
The cashier scans items off-screen, the line behind shifts slightly, and ambient motion continues.

Même si le résultat n'est pas trop mauvais, j'ai l'impression que le modèle a eu beaucoup de mal à respecter la consigne :

Il n'y a pas de file d'attente visible, et les articles défilent de manière inhabituelle sur le tapis roulant et s'accumulent simplement à l'extrémité. La scène me semble peu naturelle et très générée par l'IA.

Création de mondes imaginaires

Il y a quelque chose que je souhaite créer depuis un certain temps, mais qui n'a pas fonctionné avec tous les modèles que j'ai essayés. J'ai donc décidé de tenter l'expérience avec Runway 4.5. Je souhaitais créer un personnage doté d'un pinceau magique qu'il utilise pour se sortir de situations difficiles.

Par exemple, il pourrait être en fuite, poursuivi par des individus malveillants, et l'utiliser pour dessiner une échelle afin de s'échapper d'une impasse.

J'ai demandé à Runway 4.5 de générer cette scène à l'aide de cette invite :

A fantastical world where painted objects can become real. 
A lone character carrying a glowing magical paintbrush runs through a surreal alley as shadowy pursuers close in behind him. 
He reaches a dead end: a tall, blank wall with no exits. 
Panicked but focused, he turns, presses the brush against the wall, and quickly paints a ladder. 
As the final stroke is completed, the painted ladder transforms into a physical object attached to the wall. 
The character climbs the ladder and escapes upward just as the pursuers reach the wall below. 
The environment feels dreamlike and imaginative, with subtle magical effects reinforcing that art and reality blend together in this world.

La vidéo présente quelques incohérences, comme le fait que les méchants s'enfuient devant le personnage principal au début, et qu'à la fin, ils ne montent pas à l'échelle. Malgré cela, après avoir testé cette idée sur d'autres modèles, je dois dire que c'est la première fois que j'obtiens un résultat qui se rapproche de ce que je souhaitais.

Création de vidéos cinématiques

À titre d'expérience finale, j'ai tenté de créer une vidéo présentant un aspect cinématographique. Voici l'invite que j'ai utilisée :

A cinematic sequence at dusk in a vast desert landscape. 
A solitary figure walks along a windswept ridge as the sky shifts from deep blue to burning orange. 
The camera begins wide and slowly pushes in, revealing dust catching the light and fabric moving in the wind. 
The character stops, turns toward the horizon, and exhales as distant thunder rolls. 
Subtle lens flares, natural motion blur, and layered sound cues suggest scale and tension. 
The moment feels quiet, dramatic, and intentional, like a scene from a high-budget film.

Voici le résultat :

En termes d'apparence et de sensation, je trouve que c'est très précis et que cela donne une impression très cinématographique. Le seul élément qui ne m'a pas satisfait est que le personnage courait au lieu de marcher. Je considère que cela modifie l'impression générale de la vidéo.

Comparaison entre Runway 4.5 et Veo 3.1

J'ai testé quelques exemples en utilisant les mêmes invites sur Runway 4.5 et sur ce que je considère comme son concurrent direct, Veo 3.1 (veuillez noter que les vidéos générées par Veo 3.1 sont légèrement plus longues).

J'ai été quelque peu surpris de constater à quel point Runway 4.5 était plus performant dans les trois exemples. Voici une comparaison entre les vidéos générées par les deux modèles pour l'exemple de la balançoire avec l'éléphant assis dessus :

J'ai tenté un dernier exemple avec des mouvements complexes et des interactions physiques :

Slow-motion dolly shot of a line of shopping carts colliding one after another in a steep supermarket parking garage. 
Each impact transfers momentum unevenly, carts crumple differently, loose items fly forward, and the final cart barely moves.

Dans ce cas, les deux modèles ont échoué, mais Veo 3.1 a échoué de manière plus significative :

Conclusion

Dans ce guide, j'ai présenté l'utilisation de Runway 4.5 et l'ai soumis à des tests de résistance avec des invites non filtrées dans les domaines de la physique, des émotions, des foules complexes, des moments quotidiens, d'une évasion fantastique et d'une scène cinématographique. J'ai également comparé Runway 4.5 directement avec Veo 3.1.

Runway 4.5 est tout à fait capable de générer des vidéos esthétiques et cohérentes, avec une bonne adhésion aux consignes et quelques moments remarquables, mais rien ici ne semble véritablement révolutionnaire.

Runway 4.5 présente encore des limites évidentes, notamment l'absence de son natif, qui devrait être disponible prochainement, ainsi que des problèmes de cohérence persistants que nous avons observés lors d'interactions complexes ou très détaillées.

Dans l'ensemble, d'après mes expériences et leurs benchmarks publiés, Runway 4.5 semble actuellement plus performant que Veo 3.1.

Si vous souhaitez en savoir plus sur les techniques utilisées dans la génération de vidéos par IA, je vous recommande de consulter notre guide des meilleurs modèles de génération de vidéos et notre cursus « Principes fondamentaux de l'IA ».

Comment puis-je accéder à Runway 4.5 ?

Quel est le coût d'une génération Runway 4.5 ?

Runway 4.5 prend-il en charge l'audio ?

Quelles sont les différences entre Runway 4.5 et Veo 3.1 ?

Comment dois-je lancer Runway 4.5 ?

Author

François Aubry

Ingénieur full-stack et fondateur de CheapGPT. L'enseignement a toujours été ma passion. Dès mes premiers jours d'études, j'ai cherché avec enthousiasme des occasions de donner des cours particuliers et d'aider d'autres étudiants. Cette passion m'a amenée à poursuivre un doctorat, où j'ai également été assistante d'enseignement pour soutenir mes efforts académiques. Au cours de ces années, j'ai trouvé un immense épanouissement dans le cadre d'une classe traditionnelle, en favorisant les liens et en facilitant l'apprentissage. Cependant, avec l'avènement des plateformes d'apprentissage en ligne, j'ai reconnu le potentiel de transformation de l'éducation numérique. En fait, j'ai participé activement au développement d'une telle plateforme dans notre université. Je suis profondément engagée dans l'intégration des principes d'enseignement traditionnels avec des méthodologies numériques innovantes. Ma passion est de créer des cours qui sont non seulement attrayants et instructifs, mais aussi accessibles aux apprenants à l'ère du numérique.

Sujets

Intelligence artificielle

Grands modèles linguistiques

Meilleurs cours DataCamp

Cursus

Principes fondamentaux de l'IA

10 h

Découvrez les principes fondamentaux de l'IA, apprenez à l'utiliser efficacement dans votre travail et explorez des modèles tels que chatGPT pour vous orienter dans le paysage dynamique de l'IA.

Afficher les détails

Commencer le cours

Cours