Accéder au contenu principal

Veo 3 de Google : Un guide avec des exemples pratiques

Apprenez à utiliser Veo 3 pour créer une publicité spécifique, maintenir la cohérence des personnages entre les différentes prises de vue et obtenir un contrôle modulaire grâce à la fonction Ingrédients.
Actualisé 22 mai 2025  · 12 min de lecture

Google vient de lancer Veo 3, son tout dernier générateur de vidéos à base d'IA. Ce qui m'a tout de suite frappé, c'est qu'il offre une sortie audio native. Vous pouvez générer des clips vidéo complets avec du son cuit dans les dialogues, des effets d'ambiance, de la musique de fond. C'est quelque chose que je n'ai pas encore vu chez Runway ou Sora. À ce stade, je dirais que Veo 3 a une longueur d'avance.

J'ai vu suffisamment de démonstrations vidéo sur l'IA pour savoir qu'elles sont souvent exagérées. Ils ont l'air perfectionnés, mais dès que votre message s'aventure en terrain inconnu par rapport aux données d'apprentissage (un cadre étrange, un personnage inhabituel ou quelque chose de trop subtil), la plupart des modèles se cassent la figure.

Mais j'ai testé Veo 3 et je peux vous dire qu'il est très bon. Ci-dessous, je vous expliquerai comment cela fonctionne et vous montrerai quelques-uns des clips que j'ai réussi à créer. Je pense que vous serez impressionné.

Nous tenons nos lecteurs informés des dernières nouveautés en matière d'IA en leur envoyant The Median, notre lettre d'information gratuite du vendredi qui analyse les principaux sujets de la semaine. Abonnez-vous et restez à la pointe de la technologie en quelques minutes par semaine :

Qu'est-ce que Veo 3 ? 

Avant de passer à la pratique et de vous montrer des exemples, comprenons rapidement ce qu'est Veo et ce qu'il y a de nouveau.

Veo 3 est le dernier modèle de génération de vidéos par l'IA de Google, annoncé lors de la conférence Google I/O 2025. Il transforme les messages textes ou images en vidéos haute définition, avec désormais une intégration audio native. Cela signifie que Veo 3 peut générer des dialogues synchronisés, des sons d'ambiance et de la musique de fond, produisant ainsi des clips remarquablement réalistes.

En voici un exemple :

Pour l'instant, Veo 3 n'est disponible qu'aux États-Unis et uniquement par l'intermédiaire de Flowla nouvelle interface de création cinématographique de Google, alimentée par l'IA. Pour y accéder, vous devez souscrire un abonnement AI Ultra, qui coûte 250 $ par mois (environ 272 $ TTC).

Commençons à construire !

Création d'une annonce

Pour mon premier test, j'ai voulu créer une publicitéunique surpour une marque fictive de bonbons à la menthe appelée Mintro. L'idée : quelque chose de court, de percutant et de mémorable. J'ai imaginé un moment gênant et racontable, quelque chose qui pourrait arrêter rapidement le défilement.

Voici la situation : deux collègues de travail sont coincés dans un ascenseur bondé, face à face, le genre d'espace où la confiance (et l'haleine fraîche) est importante. Pour rompre la tension, l'un d'entre eux lance une réplique à la fois tragique et hilarante :

Une fois, j'ai éternué lors d'une réunion à quatre mains et j'ai cliqué en même temps sur "partager l'écran". Pas de survivants".

Ensuite, la publicité se termine par le logo Mintro et le slogan :

"Approuvé pour les conversations d'ascenseur".

Si vous voulez suivre, utilisez les instructions visuelles de cette image pour créer une vidéo avec Veo 3 :

comment créer une vidéo avec veo 3

Commençons par cette invite et voyons ce que nous obtenons :

Prompt :

Un ascenseur d'entreprise bondé à l'heure de pointe du matin. Deux collègues bien habillés se tiennent face à face, dans une proximité inconfortable en raison de l'espace restreint. L'un d'entre eux, tout en gardant son sérieux, se penche légèrement et dit : "Une fois, j'ai éternué pendant la réunion à quatre mains et j'ai cliqué sur "partager l'écran" en même temps. Pas de survivants". L'autre essaie de réprimer un rire. L'ascenseur sonne et les portes s'ouvrent sur un étage de bureaux en pleine effervescence.

La première version semblait prometteuse, mais certains éléments n'étaient pas tout à fait satisfaisants.

D'une part, tout le monde dans l'ascenseur regardait les personnages principaux, ce qui attirait l'attention dans le mauvais sens. Je voulais que les personnes environnantes restent dans leur tête, comme la plupart d'entre nous le font dans les transports du matin. Idéalement, quelqu'un consulte son téléphone, une autre personne a l'air perdue dans ses pensées, quelqu'un ajuste peut-être son sac, mais personne ne doit surveiller l'interaction.

Autre problème : la femme porte la main à son nez, ce qui sous-entend subtilement que l'homme a mauvaise haleine. Cela va complètement à l'encontre de l'objectif de l'annonce, qui est censé être la confiance que procure une haleine fraîche. Ce geste devait disparaître.

Le cadre ne semblait pas non plus approprié. Pour une raison inconnue, l'ascenseur débouche directement sur un espace de bureau, ce qui n'est pas la façon dont les bureaux sont aménagés. Les ascenseurs donnent généralement sur un couloir ou un hall d'entrée, et non directement sur le poste de travail d'une personne. Ce n'est qu'un petit détail, mais il donne à la scène une impression d'artificialité.

De plus, des sous-titres sont apparus dans la vidéo, ce que je n'avais pas demandé, et ils étaient très mal orthographiés. Enfin, l'ambiance sonore à l'intérieur de l'ascenseur était trop morte. Il fallait quelque chose de subtil, comme une musique d'ambiance d'ascenseur diffusée par des haut-parleurs, pour que l'environnement paraisse réel.

En gardant ces notes à l'esprit, j'ai effectué environ cinq itérations jusqu'à ce que j'arrive à une version qui me convienne. Ce n'est pas parfait, mais c'est beaucoup plus proche de ce que je voulais.

Voici le texte révisé que j'ai utilisé :

Prompt :

Un ascenseur de bureau très encombré à l'heure de pointe du matin. Les portes sont fermées au début de la vidéo, et lorsqu'elles commencent à s'ouvrir lentement, on entend une douce musique d'ascenseur provenant des haut-parleurs du plafond, ainsi qu'un léger bourdonnement mécanique. La caméra effectue une prise de vue unique et continue, à hauteur d'œil, en se concentrant sur deux collègues bien habillés qui se tiennent face à face, dans une proximité inconfortable en raison de l'espace restreint. Au moment où les portes de l'ascenseur s'ouvrent à moitié, l'homme dit calmement et avec assurance : Une fois, j'ai éternué lors d'une réunion à quatre mains et j'ai cliqué en même temps sur "partager l'écran". Pas de survivants". La femme réagit par un rire sincère - amusé mais jamais exagéré - et elle ne parle pas, ne recule pas, ne se touche pas le visage, ne recule pas. Autour d'eux, les autres passagers de l'ascenseur restent détendus et détachés : l'un fait défiler son téléphone, un autre regarde devant lui en pensant, quelqu'un d'autre déplace son sac - mais personne ne regarde ou ne réagit aux personnages principaux. Les portes continuent de s'ouvrir complètement et, à la fin du plan, les deux collègues sortent de l'ascenseur tandis que la caméra reste fixe. Les personnages ne regardent jamais la caméra. N'incluez pas de légendes, de sous-titres ou de texte à l'écran.

Cette version a obtenu la plupart des blocages et des tons corrects. Cependant, quelques petits problèmes subsistent :

  • Les portes de l'ascenseur s'ouvrent un peu trop rapidement, ce qui me choque.
  • Le son est encore trop faible, même si la musique de l'ascenseur est incluse.

D'après mon expérience de l'IA, il faut une minute pour obtenir 90 % du résultat et une heure pour obtenir les 10 % restants - même si, pour être honnête, vous n'obtenez presque jamais exactement ce que vous voulez. J'ai donc transféré le brouillon dans DaVinci Resolve et j'ai fait le reste manuellement. Il a fallu environ 15 minutes de montage léger - quelques fondus, de la musique de fond et le logo Mintro final avec le slogan.

Le logo lui-même a été créé à l'aide de Whisk, l'outil de conception de Google qui fonctionne sous Imagen 4 (vous pouvez également le trouver dans Gemini si vous préférez travailler à partir de l'application). La sortie était suffisamment propre pour que je puisse l'intégrer sans avoir à la modifier.

Après ces modifications, l'annonce était prête. C'est court, bizarre et, espérons-le, mémorable.

Création d'une scène à plusieurs plans avec cohérence des personnages

Je vais maintenant vous montrer comment construire une scène à plusieurs plans avec une cohérence des personnages, c'est-à-dire que le même personnage conserve son visage et son apparence d'un plan à l'autre. Cela peut sembler élémentaire, mais dans la génération des vidéos d'IA, ce type de continuité est encore difficile à obtenir.

Pour clarifier les choses : une scène est une unité de récit avec une continuité dans le temps et l'espace. Il peut être composé d'un ou de plusieurs plans, selon la manière dont vous souhaitez le découper. Une fois que vous avez compris cette structure, il devient plus facile de construire des scènes complètes et, éventuellement, de les assembler pour en faire un court métrage.

Pour illustrer mon propos, je vais créer une histoire très rapide inspirée de ce qui est souvent considéré comme l'une des plus grandes fictions éclair jamais écrites (prétendument par Hemingway) :

A vendre : chaussures pour bébé, jamais portées.

C'est autour de ce noyau émotionnel que je veux construire. J'ai imaginé une micro-narration en deux temps pour donner vie à cette ligne :

  • Tir 1: Une femme d'une trentaine d'années ouvre une armoire du couloir remplie de vieux manteaux, de linge plié et de quelques boîtes en carton non étiquetées. Elle tire doucement l'une des boîtes vers le bas et s'agenouille sur le sol. Elle ouvre la boîte et déballe soigneusement un petit objet à l'intérieur : une paire de chaussures de bébé d'un blanc immaculé, nichée dans du papier de soie.
  • Tir 2: Quelques minutes plus tard, dans la cuisine. La femme est assise seule à la table de la cuisine, le téléphone à la main. L'appareil photo conserve un angle latéral fixe et moyennement rapproché. Elle dépose les chaussures de bébé sur la table à côté d'elle et commence à taper une annonce sur son téléphone. Texte sur l'écran du téléphone : "A vendre : chaussures de bébé, jamais portées.

Cette fois-ci, je ne vais pas itérer pour obtenir un résultat poli et cinématographique. Mon objectif est simplement de montrer ce qu'il est possible de faire avec cet outil - comment établir le ton et maintenir l'apparence du personnage sur plusieurs plans.

Commençons par générer le premier plan normalement (comme nous avons généré les plans pour la publicité).

Prompt :

Intérieur d'une maison calme et habitée au petit matin. La lumière naturelle filtre doucement à travers une fenêtre du couloir. Une femme d'une trentaine d'années ouvre une armoire du couloir remplie de vieux manteaux, de linge plié et de quelques boîtes en carton non étiquetées. Elle tire doucement l'une des boîtes vers le bas et s'agenouille sur le sol. L'appareil photo reste immobile à un angle moyen, à hauteur des yeux. Elle ouvre la boîte et déballe soigneusement un petit objet à l'intérieur : une paire de chaussures de bébé d'un blanc immaculé, nichée dans du papier de soie. Elle s'assoit sur ses talons, tenant les chaussures sur ses genoux. Son expression est indéchiffrable - pas triste, juste présente et immobile. La prise de vue est calme et sans précipitation. Pas de musique. Mettez l'accent sur l'ambiance naturelle - les sons doux de la maison, le grincement de la porte du placard, le froissement du carton et des détails subtils et lointains comme le tic-tac d'une horloge ou un oiseau à la fenêtre. Le moment doit être feutré et réel. Style visuel : réalisme chaleureux et ancré dans la réalité, avec un éclairage naturel. Évitez la sur-stylisation cinématographique. Maintenez une prise de vue unique et continue, sans coupures ni zooms. N'incluez pas de texte ou de sous-titres à l'écran.

Pas mal du tout. J'aime le cadrage, la couleur, et le son est correct. Le jeu des acteurs n'est pas excellent - il n'y a pas beaucoup d'émotion - mais passons.

Supposons que nous voulions passer au plan suivant dans la cuisine. Notre meilleure chance de maintenir la cohérence des personnages, c'est-à-dire de conserver le même visage, la même tenue et la même apparence générale, est d'utiliser le Créateur de scène.

Une fois que vous êtes satisfait de votre première prise de vue, cliquez sur Ajouter à la scène:

Une ligne de temps s'ouvre. Cliquez sur le signe plus, puis faites votre choix :

  • Aller à : C'est ce qui se passe et ensuite (la scène saute à)
  • Prolonger : Ceci se produit et ensuite (plan élargi)

Pour cet exemple, j'ai besoin d'une coupe, je vais donc choisir Sauter à et utiliser cette invite (j'y suis parvenu après quelques itérations - cette fonction a vraiment besoin d'être améliorée) :

Prompt :

Dans la cuisine quelques minutes plus tard. La lumière du soleil filtre doucement sur le tableau et le sol, créant une atmosphère calme et tranquille. Ambiance domestique calme - le doux ronronnement du réfrigérateur, un léger grincement de chaise, de légers tapotements sur l'écran du téléphone. Pas de musique ni de voix extérieures. La femme est assise seule à la table de la cuisine, le téléphone à la main. L'appareil photo conserve un angle latéral fixe et moyennement rapproché. Elle dépose les chaussures de bébé sur la table à côté d'elle et commence à taper une annonce sur son téléphone. La caméra coupe sur un plan en plongée ou un insert serré montrant l'écran du téléphone : "A vendre : chaussures de bébé, jamais portées. Elle fixe le texte pendant un long moment, le pouce au-dessus du bouton "poster". Ses yeux se mettent à briller, mais elle s'empresse de les faire disparaître. Elle ne pleure pas - au lieu de cela, elle verrouille le téléphone, le pose face contre terre et expire, se stabilisant. Son expression est sobre et indéchiffrable, mais son langage corporel en dit long : ce n'est pas facile. N'incluez pas de sous-titres à l'écran.

Le respect des délais était faible - le ton et la composition ne correspondaient pas à ce que j'avais en tête. Cela dit, la cohérence des personnages était convenable : même coupe de cheveux, même structure faciale, mais les vêtements ont changé.

J'ai également remarqué quelques artefacts visuels dans la sortie (regardez les chaussures). Et alors que je m'attendais à une seule prise de vue, j'ai eu droit à trois coupes distinctes en une seule génération. Plus tard, je me suis rendu compte que j'avais involontairement suggéré une deuxième coupe dans l'invitation, donc cette partie est de ma faute - mais je n'ai toujours aucune idée de l'origine du troisième plan.

De plus, l'exportation à partir de Scene Builder a entièrement supprimé l'audio. Je ne sais pas s'il s'agit d'un bogue ou d'une limitation de la configuration actuelle, mais il ne semble pas y avoir de solution simple. Vous pouvez télécharger chaque cliché individuellement. Je les ai donc assemblés dans DaVinci Resolve.

Google a encore beaucoup de travail à faire en ce qui concerne la fonction de création de scènes, mais c'est prometteur !

Contrôle modulaire avec des ingrédients pour la vidéo

L'une des fonctions les plus expérimentales (et les plus amusantes) de Flow est la fonction "Ingrédients pour la vidéo". Il vous offre un contrôle modulaire : vous générez des éléments individuels - appelés ingrédients - etles combinez ensuite dans une scène.

Vous pouvez créer des ingrédients à l'aide de la génération d'images, bien que le téléchargement d'images ne soit pas encore pris en charge. Voici un exemple de l'équipe de Google :

Pour ce test, j'ai voulu essayer quelque chose d'un peu absurde - un court métrage drôle et kafkaïen :

Un insecte à visage humain conduit un SUV. Mais voici le clou du spectacle (comme si ce n'était pas déjà assez) : le siège du conducteur est un fauteuil de roi.

Commençons par sélectionner l'option Ingrédients en vidéo :

ingrédients de la fonction vidéo dans veo 3

J'ai commencé par générer les trois ingrédients un par un : la chaise, le SUV et l'insecte.

générer des ingrédients dans veo 3

Malheureusement, cette fonctionnalité fonctionne actuellement sur Veo 2, et non sur Veo 3. Techniquement, vous pouvez sélectionner Veo 3 dans le menu déroulant, mais le système revient toujours automatiquement à Veo 2 pendant la génération et affiche cet avertissement :

avertissement veo 3

Comme on pouvait s'y attendre, la qualité de la sortie était décevante :

Prompt :

Un insecte à visage humain conduit calmement un SUV, assis sur un trône de roi surdimensionné.

Cela dit, deux des trois ingrédients - en particulier l'insecte et la chaise - avaient l'air étonnamment bons. Le SUV, un peu moins...

Avec les capacités de Veo 3, cette configuration aurait probablement été beaucoup plus solide. Pour l'instant, ce mode est prometteur, mais il n'est pas encore tout à fait au point.

Images vers vidéo

L'idée derrière Frames to Video est la suivante : vous fournissez au modèle une première et une dernière image, et il essaie d'animer une transition entre elles (par un mouvement de caméra que vous pouvez contrôler). Vous pouvez générer ces cadres à partir d'une invite ou (éventuellement) les télécharger vous-même - le téléchargement d'images n'est pas encore disponible.

images vers vidéo dans veo 3

Comme pour la fonction Ingrédients, ce mode est automatiquement réglé par défaut sur Veo 2, ce qui limite considérablement la qualité. Je n'ai rien pu en tirer de particulièrement utile.

Au final, je l'ai utilisé pour animer un plan unique d'un caméléon. J'ai défini la même image comme cadre de départ et d'arrivée et j'ai demandé un mouvement de caméra, mais cette partie n'a pas été respectée dans le rendu final.

Prompt :

Un caméléon est assis sur une branche, immobile, les yeux balayant lentement dans des directions opposées alors qu'il attend patiemment une proie.

Meilleures pratiques Veo 3

Lorsque vous accédez pour la première fois à Veo 3 via Flow, vous commencez avec 12 500 crédits. Chaque génération de vidéo consomme une partie de ce total - 150 crédits par génération avec Veo 3 - et il vaut donc la peine d'être stratégique dès le départ.

Mon conseil : réfléchissez bien à vos questions et ne produisez qu'un seul résultat à la fois. Vous devrez répartir ces crédits sur l'ensemble du mois, et chaque génération prend du temps - souvent 2 à 3 minutes ou plus. Cela rend l'itération relativement lente, de sorte que l'essai-erreur n'est ni bon marché ni rapide.

Pour la création d'invites, Google fournit un Guide d'incitation à la génération de vidéos de Vertex AI qui donne des indications sur la structuration d'invites efficaces pour Veo. Ce guide met l'accent sur l'importance de formuler des messages clairs et descriptifs et fournit des exemples pour vous aider à démarrer.

Si vous souhaitez obtenir des conseils supplémentaires, vous pouvez consulter le Runway Gen-3 Alpha Prompting Guide est une ressource précieuse. Il propose des stratégies détaillées pour créer des invites qui produisent des vidéos de haute qualité, ce qui peut également s'avérer utile lorsque vous travaillez avec Veo 3.

Conclusion

Je n'avais pas été aussi étonné par une avancée de l'IA depuis la génération d'images de GPT-4o.

Veo 3 offre quelque chose de fondamentalement nouveau : une vidéo cohérente et sonorisée à partir d'invites en langage naturel. Ce seul point le distingue de tous les autres produits que j'ai testés.

Bien sûr, il a ses défauts - la dérive des messages, l'absence d'accès complet à Veo 3 dans des outils clés tels que Scene Builder, et des problèmes visuels occasionnels - mais l'expérience de base est réellement passionnante.

Ce qui est frappant, c'est qu'il semble déjà proche d'un pipeline créatif utilisable. Avec un peu d'édition et quelques conseils avisés, vous pouvez passer d'une idée à un story-board et à un projet de court métrage en moins de quelques heures. Ajoutez à cela la cohérence des caractères (même si elle est un peu fragile), l'audio intégré dans la sortie et la prise en charge des flux de travail modulaires, et vous obtenez un outil sérieux.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Je suis rédacteur et écrivain et je couvre les blogs, les tutoriels et les actualités sur l'IA, en m'assurant que tout est conforme à une stratégie de contenu solide et aux meilleures pratiques en matière de référencement. J'ai rédigé des cours de science des données sur Python, les statistiques, les probabilités et la visualisation des données. J'ai également publié un roman primé et je consacre mon temps libre à l'écriture de scénarios et à la réalisation de films.

Sujets

Apprenez l'IA avec ces cours !

Cursus

AI Fundamentals

0 min
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow