Cursus
xAI vient de publier l'API Grok Imagine, qui génère des vidéos IA à l'aide de son modèle Grok Imagine. Il prétend être être à la hauteur des autres modèles haut de gamme actuels, bien qu'il ait été optimisé pour offrir une faible latence et un coût réduit.
Dans cet article, nous examinerons si Grok Imagine est en mesure de tenir ces promesses. Dans ceguide complet d' , je vais vous expliquer comment configurer l'API localement et comment utiliser Grok Imagine avec du texte, des images ou des vidéos en entrée pour générer des vidéos en Python.
Si vous souhaitez en savoir plus sur les dernières nouveautés dans ce domaine, veuillez consulter notre guide des meilleurs modèles de génération vidéo.
Qu'est-ce que Grok Imagine ?
Grok Imagine est un modèle de génération vidéo développé par xAI. est un modèle de génération vidéo développé par xAI. Il accepte les entrées texte, image et vidéo et génère une vidéo avec le son d'origine. La possibilité de recevoir des entrées vidéo est particulièrement intéressante, car elle nous permet d'effectuer des modifications guidées par des invites.
Leur modèle surpasse le dernier modèles Veo de Google et Sora d'OpenAI, tant en termes de prix que de temps nécessaire pour générer une vidéo.
Le tableau comparatif ci-dessus se concentre uniquement sur le prix et la vitesse. Comme nous pouvons le constater, Grok Imagine occupe la première place dans les deux catégories.
En ce qui concerne les vidéos elles-mêmes, l'annonce ne compare Grok Imagine qu'à Kling o1 et Runway Aleph. L'expérience consistait à envoyer la même invite à tous les modèles et à demander à des évaluateurs humains de sélectionner leur résultat préféré.
Outre le fait de ne pas comparer les résultats avec Sora et Veo, j'ai trouvé étrange que Runway Aleph ne soit même pas le dernier modèle publié par Runway ML. Néanmoins, Grok Imagine occupe la première place du classement ELO basé sur l'analyse artificielle de texte-vidéo. classement des analyses artificielles de texte à vidéo, surpassant même Runway Gen 4.5.
Comment accéder à Grok Imagine
Grok Imagine est accessible soit via son interface web ou son API. Dans ce tutoriel, nous nous concentrerons sur l'utilisation de Grok Imagine avec l'API Python.
Lorsque nous utilisons un modèle via l'API, un compte est nécessaire, mais pas d'abonnement. Au lieu de cela, nous créons une clé API dans notre compte qui nous facture à la vidéo. Ci-dessous, vous trouverez la structure tarifaire de l'API Grok Imagine :
Configuration de l'API Grok Imagine
Avant de créer notre première vidéo Grok Imagine, il est nécessaire de générer une clé API et d'installer les dépendances requises.
Génération d'une clé API
La première étape pour configurer l'API Grok Imagine consiste à générer une clé API. Pour en créer un, veuillez vous rendre sur la console xAI et connectez-vous avec votre compte xAI. Vous aurez besoin d'une équipe, veuillez donc en créer une pour votre compte si elle n'existe pas encore.
Ensuite, veuillez vous rendre sur la page API Keys et cliquez sur le bouton Créer une clé API situé à droite.

Nous copions la clé dans un fichier nommé .env que nous créons dans le même dossier où nous écrirons notre code Python. Le fichier doit respecter le format suivant :
XAI_API_KEY="your_api_key"
Installation des paquets Python xAI
Pour interagir avec l'API Grok Imagine, nous installons deux paquets Python :
-
xai-sdk: Le package officiel xAI qui nous permet d'effectuer des requêtes API. -
python-dotenv: Un package d'aide qui facilite le chargement de la clé API à partir du fichier.env.
Nous installons ces paquets à l'aide de la commande suivante :
pip install xai-sdk python-dotenv
Création de notre première vidéo avec Grok Imagine
Une fois les étapes ci-dessus terminées, nous pouvons maintenant générer une vidéo. Pour ce faire, nous importons les deux paquets que nous venons d'installer, chargeons la clé API, initialisons le client xAI et, enfin, envoyons une demande de génération vidéo.
Voici un exemple de script Python permettant d'effectuer cette opération :
from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")
Voici la vidéo qui a été générée :
Remarque : Tout le code utilisé dans cet article est disponible dans ce référentiel GitHub.
Téléchargement de la vidéo
Le code ci-dessus attendra que la vidéo soit générée, puis affichera l'URL de la vidéo. Nous pouvons également télécharger la vidéo à l'aide de cette fonction download_video():
import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
# Extract filename from URL
filename = Path(urlparse(url).path).name
if not filename:
raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(output_path, "wb") as f:
for chunk in r.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print(f"Video saved to {output_path.resolve()}")
Après avoir défini cette fonction, appeler download_video(response.url) téléchargera la vidéo dans votre répertoire de travail.
Un exemple complet avec téléchargement de la vidéo est disponible dans le référentiel.
Création de vidéos à l'aide de l'API Grok Imagine
Nous avons appris à générer des vidéos à partir de texte à l'aide de l'API xAI. Ensuite, nous examinerons toutes les capacités du modèle. Pour plus d'informations, vous pouvez toujours consulter la documentation xAI.
Exploration des options de génération vidéo
Grok Imagine propose trois options principales pour la création de vidéos :
-
duration: La durée de la vidéo en secondes, exprimée sous forme de nombre compris entre1et15. -
aspect_ratio: Le format d'image de la vidéo. Le modèle prend en charge les formats d'image suivants :"1:1","16:9","9:16","4:3","3:4","3:2"et"2:3". -
resolution: La résolution de la vidéo est disponible soit en"720p", soit en"480p".
Voici un exemple illustrant comment définir les options ci-dessus dans la requête API :
prompt = """
A person stands holding their phone, gazing at a stunning landscape
photo on the screen. The image begins to subtly move and glow.
Suddenly, the phone pulls them in, and they are sucked through the screen,
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
duration=15,
aspect_ratio="9:16",
resolution="480p",
)
Voici le résultat :
Je trouve ce résultat pour le moins décevant.
Création d'une vidéo à partir d'une image
L'une des fonctionnalités les plus puissantes des modèles de génération d'images par IA est leur capacité à générer des vidéos à partir d'une image. Ce flux de travail facilite considérablement la création de vidéos cohérentes, à condition de disposer d'une image de base, car le modèle n'a qu'à générer le mouvement.
Imaginez que vous souhaitiez créer une vidéo mettant en scène un personnage ou une personne spécifique. En théorie, fournir une image garantit au moins l'exactitude du personnage.
Pour générer une image à partir d'une image, veuillez utiliser le paramètre image_url avec l'URL de l'image que nous souhaitons utiliser. Selon leur documentation, lorsqu'une image est fournie, elle sera utilisée comme première image de la vidéo. Il est toutefois nécessaire de s'assurer que cela correspond au format d'image demandé.
J'ai tenté de générer une image FPV prise par un drone de personnes à cheval sur la plage à partir de la photo ci-dessous, que j'ai prise il y a quelque temps. Veuillez noter que, puisque l'image doit être fournie sous forme d'URL, il est nécessaire de la télécharger préalablement sur un support. Dans mon cas, j'ai utilisé le référentiel GitHub associé à cet article.
prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)
Voici la vidéo générée par Grok Imagine :
La vidéo présente des artefacts d'IA évidents, tels que la duplication d'objets. Malgré cela, le modèle a bien compris le cliché que nous souhaitions réaliser.
Voici un autre exemple où je tente de convertir une image en timelapse. J'ai procédé à deux essais, car le premier résultat a ajouté un bâtiment qui n'existait pas dans l'image originale.
La deuxième tentative a été plus fructueuse que la première, mais elle comporte encore de nombreux artefacts d'IA.
Comme troisième exemple, j'ai tenté d'observer comment Grok Imagine gérait les mouvements de caméra en lui demandant d'animer une photo effectuant un zoom avant sur le sujet. À mon avis, celui-ci a été le plus efficace.
Édition de vidéos avec l'API Grok Imagine
Grok Imagine vous permet de modifier une vidéo existante à partir d'une invite textuelle. Le fonctionnement est similaire à la génération d'une vidéo à partir d'une image. Nous fournissons la vidéo que nous souhaitons modifier sous forme d'URL à l'aide du paramètre video_url et décrivons les modifications à apporter à l'aide de l'invite.
Veuillez noter que lors du montage d'une vidéo, la durée maximale autorisée pour la vidéo d'entrée est de 8,7 secondes.
Pour vérifier cela, j'ai créé une vidéo à l'aide de Grok Imagine représentant une personne jonglant avec trois balles.
Ensuite, j'ai utilisé l'URL de cette vidéo pour demander au modèle d'ajouter du feu aux boules. Ci-dessous se trouve la demande de modification de la vidéo. Le code complet est disponible dans le référentiel GitHub.
prompt = """
Add fire to the balls.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)
J'ai également effectué une troisième modification en demandant à remplacer la personne par un chat. Voici les résultats :
Voici un dernier exemple où j'ai commencé avec une photographie que j'ai prise d'un ciel étoilé. J'ai demandé à Grok Imagine d'ajouter deux randonneurs marchant sur le sentier qui se sont arrêtés pour admirer les étoiles. Enfin, j'ai utilisé cette vidéo comme source et j'ai demandé à ce qu'elle soit modifiée pour y ajouter de la neige.
Il s'agit d'un autre exemple où les résultats sont plutôt insatisfaisants. Dans la première vidéo, un nouveau chemin a été créé qui n'est pas cohérent avec la scène. Au premier abord, la modification apportée à la neige semblait satisfaisante, mais j'ai ensuite remarqué que l'arrière-plan n'avait pas été modifié, ce qui créait une incohérence avec le premier plan désormais enneigé.
Conclusion
Il est encourageant de constater que de plus en plus de modèles vidéo sont désormais accessibles via API, car cela élargit véritablement les possibilités de création et d'automatisation, des prototypes rapides aux pipelines complets.
L'API de Grok Imagine est remarquablement simple à configurer et à utiliser, mais elle présente tout de même quelques points de friction. Il convient de noter que l'obligation de transmettre les images et les vidéos par URL rend les flux de travail de base (tels que l'itération sur les ressources locales) plus complexes que nécessaire.
Dans la pratique, mes résultats ont été décevants par rapport aux affirmations ambitieuses : la conversion de texte en vidéo manquait souvent sa cible, et la conversion d'image en vidéo introduisait des artefacts et des incohérences notables. Le seul domaine dans lequel il s'est distingué est celui du montage, où les modifications guidées par des invites semblaient plus fiables et plus contrôlables.
L'un des points forts de Grok Imagine est sa rapidité. J'ai utilisé de nombreux modèles de génération vidéo par IA et, d'après mon expérience, Grok Image est de loin le plus rapide.
Je suis optimiste quant à l'avenir de ce domaine, mais pour l'instant, Grok Imagine semble être davantage un éditeur prometteur qu'un générateur de premier ordre. J'espère que les futures mises à jour élargiront les options de saisie et amélioreront la qualité de la génération de base.
Pour ceux d'entre vous qui souhaitent en savoir plus sur les techniques utilisées dans la génération de vidéos par IA, je vous recommande de vous inscrire à notre cours sur les parcours de compétences « Principes fondamentaux de l'IA ». skill cursus.
FAQ sur l'API Grok Imagine
Comment puis-je accéder à l'API Grok Imagine ?
Pour utiliser l'API Grok Imagine, il vous suffit de disposer d'un compte xAI. Vous pouvez générer une clé API à partir de laconsole xAI d' .
Quel est le coût de la génération de vidéos avec l'API Grok Imagine ?
Le prix dépend à la fois de l'entrée (0,002 $ par image, 0,01 $ par vidéo) et de la sortie. Par seconde, une vidéo coûte 0,05 $ en résolution 480p et 0,07 $ en résolution 720p.
Quelles sont les fonctionnalités prises en charge par l'API Grok Imagine ?
L'API Grok Imagine prend en charge la conversion de texte en vidéo, d'image en vidéo et le montage vidéo. Vous pouvez créer des clips d'une durée maximale de 15 secondes avec la génération audio native.
Comment créer des vidéos à partir d'images ou d'autres vidéos dans l'API Grok Imagine ?
Les images et vidéos d'entrée doivent être fournies sous forme d'URL et sont ajoutées à l'aide des paramètres image_url et video_url, respectivement.



