Accéder au contenu principal

API Grok Imagine : Guide Python complet avec exemples

Découvrez comment générer des vidéos à l'aide de l'API Grok Imagine. Ce guide Python couvre tous les aspects, des animations d'images au montage vidéo avec le nouveau modèle vidéo xAI.
Actualisé 3 févr. 2026  · 8 min lire

xAI vient de publier l'API Grok Imagine, qui génère des vidéos IA à l'aide de son modèle Grok Imagine. Il prétend être être à la hauteur des autres modèles haut de gamme actuels, bien qu'il ait été optimisé pour offrir une faible latence et un coût réduit.

Dans cet article, nous examinerons si Grok Imagine est en mesure de tenir ces promesses. Dans ceguide complet d' , je vais vous expliquer comment configurer l'API localement et comment utiliser Grok Imagine avec du texte, des images ou des vidéos en entrée pour générer des vidéos en Python.

Si vous souhaitez en savoir plus sur les dernières nouveautés dans ce domaine, veuillez consulter notre guide des meilleurs modèles de génération vidéo.

Qu'est-ce que Grok Imagine ?

Grok Imagine est un modèle de génération vidéo développé par xAI. est un modèle de génération vidéo développé par xAI. Il accepte les entrées texte, image et vidéo et génère une vidéo avec le son d'origine. La possibilité de recevoir des entrées vidéo est particulièrement intéressante, car elle nous permet d'effectuer des modifications guidées par des invites.

Leur modèle surpasse le dernier modèles Veo de Google et Sora d'OpenAI, tant en termes de prix que de temps nécessaire pour générer une vidéo.

Tableau comparatif : xAI Grok Imagine se classe n° 1 pour la conversion texte-vidéo, le meilleur prix et la latence la plus faible par rapport à Veo 3.1 Fast, Veo 3, Sora 2 Pro et Sora 2.

Le tableau comparatif ci-dessus se concentre uniquement sur le prix et la vitesse. Comme nous pouvons le constater, Grok Imagine occupe la première place dans les deux catégories.

En ce qui concerne les vidéos elles-mêmes, l'annonce ne compare Grok Imagine qu'à Kling o1 et Runway Aleph. L'expérience consistait à envoyer la même invite à tous les modèles et à demander à des évaluateurs humains de sélectionner leur résultat préféré.

Tableau comparatif des performances en matière de montage vidéo, démontrant la supériorité de Grok Imagine par rapport à ses concurrents : par rapport à Kling o1 — 57 % contre 43 % au total, 53,1 % contre 46,9 % pour le respect des instructions, 60,6 % contre 39,4 % pour la cohérence ; vs Runway Aleph — Globalement 64,1 % contre 35,9 %, respect des instructions 57,4 % contre 42,6 %, cohérence 63,1 % contre 36,9 %.

Outre le fait de ne pas comparer les résultats avec Sora et Veo, j'ai trouvé étrange que Runway Aleph ne soit même pas le dernier modèle publié par Runway ML. Néanmoins, Grok Imagine occupe la première place du classement ELO basé sur l'analyse artificielle de texte-vidéo. classement des analyses artificielles de texte à vidéo, surpassant même Runway Gen 4.5.

Comment accéder à Grok Imagine

Grok Imagine est accessible soit via son interface web ou son API. Dans ce tutoriel, nous nous concentrerons sur l'utilisation de Grok Imagine avec l'API Python.

Lorsque nous utilisons un modèle via l'API, un compte est nécessaire, mais pas d'abonnement. Au lieu de cela, nous créons une clé API dans notre compte qui nous facture à la vidéo. Ci-dessous, vous trouverez la structure tarifaire de l'API Grok Imagine :

Tableau des tarifs de l'API Grok Imagine pour grok-imagine-video : régions us-east-1 et eu-west-1 ; tarifs d'entrée — image 0,002 $, vidéo 0,01 $/seconde, texte non pris en charge ; tarifs à la seconde par résolution — 480p 0,05 $, 720p 0,07 $ ; limite de 30 requêtes/minute, jetons par minute non applicables.

Configuration de l'API Grok Imagine

Avant de créer notre première vidéo Grok Imagine, il est nécessaire de générer une clé API et d'installer les dépendances requises.

Génération d'une clé API

La première étape pour configurer l'API Grok Imagine consiste à générer une clé API. Pour en créer un, veuillez vous rendre sur la console xAI et connectez-vous avec votre compte xAI. Vous aurez besoin d'une équipe, veuillez donc en créer une pour votre compte si elle n'existe pas encore.

Ensuite, veuillez vous rendre sur la page API Keys et cliquez sur le bouton Créer une clé API situé à droite.

Capture d'écran de la console Grok Imagine : barre latérale personnelle de l'équipe avec les clés API mises en évidence, onglet utilisé pour créer une nouvelle clé API Grok Imagine.

Nous copions la clé dans un fichier nommé .env que nous créons dans le même dossier où nous écrirons notre code Python. Le fichier doit respecter le format suivant :

XAI_API_KEY="your_api_key"

Installation des paquets Python xAI

Pour interagir avec l'API Grok Imagine, nous installons deux paquets Python :

  • xai-sdk: Le package officiel xAI qui nous permet d'effectuer des requêtes API.

  • python-dotenv: Un package d'aide qui facilite le chargement de la clé API à partir du fichier .env.

Nous installons ces paquets à l'aide de la commande suivante :

pip install xai-sdk python-dotenv

Création de notre première vidéo avec Grok Imagine

Une fois les étapes ci-dessus terminées, nous pouvons maintenant générer une vidéo. Pour ce faire, nous importons les deux paquets que nous venons d'installer, chargeons la clé API, initialisons le client xAI et, enfin, envoyons une demande de génération vidéo.

Voici un exemple de script Python permettant d'effectuer cette opération :

from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")

Voici la vidéo qui a été générée :

Remarque : Tout le code utilisé dans cet article est disponible dans ce référentiel GitHub.

Téléchargement de la vidéo

Le code ci-dessus attendra que la vidéo soit générée, puis affichera l'URL de la vidéo. Nous pouvons également télécharger la vidéo à l'aide de cette fonction download_video():

import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
    # Extract filename from URL
    filename = Path(urlparse(url).path).name
    if not filename:
        raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(output_path, "wb") as f:
            for chunk in r.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
  print(f"Video saved to {output_path.resolve()}")

Après avoir défini cette fonction, appeler download_video(response.url) téléchargera la vidéo dans votre répertoire de travail.

Un exemple complet avec téléchargement de la vidéo est disponible dans le référentiel.

Création de vidéos à l'aide de l'API Grok Imagine

Nous avons appris à générer des vidéos à partir de texte à l'aide de l'API xAI. Ensuite, nous examinerons toutes les capacités du modèle. Pour plus d'informations, vous pouvez toujours consulter la documentation xAI.

Exploration des options de génération vidéo

Grok Imagine propose trois options principales pour la création de vidéos :

  • duration: La durée de la vidéo en secondes, exprimée sous forme de nombre compris entre 1 et 15.

  • aspect_ratio: Le format d'image de la vidéo. Le modèle prend en charge les formats d'image suivants : "1:1", "16:9", "9:16", "4:3", "3:4", "3:2" et "2:3".

  • resolution: La résolution de la vidéo est disponible soit en "720p", soit en "480p".

Voici un exemple illustrant comment définir les options ci-dessus dans la requête API :

prompt = """
A person stands holding their phone, gazing at a stunning landscape 
photo on the screen. The image begins to subtly move and glow. 
Suddenly, the phone pulls them in, and they are sucked through the screen, 
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    duration=15,
    aspect_ratio="9:16",
    resolution="480p",
)

Voici le résultat :

Je trouve ce résultat pour le moins décevant.

Création d'une vidéo à partir d'une image

L'une des fonctionnalités les plus puissantes des modèles de génération d'images par IA est leur capacité à générer des vidéos à partir d'une image. Ce flux de travail facilite considérablement la création de vidéos cohérentes, à condition de disposer d'une image de base, car le modèle n'a qu'à générer le mouvement. 

Imaginez que vous souhaitiez créer une vidéo mettant en scène un personnage ou une personne spécifique. En théorie, fournir une image garantit au moins l'exactitude du personnage.

Pour générer une image à partir d'une image, veuillez utiliser le paramètre image_url avec l'URL de l'image que nous souhaitons utiliser. Selon leur documentation, lorsqu'une image est fournie, elle sera utilisée comme première image de la vidéo. Il est toutefois nécessaire de s'assurer que cela correspond au format d'image demandé.

J'ai tenté de générer une image FPV prise par un drone de personnes à cheval sur la plage à partir de la photo ci-dessous, que j'ai prise il y a quelque temps. Veuillez noter que, puisque l'image doit être fournie sous forme d'URL, il est nécessaire de la télécharger préalablement sur un support. Dans mon cas, j'ai utilisé le référentiel GitHub associé à cet article.

prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)

Voici la vidéo générée par Grok Imagine :

La vidéo présente des artefacts d'IA évidents, tels que la duplication d'objets. Malgré cela, le modèle a bien compris le cliché que nous souhaitions réaliser.

Voici un autre exemple où je tente de convertir une image en timelapse. J'ai procédé à deux essais, car le premier résultat a ajouté un bâtiment qui n'existait pas dans l'image originale.

La deuxième tentative a été plus fructueuse que la première, mais elle comporte encore de nombreux artefacts d'IA.

Comme troisième exemple, j'ai tenté d'observer comment Grok Imagine gérait les mouvements de caméra en lui demandant d'animer une photo effectuant un zoom avant sur le sujet. À mon avis, celui-ci a été le plus efficace.

Édition de vidéos avec l'API Grok Imagine

Grok Imagine vous permet de modifier une vidéo existante à partir d'une invite textuelle. Le fonctionnement est similaire à la génération d'une vidéo à partir d'une image. Nous fournissons la vidéo que nous souhaitons modifier sous forme d'URL à l'aide du paramètre video_url et décrivons les modifications à apporter à l'aide de l'invite.

Veuillez noter que lors du montage d'une vidéo, la durée maximale autorisée pour la vidéo d'entrée est de 8,7 secondes.

Pour vérifier cela, j'ai créé une vidéo à l'aide de Grok Imagine représentant une personne jonglant avec trois balles.

Ensuite, j'ai utilisé l'URL de cette vidéo pour demander au modèle d'ajouter du feu aux boules. Ci-dessous se trouve la demande de modification de la vidéo. Le code complet est disponible dans le référentiel GitHub.

prompt = """
Add fire to the balls.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)

J'ai également effectué une troisième modification en demandant à remplacer la personne par un chat. Voici les résultats :

Voici un dernier exemple où j'ai commencé avec une photographie que j'ai prise d'un ciel étoilé. J'ai demandé à Grok Imagine d'ajouter deux randonneurs marchant sur le sentier qui se sont arrêtés pour admirer les étoiles. Enfin, j'ai utilisé cette vidéo comme source et j'ai demandé à ce qu'elle soit modifiée pour y ajouter de la neige.

Il s'agit d'un autre exemple où les résultats sont plutôt insatisfaisants. Dans la première vidéo, un nouveau chemin a été créé qui n'est pas cohérent avec la scène. Au premier abord, la modification apportée à la neige semblait satisfaisante, mais j'ai ensuite remarqué que l'arrière-plan n'avait pas été modifié, ce qui créait une incohérence avec le premier plan désormais enneigé.

Conclusion

Il est encourageant de constater que de plus en plus de modèles vidéo sont désormais accessibles via API, car cela élargit véritablement les possibilités de création et d'automatisation, des prototypes rapides aux pipelines complets.

L'API de Grok Imagine est remarquablement simple à configurer et à utiliser, mais elle présente tout de même quelques points de friction. Il convient de noter que l'obligation de transmettre les images et les vidéos par URL rend les flux de travail de base (tels que l'itération sur les ressources locales) plus complexes que nécessaire.

Dans la pratique, mes résultats ont été décevants par rapport aux affirmations ambitieuses : la conversion de texte en vidéo manquait souvent sa cible, et la conversion d'image en vidéo introduisait des artefacts et des incohérences notables. Le seul domaine dans lequel il s'est distingué est celui du montage, où les modifications guidées par des invites semblaient plus fiables et plus contrôlables.

L'un des points forts de Grok Imagine est sa rapidité. J'ai utilisé de nombreux modèles de génération vidéo par IA et, d'après mon expérience, Grok Image est de loin le plus rapide.

Je suis optimiste quant à l'avenir de ce domaine, mais pour l'instant, Grok Imagine semble être davantage un éditeur prometteur qu'un générateur de premier ordre. J'espère que les futures mises à jour élargiront les options de saisie et amélioreront la qualité de la génération de base.

Pour ceux d'entre vous qui souhaitent en savoir plus sur les techniques utilisées dans la génération de vidéos par IA, je vous recommande de vous inscrire à notre cours sur les parcours de compétences « Principes fondamentaux de l'IA ». skill cursus.

FAQ sur l'API Grok Imagine

Comment puis-je accéder à l'API Grok Imagine ?

Pour utiliser l'API Grok Imagine, il vous suffit de disposer d'un compte xAI. Vous pouvez générer une clé API à partir de laconsole xAI d' .

Quel est le coût de la génération de vidéos avec l'API Grok Imagine ?

Le prix dépend à la fois de l'entrée (0,002 $ par image, 0,01 $ par vidéo) et de la sortie. Par seconde, une vidéo coûte 0,05 $ en résolution 480p et 0,07 $ en résolution 720p.

Quelles sont les fonctionnalités prises en charge par l'API Grok Imagine ?

L'API Grok Imagine prend en charge la conversion de texte en vidéo, d'image en vidéo et le montage vidéo. Vous pouvez créer des clips d'une durée maximale de 15 secondes avec la génération audio native.

Comment créer des vidéos à partir d'images ou d'autres vidéos dans l'API Grok Imagine ?

Les images et vidéos d'entrée doivent être fournies sous forme d'URL et sont ajoutées à l'aide des paramètres image_url et video_url, respectivement.


François Aubry's photo
Author
François Aubry
LinkedIn
Ingénieur full-stack et fondateur de CheapGPT. L'enseignement a toujours été ma passion. Dès mes premiers jours d'études, j'ai cherché avec enthousiasme des occasions de donner des cours particuliers et d'aider d'autres étudiants. Cette passion m'a amenée à poursuivre un doctorat, où j'ai également été assistante d'enseignement pour soutenir mes efforts académiques. Au cours de ces années, j'ai trouvé un immense épanouissement dans le cadre d'une classe traditionnelle, en favorisant les liens et en facilitant l'apprentissage. Cependant, avec l'avènement des plateformes d'apprentissage en ligne, j'ai reconnu le potentiel de transformation de l'éducation numérique. En fait, j'ai participé activement au développement d'une telle plateforme dans notre université. Je suis profondément engagée dans l'intégration des principes d'enseignement traditionnels avec des méthodologies numériques innovantes. Ma passion est de créer des cours qui sont non seulement attrayants et instructifs, mais aussi accessibles aux apprenants à l'ère du numérique.
Sujets

Cours sur l'IA générative

Cursus

Associate AI Engineer pour développeurs

26 h
Apprenez à intégrer l'IA dans des applications logicielles en utilisant des API et des bibliothèques open source. Commencez dès aujourd'hui votre parcours pour devenir AI Engineer !
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow