Lernpfad
xAI hat gerade die Grok Imagine API rausgebracht, die mit ihrem Grok Imagine-Modell KI-Videos macht. Es behauptet, auf Augenhöhe mit anderen aktuellen Topmodellen zu sein, obwohl es auf niedrige Latenz und niedrige Kosten optimiert wurde.
In diesem Artikel schauen wir mal, ob Grok Imagine diese Versprechen auch wirklich einhalten kann. In diesemumfassenden Leitfaden „ “ zeige ich dir, wie du die API lokal einrichtest und wie du Grok Imagine mit Text-, Bild- oder Videoeingaben nutzen kannst, um Videos in Python zu erstellen.
Wenn du mehr über die neuesten Veröffentlichungen in diesem Bereich erfahren möchtest, schau dir unseren Leitfaden zu den besten Videogenerierungsmodelle.
Was ist Grok Imagine?
Grok Imagine ist ein Modell zur Videogenerierung von xAI. Es nimmt Text-, Bild- und Videoeingaben an und macht ein Video mit Original-Ton. Die Möglichkeit, Videoeingaben zu empfangen, ist echt interessant, weil wir damit schnell Bearbeitungen machen können.
Ihr Modell ist besser als das neueste Veo Modelle von Google und Sora von OpenAI, sowohl beim Preis als auch bei der Zeit, die man braucht, um ein Video zu erstellen.
Die obige Vergleichstabelle konzentriert sich nur auf den Preis und die Geschwindigkeit. Wie wir sehen können, ist Grok Imagine in beiden Kategorien ganz vorne.
Was die Videos angeht, vergleicht die Ankündigung Grok Imagine nur mit Kling o1 und Runway Aleph. Das Experiment lief so ab, dass alle Modelle die gleiche Eingabe bekommen haben und menschliche Bewerter dann ihr Lieblingsergebnis aussuchen mussten.
Abgesehen davon, dass die Ergebnisse nicht mit denen von Sora und Veo verglichen wurden, fand ich es komisch, dass Runway Aleph nicht mal das neueste Modell von Runway ML ist. Trotzdem ist Grok Imagine die Nummer eins im ELO-basierten Text-zu-Video-Ranking von Artificial Analysisund liegt sogar vor Runway Gen 4.5.
Wie du auf Grok Imagine zugreifen kannst
Auf Grok Imagine kannst du entweder über seine Webschnittstelle oder über seine API. In diesem Tutorial schauen wir uns an, wie man Grok Imagine mit der API in Python benutzt.
Wenn wir ein Modell über die API nutzen, brauchen wir ein Konto, aber kein Abonnement. Stattdessen erstellen wir in unserem Konto einen API-Schlüssel, der uns pro Video berechnet wird. Hier findest du die Preisstruktur der Grok Imagine API:
Grok Imagine API einrichten
Bevor wir unser erstes Grok Imagine-Video erstellen, müssen wir einen API-Schlüssel generieren und die notwendigen Abhängigkeiten installieren.
API-Schlüssel erstellen
Der erste Schritt beim Einrichten der Grok Imagine API ist, einen API-Schlüssel zu erstellen. Um eins zu erstellen, geh zur xAI-Konsole und logg dich mit deinem xAI-Konto ein. Du brauchst ein Team, also richte eins für dein Konto ein, falls noch keins da ist.
Geh dann zu den API-Schlüssel und klick auf API-Schlüssel erstellen rechts.

Wir kopieren den Schlüssel in eine Datei namens „ .env “, die wir im selben Ordner anlegen, in dem wir unseren Python-Code schreiben werden. Die Datei sollte so aussehen:
XAI_API_KEY="your_api_key"
Python xAI-Pakete installieren
Um mit der Grok Imagine API zu arbeiten, installieren wir zwei Python-Pakete:
-
xai-sdk: Das offizielle xAI-Paket, mit dem wir API-Anfragen machen können. -
python-dotenv: Ein Hilfspaket, mit dem du den API-Schlüssel ganz einfach aus der Datei „.env“ laden kannst.
Wir installieren diese Pakete mit dem Befehl:
pip install xai-sdk python-dotenv
Unser erstes Video mit Grok Imagine erstellen
Nachdem wir die oben genannten Schritte erledigt haben, können wir jetzt ein Video erstellen. Dazu importieren wir die beiden gerade installierten Pakete, laden den API-Schlüssel, starten den xAI-Client und schicken schließlich eine Anfrage zur Videogenerierung.
Hier ist ein Beispiel für ein Python-Skript, mit dem du das machen kannst:
from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")
Hier ist das Video, das erstellt wurde:
Anmerkung: Der ganze Code für diesen Artikel ist in diesem GitHub-Repository.
Das Video runterladen
Der Code oben wartet, bis das Video fertig ist, und zeigt dann die URL des Videos an. Wir können das Video auch mit dieser Funktion „ download_video() ” runterladen:
import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
# Extract filename from URL
filename = Path(urlparse(url).path).name
if not filename:
raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(output_path, "wb") as f:
for chunk in r.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print(f"Video saved to {output_path.resolve()}")
Nachdem du diese Funktion definiert hast, kannst du mit dem Befehl „ download_video(response.url) “ das Video in dein Arbeitsverzeichnis runterladen.
Ein vollständiges Beispiel mit Video-Download findest du im Repository.
Videos mit der Grok Imagine API erstellen
Wir haben gelernt, wie man mit der xAI-API Videos aus Text erstellt. Als Nächstes schauen wir uns mal die ganzen Möglichkeiten des Modells an. Für mehr Infos kannst du jederzeit die xAI-Dokumentation.
Optionen zur Videogenerierung erkunden
Grok Imagine hat drei Hauptoptionen, wenn du Videos machst:
-
duration: Die Videolänge in Sekunden, angegeben als Zahl von1bis15. -
aspect_ratio: Das Seitenverhältnis des Videos. Das Modell unterstützt die folgenden Seitenverhältnisse:"1:1","16:9","9:16","4:3","3:4","3:2"und"2:3". -
resolution: Die Auflösung für das Video ist entweder"720p"oder"480p".
Hier ist ein Beispiel, wie wir die oben genannten Optionen in der API-Anfrage einstellen können:
prompt = """
A person stands holding their phone, gazing at a stunning landscape
photo on the screen. The image begins to subtly move and glow.
Suddenly, the phone pulls them in, and they are sucked through the screen,
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
duration=15,
aspect_ratio="9:16",
resolution="480p",
)
Hier ist das Ergebnis:
Ich finde dieses Ergebnis, gelinde gesagt, enttäuschend.
Ein Video aus einem Bild erstellen
Eine der coolsten Sachen an KI-Bildgenerierungsmodellen ist, dass sie aus einem Bild Videos machen können. Dieser Arbeitsablauf macht es viel einfacher, einheitliche Videos zu erstellen, vorausgesetzt, wir haben ein Basisbild, da das Modell nur die Bewegung generieren muss.
Stell dir vor, du willst ein Video mit einer bestimmten Figur oder Person machen. Ein Bild zu zeigen, sorgt zumindest theoretisch dafür, dass die Figur richtig dargestellt wird.
Um ein Bild aus einem Bild zu machen, nimm den Parameter „ image_url “ mit einer URL zu dem Bild, das wir verwenden wollen. Laut ihrer Dokumentation wird ein Bild, wenn es bereitgestellt wird, als erster Frame des Videos verwendet. Wir müssen aber sichergehen, dass es zum gewünschten Seitenverhältnis passt.
Ich hab versucht, aus dem Foto unten, das ich vor einiger Zeit gemacht hab, eine FPV-Drohnenaufnahme von Leuten zu machen, die am Strand reiten. Beachte, dass wir das Bild erst irgendwo hochladen müssen, weil es als URL bereitgestellt werden soll. Ich hab das GitHub-Repository benutzt, das zu diesem Artikel gehört.
prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)
Das ist das Video, das Grok Imagine erstellt hat:
Im Video gibt's echt auffällige KI-Artefakte, wie zum Beispiel doppelte Objekte. Trotzdem hat das Modell verstanden, welche Aufnahme wir machen wollten.
Hier ist noch ein Beispiel, wo ich versuche, ein Bild in einen Zeitraffer umzuwandeln. Ich hab's zweimal probiert, weil beim ersten Mal ein Gebäude dazugekommen ist, das im Originalbild gar nicht drauf war.
Der zweite Versuch war besser als der erste, aber es gibt immer noch viele KI-Artefakte.
Als drittes Beispiel habe ich versucht, herauszufinden, wie Grok Imagine mit Kamerabewegungen umgeht, indem ich es gebeten habe, ein Foto zu animieren, das auf das Motiv zoomt. Das hier hat meiner Meinung nach am besten funktioniert.
Videos mit der Grok Imagine API bearbeiten
Mit Grok Imagine kannst du ein vorhandenes Video anhand einer Textvorlage bearbeiten. Das funktioniert ähnlich wie das Erstellen eines Videos aus einem Bild. Wir geben das Video, das wir bearbeiten wollen, als URL mit dem Parameter „ video_url “ an und beschreiben die Änderungen mit der Eingabeaufforderung.
Beachte, dass beim Bearbeiten eines Videos die maximale Dauer des Eingabevideos 8,7 Sekunden betragen darf.
Um das zu checken, hab ich mit Grok Imagine ein Video gemacht, in dem jemand mit drei Bällen jongliert.
Dann hab ich die URL von dem Video benutzt, um das Modell zu bitten, Feuer zu den Bällen hinzuzufügen. Hier ist die Anfrage zum Bearbeiten des Videos. Den kompletten Code findest du im GitHub-Repository.
prompt = """
Add fire to the balls.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)
Ich hab auch noch eine dritte Bearbeitung gemacht, wo ich darum gebeten hab, die Person durch eine Katze zu ersetzen. Hier sind die Ergebnisse:
Hier ist ein letztes Beispiel, bei dem ich mit einem Foto angefangen habe, das ich von einem Sternenhimmel gemacht habe. Ich hab Grok Imagine gebeten, zwei Wanderer hinzuzufügen, die den Weg entlanggehen und anhalten, um die Sterne zu bewundern. Schließlich habe ich dieses Video als Input benutzt und darum gebeten, es so zu bearbeiten, dass es schneit.
Das ist ein weiteres Beispiel, wo die Ergebnisse ziemlich mies sind. Im ersten Video wurde ein neuer Pfad erstellt, der nicht zur Szene passt. Die Schneebearbeitung sah zuerst gut aus, aber dann habe ich gemerkt, dass der Hintergrund unverändert geblieben ist, was nicht zum jetzt verschneiten Vordergrund passt.
Fazit
Es ist echt cool, dass immer mehr Videomodelle mit API-Zugriff kommen, weil das echt erweitert, was wir entwickeln und automatisieren können, von schnellen Prototypen bis hin zu kompletten Pipelines.
Die API von Grok Imagine ist echt einfach einzurichten und aufzurufen, aber es gibt auch ein paar Probleme. Vor allem die Anforderung, Bilder und Videos per URL weiterzugeben, macht grundlegende Arbeitsabläufe (wie das Durchlaufen lokaler Assets) unnötig kompliziert.
In der Praxis waren meine Ergebnisse im Vergleich zu den vollmundigen Versprechungen eher enttäuschend: Bei der Umwandlung von Text in Video ging oft was daneben, und bei der Umwandlung von Bildern in Video gab's auffällige Artefakte und Unstimmigkeiten. Der einzige Bereich, in dem es echt gut war, war die Bearbeitung, wo die Änderungen durch Eingabeaufforderungen zuverlässiger und besser kontrollierbar waren.
Eine echt starke Sache von Grok Imagine ist, wie schnell es läuft. Ich hab schon viele KI-Modelle für die Videogenerierung ausprobiert und meiner Erfahrung nach ist Grok Image mit Abstand das schnellste.
Ich bin echt zuversichtlich, was die Zukunft dieses Bereichs angeht, aber im Moment ist Grok Imagine eher ein vielversprechender Editor als ein erstklassiger Generator. Ich hoffe, dass zukünftige Updates die Eingabemöglichkeiten erweitern und die Qualität der Kerngenerierung verbessern werden.
Für alle, die mehr über die Techniken der KI-Videogenerierung erfahren möchten, empfehle ich die Teilnahme an unserem Kurs AI Fundamentals Skill Track anmelden.
Grok Imagine API – Häufig gestellte Fragen
Wie kann ich auf die Grok Imagine API zugreifen?
Um die Grok Imagine API zu nutzen, brauchst du nur ein xAI-Konto. Du kannst einen API-Schlüssel über diexAI-Konsole unter erstellen.
Was kostet die Erstellung von Videos mit der Grok Imagine API?
Die Preise hängen sowohl von den Eingaben (0,002 $ pro Bild, 0,01 $ pro Video) als auch von den Ausgaben ab. Pro Sekunde kostet ein Video bei einer Auflösung von 480p 0,05 $ und bei einer Auflösung von 720p 0,07 $.
Welche Funktionen bietet die Grok Imagine API?
Die Grok Imagine API macht Text-zu-Video, Bild-zu-Video und Videobearbeitung möglich. Du kannst Clips mit einer Länge von bis zu 15 Sekunden mit nativer Audiogenerierung erstellen.
Wie kannst du mit der Grok Imagine API Videos aus Bildern oder anderen Videos erstellen?
Bilder und Videos müssen als URLs angegeben werden und werden über die Parameter „ image_url “ bzw. „ video_url “ hinzugefügt.



