programa
xAI acaba de lanzar la API Grok Imagine, que genera vídeos con IA utilizando su modelo Grok Imagine. Afirma estar a la altura de otros modelos punteros actuales, a pesar de que se ha optimizado para ofrecer una baja latencia y un bajo coste.
En este artículo, veremos si Grok Imagine puede cumplir estas promesas. En estacompleta guía de , te mostraré cómo configurar la API localmente y cómo utilizar Grok Imagine con entradas de texto, imágenes o vídeo para generar vídeos en Python.
Si deseas obtener más información sobre las últimas novedades en este ámbito, consulta nuestra guía sobre los mejores modelos de generación de vídeo.
¿Qué es Grok Imagine?
Grok Imagine es un modelo de generación de vídeo de xAI. Acepta entradas de texto, imágenes y vídeo, y genera un vídeo con sonido nativo. La posibilidad de recibir entradas de vídeo es especialmente interesante, ya que nos permite realizar ediciones basadas en indicaciones.
Tu modelo supera al último modelos Veo de Google y Sora de OpenAI, tanto en precio como en tiempo de generación de un vídeo.
La tabla comparativa anterior se centra únicamente en el precio y la velocidad. Como podemos ver, Grok Imagine ocupa el primer lugar en ambas categorías.
En cuanto a los vídeos en sí, el anuncio solo compara Grok Imagine con Kling o1 y Runway Aleph. El experimento consistió en enviar la misma indicación a todos los modelos y pedir a evaluadores humanos que seleccionaran su resultado preferido.
Aparte de no comparar los resultados con Sora y Veo, me pareció extraño que Runway Aleph ni siquiera sea el último modelo lanzado por Runway ML. Aún así, Grok Imagine ocupa el primer puesto en la clasificación basada en ELO de análisis artificial de texto a vídeo, superando incluso a Runway Gen 4.5.
Cómo acceder a Grok Imagine
Se puede acceder a Grok Imagine a través de su interfaz web o su API. En este tutorial, nos centramos en el uso de Grok Imagine con la API utilizando Python.
Cuando usas un modelo a través de la API, necesitamos una cuenta, pero no una suscripción. En su lugar, creamos una clave API en nuestra cuenta que nos cobra por cada vídeo. A continuación, puedes ver la estructura de precios de la API de Grok Imagine:
Configuración de la API de Grok Imagine
Antes de crear nuestro primer vídeo Grok Imagine, necesitamos generar una clave API e instalar las dependencias necesarias.
Generar una clave API
El primer paso para configurar la API de Grok Imagine es generar una clave API. Para crear uno, ve a la consola xAI e inicia sesión con tu cuenta xAI. Necesitarás un equipo, así que crea uno para tu cuenta si aún no existe ninguno.
A continuación, ve a la sección claves API y haz clic en Crear clave API situado a la derecha.

Copiamos la clave en un archivo llamado .env que creamos en la misma carpeta donde escribiremos nuestro código Python. El archivo debe tener el siguiente formato:
XAI_API_KEY="your_api_key"
Instalación de paquetes Python xAI
Para interactuar con la API de Grok Imagine, instalamos dos paquetes de Python:
-
xai-sdk: El paquete oficial xAI que nos permite realizar solicitudes API. -
python-dotenv: Un paquete auxiliar que facilita la carga de la clave API desde el archivo.env.
Instala estos paquetes utilizando el comando:
pip install xai-sdk python-dotenv
Creación de nuestro primer vídeo con Grok Imagine
Una vez completados los pasos anteriores, ya podemos generar un vídeo. Para ello, importamos los dos paquetes que acabamos de instalar, cargamos la clave API, inicializamos el cliente xAI y, por último, enviamos una solicitud de generación de vídeo.
Aquí tienes un ejemplo de script en Python para hacerlo:
from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")
Aquí está el vídeo que se generó:
Nota: Todo el código de este artículo se puede encontrar en este repositorio de GitHub.
Descargar el vídeo
El código anterior esperará a que termine de generarse el vídeo y, a continuación, imprimirá la URL del vídeo. También podemos descargar el vídeo utilizando esta función download_video():
import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
# Extract filename from URL
filename = Path(urlparse(url).path).name
if not filename:
raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(output_path, "wb") as f:
for chunk in r.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print(f"Video saved to {output_path.resolve()}")
Después de definir esta función, al llamar a download_video(response.url) se descargará el vídeo en tu directorio de trabajo.
Un ejemplo completo con descarga de vídeo en el repositorio.
Creación de vídeos con la API Grok Imagine
Aprendimos a generar vídeos a partir de texto utilizando la API de xAI. A continuación, exploraremos todas las capacidades del modelo. Para obtener más información, siempre puedes consultar la documentación de xAI.
Explorar las opciones de generación de vídeos
Grok Imagine ofrece tres opciones principales a la hora de generar vídeos:
-
duration: La duración del vídeo en segundos, expresada como un número comprendido entre1y15. -
aspect_ratio: La relación de aspecto del vídeo. El modelo admite las siguientes relaciones de aspecto:"1:1","16:9","9:16","4:3","3:4","3:2"y"2:3". -
resolution: La resolución del vídeo, ya sea"720p"o"480p".
A continuación, se muestra un ejemplo de cómo se pueden configurar las opciones anteriores en la solicitud de API:
prompt = """
A person stands holding their phone, gazing at a stunning landscape
photo on the screen. The image begins to subtly move and glow.
Suddenly, the phone pulls them in, and they are sucked through the screen,
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
duration=15,
aspect_ratio="9:16",
resolution="480p",
)
Aquí está el resultado:
Este resultado me parece decepcionante, por decir lo menos.
Creación de un vídeo a partir de una imagen
Una de las características más potentes de los modelos de generación de imágenes con IA es su capacidad para generar vídeos a partir de una imagen. Este flujo de trabajo facilita mucho la creación de vídeos coherentes, siempre que tengamos una imagen base, ya que el modelo solo tiene que generar movimiento.
Imagina que quieres crear un vídeo con un personaje o una persona concretos. Proporcionar una imagen, en teoría, al menos garantiza la precisión del personaje.
Para generar una imagen a partir de otra imagen, utiliza el parámetro image_url con la URL de la imagen que deseas utilizar. Según tu documentación, cuando se proporciona una imagen, esta se utilizará como primer fotograma del vídeo. Sin embargo, debemos asegurarnos de que coincida con la relación de aspecto solicitada.
Intenté generar una toma con un dron FPV de personas montando a caballo en la playa a partir de la foto de abajo, que tomé hace un tiempo. Ten en cuenta que, dado que la imagen debe proporcionarse como una URL, primero debemos subirla a algún sitio. En mi caso, utilicé el repositorio GitHub asociado a este artículo.
prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)
Este es el vídeo que ha generado Grok Imagine:
Hay artefactos de IA evidentes en el vídeo, como la duplicación de objetos. A pesar de eso, el modelo entendió la toma que queríamos generar.
Aquí hay otro ejemplo en el que intento convertir una imagen en un lapso de tiempo. Lo intenté dos veces porque el primer resultado añadió un edificio que no existía en la imagen original.
El segundo intento tuvo más éxito que el primero, pero sigue estando lleno de artefactos de IA.
Como tercer ejemplo, intenté ver cómo Grok Imagine manejaba el movimiento de la cámara pidiéndote que animaras una foto haciendo zoom sobre el sujeto. En mi opinión, este fue el que mejor funcionó.
Edición de vídeos con la API Grok Imagine
Grok Imagine te permite editar un vídeo existente basándote en una indicación de texto. El funcionamiento es similar al de generar un vídeo a partir de una imagen. Proporcionamos el vídeo que queremos editar como una URL utilizando el parámetro video_url y describimos los cambios con el mensaje.
Ten en cuenta que, al editar un vídeo, la duración máxima permitida del vídeo de entrada es de 8,7 segundos.
Para probarlo, generé un vídeo con Grok Imagine en el que aparecía una persona haciendo malabares con tres pelotas.
Luego, usé la URL de ese video para pedirle al modelo que añadiera fuego a las bolas. A continuación se incluye la solicitud para editar el vídeo. El código completo se puede encontrar en el repositorio GitHub.
prompt = """
Add fire to the balls.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)
También hice una tercera edición en la que pedí que se sustituyera a la persona por un gato. Aquí están los resultados:
Aquí tienes un último ejemplo en el que partí de una foto que tomé de un cielo estrellado. Le pedí a Grok Imagine que añadiera dos excursionistas caminando por el sendero que se detuvieron para admirar las estrellas. Finalmente, utilicé ese vídeo como entrada y pedí que lo editaras para que nevara.
Este es otro ejemplo en el que los resultados son bastante malos. En el primer vídeo, se creó una nueva ruta que no concuerda con la escena. Al principio, la edición de la nieve parecía buena, pero luego me di cuenta de que dejaba el fondo sin cambios, lo que lo hacía inconsistente con el primer plano ahora nevado.
Conclusión
Es alentador ver que cada vez hay más modelos de vídeo con acceso a API, ya que eso amplía realmente lo que podemos crear y automatizar, desde prototipos rápidos hasta procesos completos.
La API de Grok Imagine es muy fácil de configurar y utilizar, pero presenta algunos puntos conflictivos. En particular, el requisito de pasar imágenes y vídeos por URL hace que los flujos de trabajo básicos (como iterar sobre activos locales) sean más engorrosos de lo necesario.
En la práctica, tus resultados fueron decepcionantes en comparación con las grandilocuentes afirmaciones: la conversión de texto a vídeo a menudo no daba en el blanco, y la conversión de imagen a vídeo introducía artefactos e inconsistencias notables. El único aspecto en el que destacó fue la edición, donde los cambios impulsados por comandos parecían más fiables y controlables.
Uno de los puntos fuertes de Grok Imagine es su velocidad. He utilizado muchos modelos de generación de vídeo con IA y, según mi experiencia, Grok Image es, con diferencia, el más rápido.
Soy optimista sobre el futuro de este espacio, pero por ahora Grok Imagine parece más un editor prometedor que un generador de primera clase, y espero que las futuras actualizaciones amplíen las opciones de entrada y mejoren la calidad de la generación central.
A aquellos de ustedes que quieran aprender más sobre las técnicas utilizadas en la generación de vídeos con IA, les recomiendo que se inscriban en nuestro curso Fundamentos de IA .
Preguntas frecuentes sobre la API de Grok Imagine
¿Cómo puedo acceder a la API de Grok Imagine?
Para utilizar la API de Grok Imagine, solo necesitas una cuenta xAI. Puedes generar una clave API desde laconsola xAI de .
¿Cuánto cuesta la generación de vídeos con la API de Grok Imagine?
El precio depende tanto de la entrada (0,002 $ por imagen, 0,01 $ por vídeo) como de la salida. Por segundo, un vídeo cuesta 0,05 $ con una resolución de 480p y 0,07 $ con una resolución de 720p.
¿Qué capacidades admite la API de Grok Imagine?
La API Grok Imagine admite la conversión de texto a vídeo, de imagen a vídeo y la edición de vídeo. Puedes generar clips de hasta 15 segundos de duración con generación de audio nativa.
¿Cómo puedes crear vídeos a partir de imágenes u otros vídeos en la API de Grok Imagine?
Las imágenes y los vídeos de entrada deben proporcionarse como URL y se añaden utilizando los parámetros image_url y video_url, respectivamente.






