Ir al contenido principal

API Grok Imagine: Una guía completa de Python con ejemplos

Aprende a generar vídeos utilizando la API de Grok Imagine. Esta guía de Python abarca todo, desde animaciones de imágenes hasta edición de vídeo con el nuevo modelo de vídeo xAI.
Actualizado 3 feb 2026  · 8 min leer

xAI acaba de lanzar la API Grok Imagine, que genera vídeos con IA utilizando su modelo Grok Imagine. Afirma estar a la altura de otros modelos punteros actuales, a pesar de que se ha optimizado para ofrecer una baja latencia y un bajo coste.

En este artículo, veremos si Grok Imagine puede cumplir estas promesas. En estacompleta guía de , te mostraré cómo configurar la API localmente y cómo utilizar Grok Imagine con entradas de texto, imágenes o vídeo para generar vídeos en Python.

Si deseas obtener más información sobre las últimas novedades en este ámbito, consulta nuestra guía sobre los mejores modelos de generación de vídeo.

¿Qué es Grok Imagine?

Grok Imagine es un modelo de generación de vídeo de xAI. Acepta entradas de texto, imágenes y vídeo, y genera un vídeo con sonido nativo. La posibilidad de recibir entradas de vídeo es especialmente interesante, ya que nos permite realizar ediciones basadas en indicaciones.

Tu modelo supera al último modelos Veo de Google y Sora de OpenAI, tanto en precio como en tiempo de generación de un vídeo.

Gráfico comparativo: xAI Grok Imagine ocupa el primer puesto en conversión de texto a vídeo, mejor precio y menor latencia frente a Veo 3.1 Fast, Veo 3, Sora 2 Pro y Sora 2.

La tabla comparativa anterior se centra únicamente en el precio y la velocidad. Como podemos ver, Grok Imagine ocupa el primer lugar en ambas categorías.

En cuanto a los vídeos en sí, el anuncio solo compara Grok Imagine con Kling o1 y Runway Aleph. El experimento consistió en enviar la misma indicación a todos los modelos y pedir a evaluadores humanos que seleccionaran su resultado preferido.

Gráfico comparativo de edición de vídeo que muestra el rendimiento superior de Grok Imagine frente a sus competidores: frente a Kling o1: 57 % frente a 43 % en general, 53,1 % frente a 46,9 % en seguimiento de instrucciones y 60,6 % frente a 39,4 % en coherencia; vs Runway Aleph: general 64,1 % frente a 35,9 %, seguimiento de instrucciones 57,4 % frente a 42,6 %, consistencia 63,1 % frente a 36,9 %.

Aparte de no comparar los resultados con Sora y Veo, me pareció extraño que Runway Aleph ni siquiera sea el último modelo lanzado por Runway ML. Aún así, Grok Imagine ocupa el primer puesto en la clasificación basada en ELO de análisis artificial de texto a vídeo, superando incluso a Runway Gen 4.5.

Cómo acceder a Grok Imagine

Se puede acceder a Grok Imagine a través de su interfaz web o su API. En este tutorial, nos centramos en el uso de Grok Imagine con la API utilizando Python.

Cuando usas un modelo a través de la API, necesitamos una cuenta, pero no una suscripción. En su lugar, creamos una clave API en nuestra cuenta que nos cobra por cada vídeo. A continuación, puedes ver la estructura de precios de la API de Grok Imagine:

Tabla de precios de Grok Imagine API para grok-imagine-video: regiones us-east-1 y eu-west-1; precios de entrada: imagen 0,002 $, vídeo 0,01 $/segundo, texto no compatible; tarifas por segundo según resolución: 480p 0,05 $, 720p 0,07 $; límite de tarifa 30 solicitudes/min, tokens por minuto no aplicables.

Configuración de la API de Grok Imagine

Antes de crear nuestro primer vídeo Grok Imagine, necesitamos generar una clave API e instalar las dependencias necesarias.

Generar una clave API

El primer paso para configurar la API de Grok Imagine es generar una clave API. Para crear uno, ve a la consola xAI e inicia sesión con tu cuenta xAI. Necesitarás un equipo, así que crea uno para tu cuenta si aún no existe ninguno.

A continuación, ve a la sección claves API y haz clic en Crear clave API situado a la derecha.

Captura de pantalla de la consola de Grok Imagine: barra lateral del equipo personal con las claves API resaltadas, pestaña utilizada para crear una nueva clave API de Grok Imagine.

Copiamos la clave en un archivo llamado .env que creamos en la misma carpeta donde escribiremos nuestro código Python. El archivo debe tener el siguiente formato:

XAI_API_KEY="your_api_key"

Instalación de paquetes Python xAI

Para interactuar con la API de Grok Imagine, instalamos dos paquetes de Python:

  • xai-sdk: El paquete oficial xAI que nos permite realizar solicitudes API.

  • python-dotenv: Un paquete auxiliar que facilita la carga de la clave API desde el archivo .env.

Instala estos paquetes utilizando el comando:

pip install xai-sdk python-dotenv

Creación de nuestro primer vídeo con Grok Imagine

Una vez completados los pasos anteriores, ya podemos generar un vídeo. Para ello, importamos los dos paquetes que acabamos de instalar, cargamos la clave API, inicializamos el cliente xAI y, por último, enviamos una solicitud de generación de vídeo.

Aquí tienes un ejemplo de script en Python para hacerlo:

from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")

Aquí está el vídeo que se generó:

Nota: Todo el código de este artículo se puede encontrar en este repositorio de GitHub.

Descargar el vídeo

El código anterior esperará a que termine de generarse el vídeo y, a continuación, imprimirá la URL del vídeo. También podemos descargar el vídeo utilizando esta función download_video():

import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
    # Extract filename from URL
    filename = Path(urlparse(url).path).name
    if not filename:
        raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(output_path, "wb") as f:
            for chunk in r.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
  print(f"Video saved to {output_path.resolve()}")

Después de definir esta función, al llamar a download_video(response.url) se descargará el vídeo en tu directorio de trabajo.

Un ejemplo completo con descarga de vídeo en el repositorio.

Creación de vídeos con la API Grok Imagine

Aprendimos a generar vídeos a partir de texto utilizando la API de xAI. A continuación, exploraremos todas las capacidades del modelo. Para obtener más información, siempre puedes consultar la documentación de xAI.

Explorar las opciones de generación de vídeos

Grok Imagine ofrece tres opciones principales a la hora de generar vídeos:

  • duration: La duración del vídeo en segundos, expresada como un número comprendido entre 1 y 15.

  • aspect_ratio: La relación de aspecto del vídeo. El modelo admite las siguientes relaciones de aspecto: "1:1", "16:9", "9:16", "4:3", "3:4", "3:2" y "2:3".

  • resolution: La resolución del vídeo, ya sea "720p" o "480p".

A continuación, se muestra un ejemplo de cómo se pueden configurar las opciones anteriores en la solicitud de API:

prompt = """
A person stands holding their phone, gazing at a stunning landscape 
photo on the screen. The image begins to subtly move and glow. 
Suddenly, the phone pulls them in, and they are sucked through the screen, 
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    duration=15,
    aspect_ratio="9:16",
    resolution="480p",
)

Aquí está el resultado:

Este resultado me parece decepcionante, por decir lo menos.

Creación de un vídeo a partir de una imagen

Una de las características más potentes de los modelos de generación de imágenes con IA es su capacidad para generar vídeos a partir de una imagen. Este flujo de trabajo facilita mucho la creación de vídeos coherentes, siempre que tengamos una imagen base, ya que el modelo solo tiene que generar movimiento. 

Imagina que quieres crear un vídeo con un personaje o una persona concretos. Proporcionar una imagen, en teoría, al menos garantiza la precisión del personaje.

Para generar una imagen a partir de otra imagen, utiliza el parámetro image_url con la URL de la imagen que deseas utilizar. Según tu documentación, cuando se proporciona una imagen, esta se utilizará como primer fotograma del vídeo. Sin embargo, debemos asegurarnos de que coincida con la relación de aspecto solicitada.

Intenté generar una toma con un dron FPV de personas montando a caballo en la playa a partir de la foto de abajo, que tomé hace un tiempo. Ten en cuenta que, dado que la imagen debe proporcionarse como una URL, primero debemos subirla a algún sitio. En mi caso, utilicé el repositorio GitHub asociado a este artículo.

prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)

Este es el vídeo que ha generado Grok Imagine:

Hay artefactos de IA evidentes en el vídeo, como la duplicación de objetos. A pesar de eso, el modelo entendió la toma que queríamos generar.

Aquí hay otro ejemplo en el que intento convertir una imagen en un lapso de tiempo. Lo intenté dos veces porque el primer resultado añadió un edificio que no existía en la imagen original.

El segundo intento tuvo más éxito que el primero, pero sigue estando lleno de artefactos de IA.

Como tercer ejemplo, intenté ver cómo Grok Imagine manejaba el movimiento de la cámara pidiéndote que animaras una foto haciendo zoom sobre el sujeto. En mi opinión, este fue el que mejor funcionó.

Edición de vídeos con la API Grok Imagine

Grok Imagine te permite editar un vídeo existente basándote en una indicación de texto. El funcionamiento es similar al de generar un vídeo a partir de una imagen. Proporcionamos el vídeo que queremos editar como una URL utilizando el parámetro video_url y describimos los cambios con el mensaje.

Ten en cuenta que, al editar un vídeo, la duración máxima permitida del vídeo de entrada es de 8,7 segundos.

Para probarlo, generé un vídeo con Grok Imagine en el que aparecía una persona haciendo malabares con tres pelotas.

Luego, usé la URL de ese video para pedirle al modelo que añadiera fuego a las bolas. A continuación se incluye la solicitud para editar el vídeo. El código completo se puede encontrar en el repositorio GitHub.

prompt = """
Add fire to the balls.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)

También hice una tercera edición en la que pedí que se sustituyera a la persona por un gato. Aquí están los resultados:

Aquí tienes un último ejemplo en el que partí de una foto que tomé de un cielo estrellado. Le pedí a Grok Imagine que añadiera dos excursionistas caminando por el sendero que se detuvieron para admirar las estrellas. Finalmente, utilicé ese vídeo como entrada y pedí que lo editaras para que nevara.

Este es otro ejemplo en el que los resultados son bastante malos. En el primer vídeo, se creó una nueva ruta que no concuerda con la escena. Al principio, la edición de la nieve parecía buena, pero luego me di cuenta de que dejaba el fondo sin cambios, lo que lo hacía inconsistente con el primer plano ahora nevado.

Conclusión

Es alentador ver que cada vez hay más modelos de vídeo con acceso a API, ya que eso amplía realmente lo que podemos crear y automatizar, desde prototipos rápidos hasta procesos completos.

La API de Grok Imagine es muy fácil de configurar y utilizar, pero presenta algunos puntos conflictivos. En particular, el requisito de pasar imágenes y vídeos por URL hace que los flujos de trabajo básicos (como iterar sobre activos locales) sean más engorrosos de lo necesario.

En la práctica, tus resultados fueron decepcionantes en comparación con las grandilocuentes afirmaciones: la conversión de texto a vídeo a menudo no daba en el blanco, y la conversión de imagen a vídeo introducía artefactos e inconsistencias notables. El único aspecto en el que destacó fue la edición, donde los cambios impulsados por comandos parecían más fiables y controlables.

Uno de los puntos fuertes de Grok Imagine es su velocidad. He utilizado muchos modelos de generación de vídeo con IA y, según mi experiencia, Grok Image es, con diferencia, el más rápido.

Soy optimista sobre el futuro de este espacio, pero por ahora Grok Imagine parece más un editor prometedor que un generador de primera clase, y espero que las futuras actualizaciones amplíen las opciones de entrada y mejoren la calidad de la generación central.

A aquellos de ustedes que quieran aprender más sobre las técnicas utilizadas en la generación de vídeos con IA, les recomiendo que se inscriban en nuestro curso Fundamentos de IA .

Preguntas frecuentes sobre la API de Grok Imagine

¿Cómo puedo acceder a la API de Grok Imagine?

Para utilizar la API de Grok Imagine, solo necesitas una cuenta xAI. Puedes generar una clave API desde laconsola xAI de .

¿Cuánto cuesta la generación de vídeos con la API de Grok Imagine?

El precio depende tanto de la entrada (0,002 $ por imagen, 0,01 $ por vídeo) como de la salida. Por segundo, un vídeo cuesta 0,05 $ con una resolución de 480p y 0,07 $ con una resolución de 720p.

¿Qué capacidades admite la API de Grok Imagine?

La API Grok Imagine admite la conversión de texto a vídeo, de imagen a vídeo y la edición de vídeo. Puedes generar clips de hasta 15 segundos de duración con generación de audio nativa.

¿Cómo puedes crear vídeos a partir de imágenes u otros vídeos en la API de Grok Imagine?

Las imágenes y los vídeos de entrada deben proporcionarse como URL y se añaden utilizando los parámetros image_url y video_url, respectivamente.


François Aubry's photo
Author
François Aubry
LinkedIn
Ingeniero full-stack y fundador de CheapGPT. Enseñar siempre ha sido mi pasión. Desde mis primeros días como estudiante, busqué con entusiasmo oportunidades para dar clases particulares y ayudar a otros estudiantes. Esta pasión me llevó a realizar un doctorado, en el que también trabajé como ayudante de profesor para apoyar mis esfuerzos académicos. Durante esos años, encontré una inmensa satisfacción en el entorno tradicional del aula, fomentando las conexiones y facilitando el aprendizaje. Sin embargo, con la llegada de las plataformas de aprendizaje en línea, reconocí el potencial transformador de la educación digital. De hecho, participé activamente en el desarrollo de una plataforma de este tipo en nuestra universidad. Estoy profundamente comprometida con la integración de los principios de la enseñanza tradicional con metodologías digitales innovadoras. Mi pasión es crear cursos que no sólo sean atractivos e informativos, sino también accesibles para los alumnos en esta era digital.
Temas

Cursos de IA generativa

programa

Associate AI Engineer para desarrolladores

26 h
Aprende a integrar IA en aplicaciones de software usando APIs y bibliotecas de código abierto. ¡Empieza hoy tu camino para convertirte en AI Engineer!
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado
An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Cómo aprender Python desde cero en 2026: Una guía experta

Descubre cómo aprender Python en 2026, sus aplicaciones y la demanda de conocimientos de Python. Comienza hoy mismo tu aventura con Python. ​con nuestra guía completa.
Matt Crabtree's photo

Matt Crabtree

15 min

Tutorial

Tutorial de Generación de nubes de palabras en Python

Aprende a realizar Análisis exploratorios de datos para el Procesamiento del lenguaje natural utilizando WordCloud en Python.
Duong Vu's photo

Duong Vu

Tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

Tutorial

Tutorial de FastAPI: Introducción al uso de FastAPI

Explore el marco FastAPI y descubra cómo puede utilizarlo para crear API en Python.
Moez Ali's photo

Moez Ali

Ver másVer más