Programa
A xAI acabou de lançar a API Grok Imagine, que cria vídeos de IA usando o modelo Grok Imagine deles. Ele diz que é estiver no mesmo nível dos outros modelos top de linha atuais, mesmo tendo sido otimizado para baixa latência e custo.
Neste artigo, vamos ver se o Grok Imagine consegue cumprir essas promessas. Nesteguia completo do , vou te mostrar como configurar a API localmente e como usar o Grok Imagine com texto, imagens ou vídeo pra gerar vídeos em Python.
Se você quiser saber mais sobre os últimos lançamentos nessa área, dá uma olhada no nosso guia dos melhores modelos de geração de vídeo.
O que é o Grok Imagine?
Grok Imagine é um modelo de geração de vídeo da xAI. Aceita entradas de texto, imagem e vídeo e gera um vídeo com som nativo. A possibilidade de receber entrada de vídeo é especialmente interessante, pois nos permite fazer edições baseadas em comandos.
O modelo deles supera o mais recente Veo da Google e Sora da OpenAI, tanto em preço quanto no tempo que leva pra gerar um vídeo.
A tabela comparativa acima foca só no preço e na velocidade. Como dá pra ver, o Grok Imagine tá em primeiro lugar nas duas categorias.
Quando se trata dos vídeos em si, o anúncio só compara o Grok Imagine com o Kling o1 e o Runway Aleph. O experimento foi mandar a mesma solicitação para todos os modelos e pedir para avaliadores humanos escolherem o resultado que mais gostaram.
Além de não comparar os resultados com o Sora e o Veo, achei estranho que o Runway Aleph nem seja o modelo mais recente lançado pela Runway ML. Mesmo assim, o Grok Imagine tá em primeiro lugar no ranking de análise artificial de texto para vídeo baseado em ELO. análise artificial de texto para vídeo, superando até mesmo o Runway Gen 4.5.
Como acessar o Grok Imagine
O Grok Imagine pode ser acessado pela sua interface web ou pela API. Neste tutorial, vamos focar em usar o Grok Imagine com a API usando Python.
Quando usamos um modelo pela API, precisamos de uma conta, mas não de uma assinatura. Em vez disso, criamos uma chave API na nossa conta que nos cobra por vídeo. Abaixo, você pode ver a estrutura de preços da API Grok Imagine:
Configuração da API do Grok Imagine
Antes de criar nosso primeiro vídeo Grok Imagine, precisamos gerar uma chave API e instalar as dependências necessárias.
Gerando uma chave API
O primeiro passo para configurar a API do Grok Imagine é gerar uma chave API. Para criar um, vá para o console xAI e faça login com sua conta xAI. Você vai precisar de uma equipe, então crie uma para sua conta, caso ainda não exista nenhuma.
Depois, vá até as Chaves API e clique em Criar Chave API à direita.

Copiamos a chave para um arquivo chamado .env que criamos na mesma pasta onde vamos escrever nosso código Python. O arquivo deve ter o seguinte formato:
XAI_API_KEY="your_api_key"
Instalando pacotes Python xAI
Pra interagir com a API do Grok Imagine, a gente instala dois pacotes Python:
-
xai-sdk: O pacote oficial xAI que nos permite fazer solicitações de API. -
python-dotenv: Um pacote auxiliar que facilita o carregamento da chave API do arquivo.env.
A gente instala esses pacotes usando o comando:
pip install xai-sdk python-dotenv
Criando nosso primeiro vídeo com o Grok Imagine
Depois de fazer tudo isso, já dá pra criar um vídeo. Para isso, importamos os dois pacotes que acabamos de instalar, carregamos a chave da API, inicializamos o cliente xAI e, por fim, enviamos uma solicitação de geração de vídeo.
Aqui está um exemplo de script Python para fazer isso:
from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")
Aqui está o vídeo que foi gerado:
Observação: Todo o código deste artigo pode ser encontrado neste repositório GitHub. este repositório GitHub.
Baixando o vídeo
O código acima vai esperar o vídeo terminar de ser gerado e, em seguida, imprimir a URL do vídeo. Também dá pra baixar o vídeo usando essa função download_video():
import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
# Extract filename from URL
filename = Path(urlparse(url).path).name
if not filename:
raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(output_path, "wb") as f:
for chunk in r.iter_content(chunk_size=8192):
if chunk:
f.write(chunk)
print(f"Video saved to {output_path.resolve()}")
Depois de definir essa função, chamar download_video(response.url) vai baixar o vídeo para o seu diretório de trabalho.
Um exemplo completo com download de vídeo pode ser encontrado no repositório.
Criando vídeos com a API Grok Imagine
A gente aprendeu a criar vídeos a partir de textos usando a API xAI. A seguir, vamos explorar todas as capacidades do modelo. Pra mais informações, dá pra consultar a documentação do xAI.
Explorando as opções de geração de vídeo
O Grok Imagine oferece três opções principais pra gerar vídeos:
-
duration: A duração do vídeo em segundos, dada como um número de1a15. -
aspect_ratio: A proporção da imagem do vídeo. O modelo suporta as seguintes proporções:"1:1","16:9","9:16","4:3","3:4","3:2"e"2:3". -
resolution: A resolução do vídeo, seja"720p"ou"480p".
Aqui está um exemplo de como podemos definir as opções acima na solicitação da API:
prompt = """
A person stands holding their phone, gazing at a stunning landscape
photo on the screen. The image begins to subtly move and glow.
Suddenly, the phone pulls them in, and they are sucked through the screen,
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
duration=15,
aspect_ratio="9:16",
resolution="480p",
)
E aí está o resultado:
Acho esse resultado meio decepcionante, pra dizer o mínimo.
Gerando um vídeo a partir de uma imagem
Uma das coisas mais legais dos modelos de geração de imagens com IA é que eles conseguem criar vídeos a partir de uma imagem. Esse fluxo de trabalho facilita muito a criação de vídeos consistentes, desde que a gente tenha uma imagem base, já que o modelo só precisa gerar movimento.
Imagina que você quer fazer um vídeo com um personagem ou pessoa específica. Fornecer uma imagem, em teoria, pelo menos garante a precisão do personagem.
Para criar uma imagem a partir de outra imagem, use o parâmetro image_url com a URL da imagem que você quer usar. De acordo com a documentação deles, quando uma imagem é fornecida, ela será usada como o primeiro quadro do vídeo. Mas a gente precisa ter certeza de que ele está de acordo com a proporção de tela pedida.
Tentei criar uma imagem FPV de pessoas a cavalo na praia a partir da foto abaixo, que tirei há algum tempo. Lembre-se que, como a imagem precisa ser fornecida como uma URL, primeiro precisamos enviá-la para algum lugar. No meu caso, usei o repositório GitHub que tá ligado a esse artigo.
prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)
Esse é o vídeo que o Grok Imagine criou:
Tem artefatos de IA bem visíveis no vídeo, tipo a duplicação de objetos. Mesmo assim, a modelo entendeu a foto que a gente queria fazer.
Aqui está outro exemplo em que tento converter uma imagem em um timelapse. Tentei duas vezes porque o primeiro resultado adicionou um prédio que não existia na imagem original.
A segunda tentativa foi mais bem-sucedida do que a primeira, mas ainda está cheia de artefatos de IA.
Como terceiro exemplo, tentei ver como o Grok Imagine lidava com o movimento da câmera, pedindo para animar uma foto com zoom no objeto. Na minha opinião, esse foi o que funcionou melhor.
Editando vídeos com a API Grok Imagine
O Grok Imagine permite que você edite um vídeo já existente com base em um prompt de texto. Funciona de forma parecida com a geração de um vídeo a partir de uma imagem. A gente fornece o vídeo que queremos editar como uma URL usando o parâmetro video_url e descreve as alterações com o prompt.
Lembre-se que, ao editar um vídeo, a duração máxima permitida para o vídeo de entrada é de 8,7 segundos.
Pra testar isso, criei um vídeo usando o Grok Imagine de uma pessoa fazendo malabarismo com três bolas.
Então, usei a URL desse vídeo para pedir à modelo para adicionar fogo às bolas. Abaixo está o pedido para editar o vídeo. O código completo pode ser encontrado no repositório GitHub.
prompt = """
Add fire to the balls.
"""
response = client.video.generate(
prompt=prompt,
model="grok-imagine-video",
video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)
Também fiz uma terceira edição, onde pedi pra trocar a pessoa por um gato. Aqui estão os resultados:
Aqui está um último exemplo em que comecei com uma foto que tirei de um céu estrelado. Pedi ao Grok Imagine para adicionar dois caminhantes descendo a trilha que pararam para admirar as estrelas. Por fim, usei esse vídeo como entrada e pedi pra editar pra parecer que tá nevando.
Esse é outro caso em que os resultados são bem ruins. No primeiro vídeo, foi criado um novo caminho que não combina com a cena. A edição da neve parecia boa no começo, mas depois percebi que ela deixou o fundo igual, o que não combinava com o primeiro plano agora coberto de neve.
Conclusão
É legal ver mais modelos de vídeo chegando com acesso à API, porque isso realmente amplia o que a gente pode criar e automatizar, desde protótipos rápidos até pipelines completos.
A API do Grok Imagine é super simples de configurar e usar, mas tem alguns pontos de atrito. Principalmente, a necessidade de passar imagens e vídeos por URL torna os fluxos de trabalho básicos (como iterar em ativos locais) mais complicados do que o necessário.
Na prática, meus resultados foram decepcionantes em comparação com as promessas grandiosas: a conversão de texto em vídeo muitas vezes não funcionava direito, e a conversão de imagem em vídeo apresentava artefatos e inconsistências perceptíveis. A única área em que realmente se destacou foi na edição, onde as alterações orientadas por prompts pareciam mais confiáveis e controláveis.
Um ponto muito forte do Grok Imagine é a sua velocidade. Já usei vários modelos de geração de vídeo com IA e, pela minha experiência, o Grok Image é de longe o mais rápido.
Estou otimista em relação ao futuro desse espaço, mas, por enquanto, o Grok Imagine parece mais um editor promissor do que um gerador de primeira linha. Espero que as atualizações futuras ampliem as opções de entrada e melhorem a qualidade da geração do núcleo.
Pra quem quer saber mais sobre as técnicas usadas na geração de vídeos com IA, recomendo se inscrever no nosso curso Fundamentos de IA .
Perguntas frequentes sobre a API Grok Imagine
Como posso acessar a API do Grok Imagine?
Para usar a API Grok Imagine, você só precisa de uma conta xAI. Você pode criar uma chave API noconsole xAI do .
Quanto custa a geração de vídeos com a API Grok Imagine?
O preço depende tanto da entrada (R$ 0,002 por imagem, R$ 0,01 por vídeo) quanto da saída. Por segundo, um vídeo custa US$ 0,05 com resolução de 480p e US$ 0,07 com resolução de 720p.
Quais recursos a API Grok Imagine suporta?
A API Grok Imagine dá suporte à conversão de texto em vídeo, imagem em vídeo e edição de vídeo. Você pode criar clipes de até 15 segundos com geração de áudio nativa.
Como você pode criar vídeos a partir de imagens ou outros vídeos na API Grok Imagine?
As imagens e vídeos de entrada devem ser fornecidos como URLs e são adicionados usando os parâmetros image_url e video_url, respectivamente.







