Pular para o conteúdo principal

API Grok Imagine: Um guia completo de Python com exemplos

Aprenda a criar vídeos usando a API Grok Imagine. Este guia Python fala sobre tudo, desde animações de imagens até edição de vídeo com o novo modelo de vídeo xAI.
Atualizado 3 de fev. de 2026  · 8 min lido

A xAI acabou de lançar a API Grok Imagine, que cria vídeos de IA usando o modelo Grok Imagine deles. Ele diz que é estiver no mesmo nível dos outros modelos top de linha atuais, mesmo tendo sido otimizado para baixa latência e custo.

Neste artigo, vamos ver se o Grok Imagine consegue cumprir essas promessas. Nesteguia completo do , vou te mostrar como configurar a API localmente e como usar o Grok Imagine com texto, imagens ou vídeo pra gerar vídeos em Python.

Se você quiser saber mais sobre os últimos lançamentos nessa área, dá uma olhada no nosso guia dos melhores modelos de geração de vídeo.

O que é o Grok Imagine?

Grok Imagine é um modelo de geração de vídeo da xAI. Aceita entradas de texto, imagem e vídeo e gera um vídeo com som nativo. A possibilidade de receber entrada de vídeo é especialmente interessante, pois nos permite fazer edições baseadas em comandos.

O modelo deles supera o mais recente Veo da Google e Sora da OpenAI, tanto em preço quanto no tempo que leva pra gerar um vídeo.

Gráfico comparativo: o xAI Grok Imagine tá em primeiro lugar em conversão de texto em vídeo, melhor preço e menor latência em comparação com o Veo 3.1 Fast, Veo 3, Sora 2 Pro e Sora 2.

A tabela comparativa acima foca só no preço e na velocidade. Como dá pra ver, o Grok Imagine tá em primeiro lugar nas duas categorias.

Quando se trata dos vídeos em si, o anúncio só compara o Grok Imagine com o Kling o1 e o Runway Aleph. O experimento foi mandar a mesma solicitação para todos os modelos e pedir para avaliadores humanos escolherem o resultado que mais gostaram.

Gráfico comparativo de edição de vídeo mostrando o Grok Imagine superando os concorrentes: vs Kling o1 — Geral 57% vs 43%, Seguimento de instruções 53,1% vs 46,9%, Consistência 60,6% vs 39,4%; vs Runway Aleph — Geral 64,1% vs 35,9%, Seguimento de instruções 57,4% vs 42,6%, Consistência 63,1% vs 36,9%.

Além de não comparar os resultados com o Sora e o Veo, achei estranho que o Runway Aleph nem seja o modelo mais recente lançado pela Runway ML. Mesmo assim, o Grok Imagine tá em primeiro lugar no ranking de análise artificial de texto para vídeo baseado em ELO. análise artificial de texto para vídeo, superando até mesmo o Runway Gen 4.5.

Como acessar o Grok Imagine

O Grok Imagine pode ser acessado pela sua interface web ou pela API. Neste tutorial, vamos focar em usar o Grok Imagine com a API usando Python.

Quando usamos um modelo pela API, precisamos de uma conta, mas não de uma assinatura. Em vez disso, criamos uma chave API na nossa conta que nos cobra por vídeo. Abaixo, você pode ver a estrutura de preços da API Grok Imagine:

Tabela de preços da API Grok Imagine para grok-imagine-video: regiões us-east-1 e eu-west-1; preços de entrada — imagem US$ 0,002, vídeo US$ 0,01/segundo, texto não suportado; taxas por segundo por resolução — 480p US$ 0,05, 720p US$ 0,07; limite de taxa 30 solicitações/minuto, tokens por minuto não aplicáveis.

Configuração da API do Grok Imagine

Antes de criar nosso primeiro vídeo Grok Imagine, precisamos gerar uma chave API e instalar as dependências necessárias.

Gerando uma chave API

O primeiro passo para configurar a API do Grok Imagine é gerar uma chave API. Para criar um, vá para o console xAI e faça login com sua conta xAI. Você vai precisar de uma equipe, então crie uma para sua conta, caso ainda não exista nenhuma.

Depois, vá até as Chaves API e clique em Criar Chave API à direita.

Captura de tela do console Grok Imagine: barra lateral da equipe pessoal com as chaves API destacadas, a guia usada para criar uma nova chave API Grok Imagine.

Copiamos a chave para um arquivo chamado .env que criamos na mesma pasta onde vamos escrever nosso código Python. O arquivo deve ter o seguinte formato:

XAI_API_KEY="your_api_key"

Instalando pacotes Python xAI

Pra interagir com a API do Grok Imagine, a gente instala dois pacotes Python:

  • xai-sdk: O pacote oficial xAI que nos permite fazer solicitações de API.

  • python-dotenv: Um pacote auxiliar que facilita o carregamento da chave API do arquivo .env.

A gente instala esses pacotes usando o comando:

pip install xai-sdk python-dotenv

Criando nosso primeiro vídeo com o Grok Imagine

Depois de fazer tudo isso, já dá pra criar um vídeo. Para isso, importamos os dois pacotes que acabamos de instalar, carregamos a chave da API, inicializamos o cliente xAI e, por fim, enviamos uma solicitação de geração de vídeo.

Aqui está um exemplo de script Python para fazer isso:

from xai_sdk import Client
from dotenv import load_dotenv
# Load the API key
load_dotenv()
# Initialize the xAI client
client = Client()
# Sending a video generation request
prompt = """
A pixel art cat playing with a ball.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
)
# Display the URL of the video
print(f"Video URL: {response.url}")

Aqui está o vídeo que foi gerado:

Observação: Todo o código deste artigo pode ser encontrado neste repositório GitHub. este repositório GitHub.

Baixando o vídeo

O código acima vai esperar o vídeo terminar de ser gerado e, em seguida, imprimir a URL do vídeo. Também dá pra baixar o vídeo usando essa função download_video():

import requests
from pathlib import Path
from urllib.parse import urlparse
def download_video(url: str, output_dir: str = "."):
    # Extract filename from URL
    filename = Path(urlparse(url).path).name
    if not filename:
        raise ValueError("Could not determine filename from URL")
output_path = Path(output_dir) / filename
with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(output_path, "wb") as f:
            for chunk in r.iter_content(chunk_size=8192):
                if chunk:
                    f.write(chunk)
  print(f"Video saved to {output_path.resolve()}")

Depois de definir essa função, chamar download_video(response.url) vai baixar o vídeo para o seu diretório de trabalho.

Um exemplo completo com download de vídeo pode ser encontrado no repositório.

Criando vídeos com a API Grok Imagine

A gente aprendeu a criar vídeos a partir de textos usando a API xAI. A seguir, vamos explorar todas as capacidades do modelo. Pra mais informações, dá pra consultar a documentação do xAI.

Explorando as opções de geração de vídeo

O Grok Imagine oferece três opções principais pra gerar vídeos:

  • duration: A duração do vídeo em segundos, dada como um número de 1 a 15.

  • aspect_ratio: A proporção da imagem do vídeo. O modelo suporta as seguintes proporções: "1:1", "16:9", "9:16", "4:3", "3:4", "3:2" e "2:3".

  • resolution: A resolução do vídeo, seja "720p" ou "480p".

Aqui está um exemplo de como podemos definir as opções acima na solicitação da API:

prompt = """
A person stands holding their phone, gazing at a stunning landscape 
photo on the screen. The image begins to subtly move and glow. 
Suddenly, the phone pulls them in, and they are sucked through the screen, 
transitioning seamlessly into the vast, breathtaking landscape itself.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    duration=15,
    aspect_ratio="9:16",
    resolution="480p",
)

E aí está o resultado:

Acho esse resultado meio decepcionante, pra dizer o mínimo.

Gerando um vídeo a partir de uma imagem

Uma das coisas mais legais dos modelos de geração de imagens com IA é que eles conseguem criar vídeos a partir de uma imagem. Esse fluxo de trabalho facilita muito a criação de vídeos consistentes, desde que a gente tenha uma imagem base, já que o modelo só precisa gerar movimento. 

Imagina que você quer fazer um vídeo com um personagem ou pessoa específica. Fornecer uma imagem, em teoria, pelo menos garante a precisão do personagem.

Para criar uma imagem a partir de outra imagem, use o parâmetro image_url com a URL da imagem que você quer usar. De acordo com a documentação deles, quando uma imagem é fornecida, ela será usada como o primeiro quadro do vídeo. Mas a gente precisa ter certeza de que ele está de acordo com a proporção de tela pedida.

Tentei criar uma imagem FPV de pessoas a cavalo na praia a partir da foto abaixo, que tirei há algum tempo. Lembre-se que, como a imagem precisa ser fornecida como uma URL, primeiro precisamos enviá-la para algum lugar. No meu caso, usei o repositório GitHub que tá ligado a esse artigo.

prompt = """
A FPV drone shot of the people riding the horses on the beach.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    image_url="https://raw.githubusercontent.com/fran-aubry/grok-imagine-tutorial/refs/heads/main/resources/horses.jpeg",
)

Esse é o vídeo que o Grok Imagine criou:

Tem artefatos de IA bem visíveis no vídeo, tipo a duplicação de objetos. Mesmo assim, a modelo entendeu a foto que a gente queria fazer.

Aqui está outro exemplo em que tento converter uma imagem em um timelapse. Tentei duas vezes porque o primeiro resultado adicionou um prédio que não existia na imagem original.

A segunda tentativa foi mais bem-sucedida do que a primeira, mas ainda está cheia de artefatos de IA.

Como terceiro exemplo, tentei ver como o Grok Imagine lidava com o movimento da câmera, pedindo para animar uma foto com zoom no objeto. Na minha opinião, esse foi o que funcionou melhor.

Editando vídeos com a API Grok Imagine

O Grok Imagine permite que você edite um vídeo já existente com base em um prompt de texto. Funciona de forma parecida com a geração de um vídeo a partir de uma imagem. A gente fornece o vídeo que queremos editar como uma URL usando o parâmetro video_url e descreve as alterações com o prompt.

Lembre-se que, ao editar um vídeo, a duração máxima permitida para o vídeo de entrada é de 8,7 segundos.

Pra testar isso, criei um vídeo usando o Grok Imagine de uma pessoa fazendo malabarismo com três bolas.

Então, usei a URL desse vídeo para pedir à modelo para adicionar fogo às bolas. Abaixo está o pedido para editar o vídeo. O código completo pode ser encontrado no repositório GitHub.

prompt = """
Add fire to the balls.
"""
response = client.video.generate(
    prompt=prompt,
    model="grok-imagine-video",
    video_url="https://vidgen.x.ai/xai-vidgen-bucket/xai-video-2109c762-efcb-415b-ab3c-661b1df113cd.mp4",
)

Também fiz uma terceira edição, onde pedi pra trocar a pessoa por um gato. Aqui estão os resultados:

Aqui está um último exemplo em que comecei com uma foto que tirei de um céu estrelado. Pedi ao Grok Imagine para adicionar dois caminhantes descendo a trilha que pararam para admirar as estrelas. Por fim, usei esse vídeo como entrada e pedi pra editar pra parecer que tá nevando.

Esse é outro caso em que os resultados são bem ruins. No primeiro vídeo, foi criado um novo caminho que não combina com a cena. A edição da neve parecia boa no começo, mas depois percebi que ela deixou o fundo igual, o que não combinava com o primeiro plano agora coberto de neve.

Conclusão

É legal ver mais modelos de vídeo chegando com acesso à API, porque isso realmente amplia o que a gente pode criar e automatizar, desde protótipos rápidos até pipelines completos.

A API do Grok Imagine é super simples de configurar e usar, mas tem alguns pontos de atrito. Principalmente, a necessidade de passar imagens e vídeos por URL torna os fluxos de trabalho básicos (como iterar em ativos locais) mais complicados do que o necessário.

Na prática, meus resultados foram decepcionantes em comparação com as promessas grandiosas: a conversão de texto em vídeo muitas vezes não funcionava direito, e a conversão de imagem em vídeo apresentava artefatos e inconsistências perceptíveis. A única área em que realmente se destacou foi na edição, onde as alterações orientadas por prompts pareciam mais confiáveis e controláveis.

Um ponto muito forte do Grok Imagine é a sua velocidade. Já usei vários modelos de geração de vídeo com IA e, pela minha experiência, o Grok Image é de longe o mais rápido.

Estou otimista em relação ao futuro desse espaço, mas, por enquanto, o Grok Imagine parece mais um editor promissor do que um gerador de primeira linha. Espero que as atualizações futuras ampliem as opções de entrada e melhorem a qualidade da geração do núcleo.

Pra quem quer saber mais sobre as técnicas usadas na geração de vídeos com IA, recomendo se inscrever no nosso curso Fundamentos de IA .

Perguntas frequentes sobre a API Grok Imagine

Como posso acessar a API do Grok Imagine?

Para usar a API Grok Imagine, você só precisa de uma conta xAI. Você pode criar uma chave API noconsole xAI do .

Quanto custa a geração de vídeos com a API Grok Imagine?

O preço depende tanto da entrada (R$ 0,002 por imagem, R$ 0,01 por vídeo) quanto da saída. Por segundo, um vídeo custa US$ 0,05 com resolução de 480p e US$ 0,07 com resolução de 720p.

Quais recursos a API Grok Imagine suporta?

A API Grok Imagine dá suporte à conversão de texto em vídeo, imagem em vídeo e edição de vídeo. Você pode criar clipes de até 15 segundos com geração de áudio nativa.

Como você pode criar vídeos a partir de imagens ou outros vídeos na API Grok Imagine?

As imagens e vídeos de entrada devem ser fornecidos como URLs e são adicionados usando os parâmetros image_url e video_url, respectivamente.


François Aubry's photo
Author
François Aubry
LinkedIn
Engenheiro de pilha completa e fundador da CheapGPT. Ensinar sempre foi minha paixão. Desde meus primeiros dias como estudante, eu buscava ansiosamente oportunidades para dar aulas particulares e ajudar outros alunos. Essa paixão me levou a fazer um doutorado, onde também atuei como assistente de ensino para apoiar meus esforços acadêmicos. Durante esses anos, encontrei imensa satisfação no ambiente tradicional da sala de aula, promovendo conexões e facilitando o aprendizado. Entretanto, com o advento das plataformas de aprendizagem on-line, reconheci o potencial transformador da educação digital. Na verdade, participei ativamente do desenvolvimento de uma dessas plataformas em nossa universidade. Estou profundamente comprometido com a integração dos princípios tradicionais de ensino com metodologias digitais inovadoras. Minha paixão é criar cursos que não sejam apenas envolventes e informativos, mas também acessíveis aos alunos nesta era digital.
Tópicos

Cursos de IA generativa

Programa

Associate AI Engineer para desenvolvedores

26 h
Aprenda a integrar IA em aplicações de software usando APIs e bibliotecas de código aberto. Comece hoje sua jornada para se tornar um AI Engineer!
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Como aprender Python do zero em 2026: Um guia especializado

Descubra como aprender Python em 2026, suas aplicações e a demanda por habilidades em Python. Comece hoje mesmo sua jornada no Python ​com nosso guia completo.
Matt Crabtree's photo

Matt Crabtree

15 min

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

Tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.
Moez Ali's photo

Moez Ali

Tutorial

Desenvolvimento de back-end em Python: Um guia completo para iniciantes

Este guia completo ensina a você os fundamentos do desenvolvimento de back-end em Python. Aprenda conceitos básicos, estruturas e práticas recomendadas para você começar a criar aplicativos da Web.
Oluseye Jeremiah's photo

Oluseye Jeremiah

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Um guia para iniciantes na engenharia de prompts do ChatGPT

Descubra como fazer com que o ChatGPT forneça os resultados que você deseja, fornecendo a ele as entradas necessárias.
Matt Crabtree's photo

Matt Crabtree

Ver maisVer mais