Curso
Faz quase exatamente um ano desde que o primeiro ChatGPT Images foi lançado com um modelo chamado GPT Image 1. Agora, a OpenAI revisou seu modelo de imagens novamente e está apresentando a nova ideia de que o antigo "gerador de imagens" virou um "parceiro visual de raciocínio".
Neste artigo, vamos mostrar o que há de novo, como ele se compara ao seu antecessor ChatGPT Images 1.5, como ele se compara ao Nano Banana 2 do Google e onde o modelo brilha (e onde não brilha).
O que é o ChatGPT Images 2.0?
ChatGPT Images 2.0 é o modelo de imagem de próxima geração da OpenAI. A proposta é que ele seja capaz de pesquisar, raciocinar e, então, renderizar.
Você quer começar a usar a IA generativa?
Saiba como trabalhar com LLMs em Python diretamente em seu navegador

O que há de novo no ChatGPT Images 2.0?
Uma das principais conclusões do lançamento do ChatGPT Images 1.5 foi um grande ganho de velocidade. Na época, dizia-se que estava 4x mais rápido. Tentamos verificar essa afirmação, mas vimos que ela se aplicava a edições, não à geração de novas imagens.
Desta vez, a grande aposta é a inteligência. O ChatGPT Images 2.0 é um modelo de imagem que "pensa": ele deve pesquisar, raciocinar sobre fatos e traduzir entradas rústicas (anotações, esboços, referências) em visuais finalizados com muito menos engenharia de prompt manual.
Outros destaques do anúncio:
- Mais precisão e controle sobre a própria geração
- Desempenho mais robusto em vários idiomas e sistemas de escrita
- Mais sofisticação de estilo e realismo
- Inteligência sobre o mundo real aprimorada embutida no modelo
- Proporções flexíveis para tudo, do celular a formatos de banner
Um modelo que pensa
Uma das maiores promessas do lançamento é que o novo modelo "pensa" e atua como um "parceiro visual de raciocínio". A ideia é que agentes façam um trabalho de bastidores para entender a tarefa a fundo e raciocinar sobre ela antes de executar a geração.
Seu entendimento de mundo foi atualizado até dezembro de 2025, então os resultados são mais precisos em contexto. A promessa é que o novo modelo funcione muito bem para gráficos educacionais e fluxos de trabalho em várias etapas que exigem contexto.
Pesquise na web
Para preencher a lacuna entre o cutoff e informações atuais, o Images 2.0 pode pesquisar na web para encontrar dados relevantes. Não está claro nas notas da OpenAI como isso funciona exatamente, mas, pelo que entendemos, a busca na web funciona como uma ferramenta chamada pelo agente pensante mencionado acima.
Crie várias imagens a partir de um único prompt
O novo modelo também oferece nativamente a geração de múltiplas imagens a partir do mesmo prompt. Isso já era possível com um contorno na API (solicitando uma "composição"), mas agora pode ser feito também na interface, para até dez imagens. A OpenAI promete continuidade de personagens e objetos em todas elas.
Testando o ChatGPT Images 2.0
Hora de ver o que o novo modelo realmente faz! Testamos os seguintes recursos e capacidades do Images 2.0:
- Fluxo de trabalho de edição
- Modo de raciocínio e busca na web
- Amplitude de estilos
- Refino de esboços rústicos
- Flexibilidade de proporção
- Criatividade
Testando o fluxo de edição
A proposta da OpenAI para o 2.0 aposta na iteração: entra um insumo rústico, sai um ativo polido, com ganhos em seguir instruções e renderização de texto denso. Testamos esse ciclo usando um famoso selo dos EUA de 1898 chamado Western Cattle in Storm.
Aqui está a foto de um dos selos em condição Fine.

Para testar especificamente o fluxo de edição, usamos o seguinte prompt sem o modo de raciocínio. Isso também significa que o modelo não tem acesso à busca na web, que testamos separadamente.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
E aqui está o resultado:

Só com texto, o prompt não funcionou. A descrição detalhada do selo e de sua condição voltou errada na maioria dos pontos que importam — cor incorreta, layout do valor errado, descentralização caricata. Reproduzir um artefato histórico específico apenas a partir de texto é pedir demais.
Fornecer a imagem de referência ao modelo e pedir edições pontuais é onde o 2.0 mostrou valor: irregularidades nas perfurações, resquício de dobradiça, vinco diagonal na goma, leve amarelamento e carimbo parcial.
As edições ficaram mais ou menos onde pedimos. O modelo introduziu uma regressão na proporção, mas um follow-up em linguagem simples resolveu. O resultado final não é nível forense — o "$1" parece um pouco esticado, o milho está diferente —, mas o ciclo funcionou: começo torto, ajuste de rota, resultado usável em três interações.

Testando renderização de texto multilíngue
Renderizar texto em sistemas de escrita não latinos tem sido um ponto fraco persistente em modelos de imagem, e a OpenAI aponta isso como uma correção central. O lançamento especifica geração de texto de alta fidelidade em japonês, coreano, chinês, hindi e bengali — não só traduzido, mas com diagramação coerente e tipografia com sensação nativa.
Um teste justo aqui é pedir um pôster ou infográfico com um bloco de texto em um desses sistemas e checar o resultado com um falante nativo. Pedimos ao modelo que criasse um pôster moderno de estilo de vida japonês anunciando uma cafeteria local fictícia e seu latte de flor de cerejeira da estação.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
Este foi o resultado:

Segundo nosso colega que fala japonês (valeu, Sven!), está bem melhor do que nos modelos anteriores, quando muitos caracteres saíam embaralhados. Este ficou mais natural e pode ser lido facilmente por nativos.
No modo de raciocínio, ele ainda adicionou frases além das instruções do prompt no pequeno quadro negro no canto inferior esquerdo. Elas se encaixam bem no contexto sem serem repetitivas, algo como: “Sabor delicado de temporada. Faça uma pausa relaxante — aproveite uma xícara que traz a primavera”.
Testando o modo de raciocínio e a busca na web
Tivemos que tomar cuidado ao testar as capacidades de busca na web, porque se você disser ao modelo o que quer no prompt, não está testando busca, e sim seguimento de instruções. O teste mais limpo é pedir algo muito recente e específico, dar quase nenhuma informação e ver se ele consegue preencher as lacunas corretamente.
Escolhemos a Maratona de Boston de ontem. A prova terminou na segunda-feira, 20 de abril — um dia antes do anúncio do ChatGPT Images 2.0 — e o recorde do percurso masculino foi quebrado pela primeira vez desde 2011. Isso nos dá um conjunto concreto de fatos (vencedor, país, tempo, margem, contexto) que o modelo não teria no treinamento, mas que são fáceis de verificar com uma busca rápida.
Aqui está o prompt, propositalmente sem detalhes. E dá para ver no resultado que o modelo realmente pesquisa na web!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

O resultado é visualmente muito atraente e segue o código de cores da Maratona de Boston, um bônus bacana. Todos os fatos mencionados estão corretos, o que conferimos e confirmamos.
Fica ainda mais impressionante quando comparamos com a saída do modelo antigo (Images 1.5) ou do novo modelo sem o modo de raciocínio, com o mesmo prompt:

Em termos de estilo, até compete, mas há vários problemas com números aqui.
- A prova marcou a 130ª edição da Maratona de Boston, então deveria dizer “129 anos de tradição”, não 127.
- A afirmação de que ele é o “3º corredor na história a correr abaixo de 2:04 em uma maratona” também é falsa. Cerca de 20 corredores já fizeram isso.
- Segundo o site da Boston Athletic Association, o tempo da segunda metade foi 1:00:02, não 1:01:05 (que ainda poderia ter sido a segunda metade mais rápida da história)
- Mais importante, o ChatGPT Images confundiu os tempos do recorde novo e antigo. O antigo era 2:03:02; o novo é 2:01:52. A diferença é de 1min10s.
- Como John Korir também venceu a Maratona de Boston no ano passado, parece razoável supor que o modelo não teria acertado o nome caso o vencedor fosse outro
As capacidades de busca fazem diferença ao apresentar informações atuais de forma visual. Para usá-las, o modo de raciocínio precisa estar ativado.
Testando amplitude de estilos
A OpenAI promete ganhos reais em sofisticação de estilo — em fotografia, ilustração, mangá, pixel art e outros. O teste honesto não é se uma imagem isolada fica boa, mas se o mesmo assunto, renderizado em três estilos diferentes, soa autêntico a cada gênero, ou se tudo volta com o mesmo “verniz de IA” por baixo.
Para testar, pedimos três versões diferentes de uma máquina de espresso sobre uma bancada de madeira (fotografia, mangá, pixel art). Aqui estão os prompts e os resultados:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Este foi um resultado interessante — e até irônico, considerando que o Image 1 ficou famoso por montagens ao estilo Studio Ghibli que todo mundo fazia um ano atrás (nós incluídos). Parece que a OpenAI está mais cuidadosa com direitos autorais e propriedade intelectual desde então.
Ao descrever o estilo de Katsuhiro Otomo sem citá-lo diretamente, funcionou. Um detalhe: precisamos abrir um novo chat para funcionar. No mesmo chat do prompt original, o modelo parecia perceber que estávamos tentando contornar o bloqueio.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Na nossa opinião, as três imagens ficaram ótimas e representam de forma autêntica os estilos específicos pedidos. A fotografia parece muito natural, e as outras duas versões poderiam ter saído direto de um mangá ou de um jogo de SNES, respectivamente.
Outro ponto que salta aos olhos no teste acima é como o modelo usou sua capacidade de proporções flexíveis para adequar cada imagem: um 16:9 horizontal para a foto, um retrato para a versão mangá e um quadrado para o pixel art.
Testando proporções flexíveis
O lançamento suporta proporções de 3:1 a 1:3 e resoluções de até 2K. A questão interessante não é se ele consegue produzir uma imagem alta ou larga — é se o modelo recompõe inteligentemente entre formatos ou apenas corta.
Para expor a lógica espacial do modelo, precisamos de uma cena com elementos distintos e inegociáveis em múltiplos eixos (algo alto, algo largo e um sujeito central).
Como teste, geramos nosso sujeito (um astronauta em um cenário específico) a partir de um prompt base, depois pedimos ao modelo para recriá-lo como papel de parede de celular, banner e quadrado, para ver como a composição se adapta.
O prompt base:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Vamos ver como muda:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Cada versão escolheu uma proporção adequada ao pedido, inclui todos os elementos importantes (astronauta, rover, planeta), os dispôs como pedimos no prompt original e garantiu o enquadramento correto. Teste aprovado.
Do rascunho bruto ao resultado polido
A proposta de “parceiro de raciocínio” depende de o modelo aceitar entradas vagas ou bagunçadas — um esboço tosco, um bullet list, algumas referências — e transformá-las em um ativo finalizado. É o ciclo em que o lançamento realmente aposta, e o que mais vale testar diretamente.
Para testar, enviamos o seguinte esboço a lápis, bem rudimentar, de um chalé perto do lago:

Para ficar mais difícil, ele contém vários detalhes, usa a palavra finlandesa para píer, “laituri”, e dá margem a confusão por conterdois tipos de construções (casa e chalé) e duas superfícies de água (lago e lagoa)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

O resultado sem o modo de raciocínio parece bom, mas não muito fotorrealista. Ainda assim, a iluminação bate bem e a imagem captura a vibe do prompt perfeitamente. Dá para ver quase todos os elementos do esboço. Alguns detalhes ficaram fora:
- Faltou o barco
- O píer ficou na lagoa, não no lago
- A posição do sol não está no canto superior direito
Quando testamos o mesmo prompt com o mesmo esboço no modo de raciocínio, o resultado ficou muito mais realista e corrigiu todas as pequenas imprecisões:

A imagem contém todos os elementos do esboço nas posições designadas e ficou bem caprichada. A principal conclusão aqui é usar o modo de raciocínio para ter os melhores resultados ao transformar esboços rústicos em imagens fotorrealistas.
Testando criatividade
No próximo teste, quisemos ver se ele conseguia recriar a poesia concreta de Niikuni Seiichi.
Este poema famoso mostra o kanji japonês para chuva, cercado por chuva — é como capturar a chuva na linguagem, é assim que vemos.

Aqui está nosso prompt:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
E aqui está a saída:

Este nos pareceu interessante. Ele não recriou a imagem exatamente, mas produziu algo intrigante. Na nova composição, o kanji de “chuva” não está cercado de chuva, e sim caindo como chuva. A composição dos símbolos parece bem aleatória — como se espera das gotas —, mas cria um bom contraste com o original, bastante ordenado.
Como acessar o ChatGPT Images 2.0?
O acesso segue o mesmo padrão do lançamento anterior. Mantém o espaço de criação dedicado introduzido em dezembro — editor em estilo de canvas, artefatos persistentes, predefinições de estilo — e substitui o modelo por outro significativamente mais capaz por baixo do capô.
- Web, app móvel e Codex: o ChatGPT Images 2.0 está disponível na aba Images para usuários Free, Plus e Pro, com limites de uso que escalam conforme o plano. O acesso para Business e Enterprise costuma vir após o lançamento inicial.
- API: desenvolvedores podem usar o novo modelo via OpenAI API e Azure OpenAI Service, pelos endpoints de geração e edição de imagens. Como no 1.5, a saída de imagem é precificada em tokens, e a regeneração parcial durante edições mantém os custos menores do que regenerar a imagem inteira a cada vez.
ChatGPT Images 2.0 vs. Nano Banana 2
Você pode estar se perguntando como o ChatGPT Images 2.0 se sai em relação ao Nano Banana 2. Ambos são recentes, são a experiência padrão em seus ecossistemas e são apresentados com foco em velocidade, raciocínio e inteligência sobre o mundo real.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Arquitetura subjacente |
GPT-Image-2 (sucessor do GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Modelo de edição |
Precisão: seleção de área e edição no local |
Raciocínio: conversacional e mascaramento inteligente |
|
Fluxo de trabalho |
Espaço de criação dedicado (aba Images) |
Integrado ao chat do Gemini |
|
Iteração |
Eficiente: regeneração parcial |
Rápido: 4–6s em 1K, ajustável via Thinking Mode |
|
Aderência ao mundo real |
Raciocínio embutido e conhecimento atualizado |
Image Search Grounding (busca referências ao vivo no Google Search) |
|
Consistência multipainel |
Forte em sequências e fichas de personagens |
Forte, com foco em consistência do sujeito |
|
Texto multilíngue |
Grande upgrade sobre o 1.5; amplo suporte a sistemas de escrita |
Forte, especialmente em chinês e layouts do leste asiático |
|
Resolução padrão |
Padrão + proporções flexíveis |
2K padrão no app Gemini |
|
Ecossistema |
OpenAI e Azure |
Pilha Google / Gemini, Search, Lens |
Quando usar ChatGPT Images 2.0 vs. Nano Banana 2
Use o ChatGPT Images 2.0 quando…
- Você precisa de um ciclo de edição guiado por referência. O modelo aceita uma imagem de referência e aplica mudanças direcionadas (detalhes de textura, correções de posição, ajustes de proporção) em várias interações, com follow-ups em linguagem natural direcionando o resultado sem recomeçar — e ainda economizando tokens
- Você vai transformar insumos rústicos em ativos finalizados. O modo de raciocínio resolve esboços vagos e instruções espaciais em composições precisas e fotorrealistas, com elementos posicionados exatamente como pretendido
- Acurácia factual dentro da imagem é crítica. A busca na web traz informações ao vivo e as renderiza corretamente dentro da própria imagem, tornando-o confiável para pôsteres de eventos, infográficos de notícias ou qualquer visual em que números e nomes precisam estar certos. Lembre-se de ativar o modo de raciocínio para habilitar a busca
Use o Nano Banana 2 quando…
- Você precisa inserir sujeitos ou locais reais específicos em uma cena. O Image Search Grounding puxa referências visuais ao vivo do Google, reconstruindo com precisão lugares específicos (até por coordenadas de GPS) e combinando-os com personagens consistentes em um único passo
- Você precisa manter identidade entre vários personagens e objetos no mesmo fluxo. O modelo suporta explicitamente até cinco personagens e quatorze referências no total (personagens + objetos) com consistência rígida. É uma ótima escolha para storyboards, fotos de produto ou narrativas com múltiplos personagens
- Você está construindo dentro do ecossistema Google. O Nano Banana é integrado nativamente ao chat Gemini, Google Search, Google Ads, Firebase e Vertex AI
Ambos são boas escolhas para renderização de texto dentro da imagem, amplitude de estilos e edição conversacional.
Considerações finais
A proposta de “parceiro visual de raciocínio” se sustenta — mas só com o modo de raciocínio ativado. Sem ele, o modelo sofre com lógica espacial e fotorrealismo; com ele, transforma entradas ambíguas em saídas que parecem colaboração, não mecânica. Duas áreas em que o modelo se destaca mesmo sem o modo de raciocínio são a autenticidade de estilo e a flexibilidade de proporção.
A busca na web parece ser o maior upgrade em relação ao Images 1.5. No teste da Maratona de Boston, vimos claramente essa diferença: o 2.0 acertou todos os fatos, enquanto o 1.5 não estava atualizado. Importante: a busca na web também só funciona no modo de raciocínio.
Um achado interessante foi que as barreiras de direitos autorais estão mais rígidas — e dá para perceber. Se você quiser recriar o estilo de uma empresa ou pessoa reconhecida, precisa dar o passo extra de identificar a essência do estilo e descrevê-la (o que, convenhamos, hoje é fácil de fazer).
No geral, o modelo é um avanço significativo em relação ao anterior e desafia o status do Nano Banana 2 como a principal ferramenta em geração e edição de imagens com IA.
Para tirar o máximo proveito dessas ferramentas, saber criar prompts é uma habilidade essencial. Recomendamos muito fazer nossos cursos Understanding Prompt Engineering e Prompt Engineering with the OpenAI API para uma base teórica e prática.


Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.


