Sim. O GPT-Image-1.5 está disponível na API OpenAI e inclui as mesmas melhorias do chatGPT Images. As entradas e saídas de imagem são cerca de 20% mais baratas do que o GPT Image 1, o que o torna ideal para aplicações como marketing, comércio eletrônico e fluxos de trabalho de design.
A corrida pelas melhores ferramentas de criação de imagens entrou em uma nova fase mais uma vez: Menos de um mês depois do Google lançar o Nano Banana Pro, a OpenAI lançou sua resposta, o chatGPT Images.
O lançamento junta um novo espaço de trabalho de imagens no chatGPT com um modelo de nova geração, o GPT-Image-1.5. Isso mostra que o chatGPT não vê mais a geração de imagens como um complemento, mas sim como um recurso principal que está totalmente integrado à experiência do usuário. Entre outras melhorias, o modelo promete uma forte preservação dos detalhes e uma geração mais rápida.
Neste artigo, vou falar sobre todos os principais recursos anunciados pela OpenAI, comparar o chatGPT Images com seus concorrentes e dar exemplos práticos para mostrar as capacidades do novo modelo.
Você quer começar a usar a IA generativa?
Saiba como trabalhar com LLMs em Python diretamente em seu navegador

O que é o chatGPT Images?
A nova guia Imagens do chatGPT funciona como um centro criativo para tudo o que é visual na interface do usuário do chatGPT e substitui a biblioteca de imagens pessoal. A mudança mais notável é a integração de ferramentas de edição direta que permitem selecionar detalhes específicos dentro de uma imagem, mantendo todos os outros detalhes intactos.
O chatGPT Images é alimentado pelo GPT-Image-1.5, o mais recente e avançado modelo de IA de texto para imagem da OpenAI. Baseia-se no lançamento do modelo GPT-Image-1 em março de 2025, que foi um grande sucesso com mais de 700 milhões de imagens geradas na primeira semana.
Ele oferece preservação de detalhes e melhor renderização de texto, e é considerado “até 4 vezes” mais rápido que o modelo anterior.
Os novos recursos foram lançados para todos os usuários, tanto gratuitos quanto pagos, na web, na interface do usuário móvel e na API. Só as contas Business e Enterprise ainda precisam esperar para ter acesso.
Principais recursos do chatGPT Imagens
Então, o que o chatGPT Images tem a oferecer em comparação com o modelo anterior e com a concorrência? A OpenAI está promovendo especialmente “edições precisas que preservam o que é importante”. Vamos dar uma olhada nos novos recursos para ver o que eles significam.
Espaço de trabalho criativo dedicado
A aba Imagens foi lançada como um centro de criação visual dentro da interface do usuário do chatGPT. A ideia é separar a criação e edição de imagens das interações normais de bate-papo.
Embora o recurso Biblioteca anterior também armazenasse todas as imagens geradas, ele só permitia voltar à conversa em que elas foram criadas. Ele usava o contexto de todo o histórico de conversas para criar uma nova imagem do zero, o que muitas vezes levava a alucinações em tópicos mais longos.
A nova abordagem, no entanto, é mais focada na imagem: Cada edição usa uma imagem como ponto de partida e só altera alguns aspectos selecionados dela, em vez de criar uma imagem totalmente nova.
As imagens são coisas que ficam por aí, não são enterradas no histórico de conversas. Isso permite ciclos de feedback mais rápidos com novas variações e incentiva a experimentação, transformando efetivamente a experiência de um tópico de bate-papo para uma tela em branco.
Para impulsionar esse fluxo criativo, o espaço de trabalho traz novas ferramentas de exploração para diminuir a distância entre a ideia e a execução. Os usuários podem usar predefinições de estilo integradas (como “esboço” ou “dramático”) ou dar uma olhada nas tendências estéticas para pegar o próximo “Studio Ghibli.” Para quem tá começando, a interface oferece sugestões criativas e ajuda proativa pra dar um toque especial nos resultados.

Preservação de detalhes e edição precisa
Como a novidade mais importante, a atualização permite que os usuários escolham partes específicas de uma imagem e as modifiquem diretamente, sem mexer no resto da composição. O modelo é sensível ao contexto, ou seja, ele entende o que deve ser editado, mantendo os elementos ao redor consistentes.
Esse tipo de edição precisa é possível graças às habilidades aprimoradas de preservação de detalhes do novo modelo.
É capaz de manter objetos, iluminação, composição e aparência das pessoas consistentes em todas as saídas e edições subsequentes. Além disso, melhorar o acompanhamento das instruções ajuda a aumentar a precisão, pois ajuda a manter melhor as relações entre os elementos.
A edição de precisão é perfeita para corrigir pequenos problemas e experimentar detalhes específicos quando não é necessária uma geração completa. Também permite transformações criativas, como pegar um elemento de uma imagem e colocá-lo na cena de outra.
Mas, vale a pena dizer que o modelo tem dificuldade em manter a identidade exata de cada pessoa quando tem muita gente em uma única imagem.
Renderização de texto aprimorada e realismo
Uma das principais características do modelo anterior, o GPT-Image-1, era a capacidade de lidar com textos mais longos e frases coerentes. A nova versão se baseia nessa fundação e agora é capaz de lidar com textos mais densos e menores do que antes.
Isso é super útil pra infográficos, onde os primeiros resultados são bem impressionantes, e abre novas possibilidades, tipo marcar texto numa imagem, por exemplo, num jornal. Vamos fazer um teste de infográficos mais tarde.
Mas, de acordo com o comunicado da OpenAI, as limitações em relação a algumas línguas específicas, como chinês, árabe e hebraico, parecem continuar.
Mesmo que não fosse o foco principal da atualização, o realismo da saída melhorou bastante em comparação com o modelo anterior. Dois casos em que isso fica bem claro são reflexos, tipo o brilho em uma foto, e muitos rostos pequenos em grandes multidões.
Como sempre, grandes atualizações vêm com algumas desvantagens em áreas específicas. Nesse caso, a capacidade de criar alguns estilos artísticos específicos diminuiu. A OpenAI recomenda usar filtros pré-definidos na aba Imagens ou recorrer ao modelo anterior , que ainda está disponível como um GPT personalizado.
Desempenho acelerado
Os recursos de edição direcionada também são a principal razão para o aumento na velocidade de geração. Embora a geração completa de imagens seja visivelmente mais rápida, ela não chega a atingir o que a OpenAI diz na nota de lançamento. O GPT-Images-1.5 parece “até 4 vezes mais rápido” principalmente porque só regenera o que muda durante as edições.
Da mesma forma, o custo da API cerca de 20% mais baixo vem principalmente da regeneração parcial da imagem durante as edições, com ganhos adicionais decorrentes de uma inferência mais eficiente, em vez de gerações completas mais baratas.
No geral, os novos recursos permitem um uso mais eficiente e confiável, especialmente para fluxos de trabalho de API.
Exemplos de imagens do chatGPT
Os recursos anunciados parecem bem legais. Eu testei usando algumas instruções simples junto com a nova ferramenta de seleção.
Testando a precisão da edição
O objetivo do meu primeiro teste foi ver se o modelo conseguia lidar com mudanças repetidas sem perder a qualidade. Primeiro, pedi pra ele criar uma imagem de um urso pardo andando por uma floresta finlandesa durante o sol da meia-noite.

Prompt: Um urso pardo andando por uma floresta finlandesa bem densa durante o sol da meia-noite.
Na minha opinião, a qualidade do primeiro resultado é muito boa. O urso parece natural, os tipos de árvores e arbustos representam muito bem as florestas finlandesas (eu sei disso!), e a posição baixa do sol está de acordo com o que se pode esperar no norte da Finlândia durante o sol da meia-noite.
Além disso, a iluminação e as sombras no pelo do urso, assim como no fundo, parecem bem realistas. Ainda dá pra perceber que é IA, de alguma forma, mesmo que os detalhes sejam legais.
Vamos tentar transformar o urso em um urso polar e ver o que rola. Não tem ursos polares na Finlândia, mas se tudo der certo, o fundo deve continuar igual.

Prompt: Muda o urso para um urso polar.
Como dá pra ver, o fundo ficou totalmente intacto, exatamente como era a ideia.
Na minha próxima edição, selecionei a cabeça e os olhos do urso polar e coloquei nele um par de óculos de sol vintage.

Prompt: Coloque um par de óculos de sol vintage no urso. (cabeça selecionada)
Parece que descobrimos o que rola quando você escolhe uma área muito grande. Enquanto o fundo da imagem e o corpo do urso continuam iguais, a cabeça dele virou um grande par de óculos escuros. Vamos tentar de novo, selecionando só os olhos dele.

Prompt: Coloque um par de óculos de sol vintage no urso. (olhos selecionados)
Muito legal e, com certeza, muito melhor! Neste primeiro teste, pudemos ver como o recurso de preservação de detalhes é realmente poderoso: Só precisávamos falar os detalhes importantes sobre o cenário uma vez e podíamos repetir sobre nosso personagem principal sem ter que se preocupar com o fundo. Outra conclusão importante do teste é que o tamanho da janela de seleção é importante.
Testando a consistência da transformação
Depois, testei a permanência dos objetos em diferentes cenários e as limitações do modelo em relação a grandes multidões. Para isso, deixei nosso urso polar viajar um pouco e tentei colocá-lo em uma cena movimentada do metrô de Tóquio.

Prompt: Coloque esse urso em uma cena bem movimentada do metrô de Tóquio.
Primeiro, a consistência do personagem é incrível: o modelo manteve perfeitamente a postura e a identidade do urso, e tirou o brilho do sol do pelo dele.
Mas essa preservação rígida causou uma desconexão visual conhecida como “efeito adesivo”. Como o modelo não atualizou o contexto de iluminação (mantendo a sombra direcional e os reflexos da floresta nos óculos de sol), o urso parece um recorte 2D colado na cena, em vez de um objeto 3D que faz parte dela.
A perspectiva quebra ainda mais a ilusão: o urso flutua na frente de um espectador que está fisicamente mais perto da câmera.
Tentar resolver o último problema foi bem frustrante. Selecionei a área do espectador e sua intersecção com o urso e pedi ao chatGPT para corrigir a perspectiva. Para cada variação, o modelo colocou uma nova pessoa perto da câmera, assim:

Prompt: Corrija a perspectiva: As costas da pessoa escolhida estão em primeiro plano e devem esconder um pouco o urso. O urso está atrás das costas da pessoa.
Parece que o modelo não conseguiu identificar a pessoa, mesmo quando selecionada, e por isso precisou que o novo personagem seguisse o comando no prompt.
Consertar a sombra e os reflexos dos óculos de sol deu mais certo. Usei as seguintes iterações:
- Sombra: Selecione o piso ao redor dos pés do urso e solicite “Em vez da sombra atual, projete uma sombra suave e difusa no piso de azulejos do metrô, consistente com a iluminação fluorescente do teto”.
- Óculos de sol: Escolha os óculos de sol e diga “Atualize os reflexos dos óculos de sol para combinar com o ambiente do metrô”.

Nosso urso polar no metrô de Tóquio depois de corrigir a sombra e os reflexos dos óculos escuros
Já está bem melhor, mas ainda não está perfeito.
No geral, o segundo teste não foi tão bem-sucedido quanto o primeiro. Embora a consistência dos elementos em diferentes imagens pareça estar funcionando bem, o reconhecimento de caracteres parece atingir seus limites em ambientes lotados.
Testando a renderização do texto
Por fim, eu queria testar os novos recursos de renderização de texto, principalmente quando se trata de textos densos e edições. Melhorias na renderização de texto seriam bem-vindas porque, historicamente, os modelos de visão têm sido melhores em objetos, texturas e cenas, e não em símbolos.
Pedi ao chatGPT um layout complexo para um infográfico sobre o ciclo de vida de uma estrela:

Prompt: Um infográfico horizontal explicando o “Ciclo de Vida de uma Estrela”. Três seções: Nebulosa, Sequência Principal, Buraco Negro. Use o estilo vetorial plano.
A saída segue as instruções direitinho e mostra o texto sem erros. O estilo é preciso e consistente em todo o infográfico.
A multimodalidade da saída do chatGPT nos obriga a ser precisos quando se trata de inserir texto. Quando pediu pra adicionar um ponto “aqui” (em uma área selecionada na imagem), ele só colocou o ponto como texto. Adicionar o esclarecimento “à imagem” resolveu o problema:

Prompt: Adicione um ponto à imagem aqui que diga: “Dura bilhões de anos.”
Depois do esclarecimento, o ponto foi colocado no lugar certo. A fonte, o tamanho e a cor combinam com o estilo do gráfico.
Como posso acessar as imagens do chatGPT?
O chatGPT Images já tá disponível pra quase todos os usuários em várias plataformas. Só falta o suporte para usuários dos níveis Business e Enterprise, que vai chegar mais tarde.
Na interface do usuário, você pode acessar os recursos imediatamente na interface do usuário da web ou no aplicativo móvel do chatGPT através da guia Imagens. Embora os números exatos não sejam conhecidos, limites diários rigorosos se aplicam às contas gratuitas e franquias progressivamente mais altas e estáveis nos planos Plus e Pro.
Para desenvolvedores, o novo modelo GPT-Image-1.5 pode ser usado tanto pela API OpenAI quanto pelo Serviço Azure OpenAI, onde está disponível para geração e edição de imagens. Embora a gente espere ver o modelo integrado em grandes pacotes criativos de terceiros em breve, os desenvolvedores já podem criar fluxos de trabalho de edição diretamente em seus próprios aplicativos usando os endpoints v1/images/generations e v1/images/edits.
Diferente do que acontecia antes, o GPT-Image-1.5 mostra a saída de imagem como tokens com preços separados, usando pontos finais de API específicos para imagens em vez do /v1/responses unificado. Você só paga pelos tokens necessários para gerar as alterações, em vez de pagar por uma imagem totalmente nova a cada vez.
É por isso que dizem que o novo modelo é cerca de 20% mais barato que o anterior, embora os preços por token não mudaram em relação ao GPT-Image-1.
As imagens do chatGPT são boas?
O GPT-Image-1.5 logo ficou no topo da LMArena e ArtificialAnalysis, deixando o Nano Banana Pro em segundo lugar. Como não há dados de referência disponíveis no momento, precisamos confiar nessas classificações baseadas em votos para uma classificação objetiva.

Parafraseando um famoso astronauta: O GPT-Image-1.5 é um pequeno passo para a indústria, mas um grande salto para a OpenAI.
Embora a edição precisa não seja algo totalmente novo, trazê-la nativamente para o chatGPT marca a maior mudança nesta versão. Mas, a precisão é fundamental: lembre-se de escolher só as áreas necessárias pra evitar erros como o “urso polar sem cabeça” que apareceu nos testes.
Pela minha experiência, a atualização traz uma melhora significativa na qualidade, o que também aparece nas classificações do placar. As imagens padrão parecem mais vivas e os infográficos parecem bem menos simplificados do que antes.
Agora, os usuários têm muito mais controle sobre cada resultado, trocando o jeito antigo de criar avisos de acompanhamento complicados e torcer para que tudo desse certo. Isso é porque a preservação dos detalhes funciona muito bem. Em todos os nossos testes, ele manteve os elementos totalmente intactos.
A consistência dos caracteres é forte, mas os usuários devem ficar atentos ao “efeito adesivo” e a questões de perspectiva lógica. Embora as edições direcionadas facilitem a correção desses problemas, ainda existem limitações em cenas com muitas pessoas.
Imagens do chatGPT vs. Nano Banana Pro
O líder atual que o chatGPT Images precisa superar é claramente o Nano Banana Pro do Google. A tabela a seguir compara os dois modelos:
|
Imagens do chatGPT |
Nano Banana Pro |
|
|
Modelo de edição |
Precisão: Seleção de área e edição no local |
Raciocínio: Mascaramento conversacional e inteligente |
|
Fluxo de trabalho |
Espaço de trabalho criativo dedicado |
Recurso de bate-papo integrado |
|
Iteração |
Eficiente: Regeneração parcial |
Exploratório: Remixagem |
|
Consistência |
Alta retenção de layout e detalhes |
Alta retenção de layout e detalhes |
|
Ecossistema |
OpenAI e Azure |
Google / Pilha Gemini |
Embora tanto o GPT-Image-1.5 quanto o Nano Banana Pro ofereçam resultados excelentes, os dois modelos têm filosofias de edição, fluxos de trabalho e foco no cliente diferentes.
O chatGPT Images foca no isolamento perfeito dos pixels, que tem sua força no controle manual: Você pode escolher uma área específica, e ela vai tratar essa seleção como uma tela para pintar, enquanto o resto da imagem fica bloqueado. Já o Nano Banana Pro tenta entender o que você está tentando fazer para fazer as mudanças certas.
Em relação ao fluxo de trabalho, as duas empresas também escolheram caminhos diferentes: A aba Imagens no chatGPT parece um estúdio criativo, separado das conversas, enquanto o Nano Banana Pro está totalmente integrado ao fluxo do chat.
Quando usar o chatGPT Imagens vs. Nano Banana Pro
Eu sugiro usar o chatGPT Images se você precisar ajustar layouts, editar texto ou fazer alterações precisas em uma imagem existente sem mudar o estilo. Escolha o Nano Banana Pro se você precisar criar imagens com muitos dados, misturar várias fotos ou se preferir que um assistente inteligente adivinhe o que você quer fazer em vez de controlar tudo manualmente.
Usando as mesmas instruções acima, recriei as imagens de teste. Pessoalmente, gostei mais dos infográficos do Nano Banana Pro, enquanto as imagens dos ursos estavam no mesmo nível.

Prompt: Um infográfico horizontal explicando o “Ciclo de Vida de uma Estrela”. Três seções: Nebulosa, Sequência Principal, Buraco Negro. Use o estilo vetorial plano. (Nano Banana Pro)
Casos de uso do chatGPT Images
Com base nos nossos testes práticos e nos pontos fortes específicos do GPT-Image-1.5, o modelo se destaca quando se trata de processos iterativos e edição de texto. Aqui estão alguns dos principais casos de uso:
- Fluxo de trabalho de marketing: Criar anúncios nas redes sociais ou fotos de produtos em que detalhes específicos podem mudar (por exemplo, “Trocar a cor da blusa de vermelho para azul”).
- Infográficos educativos: Criando diagramas para livros didáticos, apresentações ou blogs, como nosso exemplo do “ciclo de vida de uma estrela”.
- Criação do storyboard: Imaginando um roteiro ou história em quadrinhos onde o mesmo personagem precisa aparecer em lugares diferentes.
- Moda: Usando a criação de conteúdo híbrido para ver combinações de roupas, tipo neste tutorial do visualizador de guarda-roupa tutorial do visualizador de guarda-roupa FLUX.2
- Design de interiores: Juntar um esboço ou foto com dicas para redecorar os cômodos com um certo estilo
- Maquetes de UI/UX: Visualizar rapidinho como pode ser a página inicial de um site ou a embalagem de um produto novo
Considerações finais
Desde o lançamento do Nano Banana Pro, a OpenAI tem estado sob muita pressão para acompanhar o ritmo. Com essa atualização promissora, eles estão de volta na corrida pelo modelo de IA de texto para imagem mais capaz. Não é perfeito, mas se você focar no essencial, tipo uma tipografia nítida e uma edição precisa, dá pra conseguir bons resultados. Pra começar, dá uma olhada no recurso na sua interface do chatGPT ou no OpenAI Playground. Pra se inspirar, dá uma olhada na galeria e o guia rápido.
Se você quer começar a criar ferramentas usando modelos GPT, nosso Fundamentos da OpenAI é ideal para você.
Perguntas frequentes
Que tipos de edições de imagem o chatGPT Images consegue fazer?
O chatGPT Images dá suporte a edições precisas, como adicionar, remover, combinar, misturar e transformar elementos. Ele foi feito pra mudar só o que você pedir, mantendo detalhes importantes como iluminação, composição, semelhança facial e consistência geral da cena.
Em que o GPT-Image-1.5 é melhor do que o modelo de imagem anterior?
Comparado com o GPT Image 1.0, o GPT-Image-1.5 segue as instruções de forma mais confiável, mantém detalhes visuais importantes ao longo de várias edições, renderiza textos densos e pequenos com mais precisão e produz imagens com aparência mais natural. Também é mais rápido e mais econômico na API.
O chatGPT Images tá disponível pra todo mundo?
O novo modelo chatGPT Images está sendo lançado globalmente para todos os usuários do chatGPT e usuários da API. O novo espaço de criação de imagens no chatGPT já está disponível para a maioria dos usuários, com acesso para Business e Enterprise chegando mais tarde.
Os desenvolvedores podem usar o novo modelo de imagem pela API?

Cientista de dados e escritor com experiência em direito tributário, contabilidade e ciências sociais. Eu curto escrever tutoriais de programação e juntar meus interesses pessoais com IA, seja pra prever resultados de jogos de futebol ou desenvolver ferramentas de planejamento de viagens com IA. Sou sempre curioso e aberto a novas ideias, principalmente quando se trata de resolver problemas com a ajuda da ciência de dados — embora, é verdade, a maioria dos desafios do dia a dia ainda esteja a salvo do machine learning.



