Pular para o conteúdo principal

GPT-4o Geração de imagens: Um guia com 8 exemplos práticos

Saiba o que é a geração de imagens GPT-4o, como usá-la e descubra 8 exemplos práticos para você entender seus recursos.
Actualizado 27 de mar. de 2025  · 8 min de leitura

Como fotógrafo e interessado em arte em geral, sempre fico intrigado quando um novo modelo de geração de imagens é lançado. A geração de imagens GPT-4o da OpenAI da OpenAI realmente me surpreendeu.

Tenho ideias em minha mente que gostaria de expressar visualmente, mas às vezes acho difícil dar vida a elas. Fico esperando que apareça um modelo que possa preencher a lacuna entre a realidade e minha visão. O novo modelo pode ser exatamente essa ponte.

Neste artigo, mostrarei os recursos do novo modelo de geração de imagens da OpenAI por meio de oito exemplos práticos.

O que é a geração de imagens GPT-4o?

A geração de imagens do GPT-4o é um novo recurso do modelo GPT-4o que permite aos usuários criar imagens diretamente no ChatGPT. Esse recurso traz a geração de imagens nativas para a plataforma, tornando-a acessível para várias finalidades, como criatividade, educação e muito mais.

O lançamento representa um grande avanço em relação às tecnologias anteriores de geração de imagens, pois visa tornar a criação de imagens mais precisa, fácil de usar e útil em várias situações. Por exemplo, os usuários agora podem gerar imagens fornecendo instruções específicas, combinando imagens com texto ou até mesmo editando imagens por meio de instruções simples.

De modo geral, a geração de imagens GPT-4o pode ser usada para várias tarefas criativas, como criar histórias em quadrinhos, desenhar cartões comerciais, criar memes ou até mesmo criar materiais educacionais que expliquem tópicos complexos. Por exemplo, solicitei ao ChatGPT que resumisse o conteúdo dessa seção por meio de um infográfico:

geração de imagens gpt-4o

Exemplo de infográfico usando a geração de imagens GPT-4o

Como acessar a geração de imagens GPT-4o?

O recurso de geração de imagens GPT-4o está disponível como o gerador de imagens padrão no ChatGPT. De acordo com a OpenAI, ele está disponível para usuários Plus, Pro, Team e Free. No entanto, em minha experiência, não consegui fazer com que funcionasse em meu plano gratuito e, mais tarde, a OpenAI confirmou que o acesso ainda não está disponível no plano gratuito devido à alta demanda.

Os desenvolvedores terão a oportunidade de gerar imagens com o GPT-4o por meio da API nas próximas semanas.

Você pode criar imagens com o GPT-4o selecionando o modelo GPT-4o e fornecendo um prompt de texto descrevendo o que você deseja que ele gere.

Geração de uma imagem com a geração de imagens GPT-4o

Você também pode continuar conversando para solicitar alterações:

Edição de uma imagem com o GPT-4o

Exemplos de geração de imagens GPT-4o

Agora que já falamos sobre como usar o modelo, vamos demonstrar o que ele pode fazer por meio de oito exemplos práticos.

A OpenAI afirma que esse novo modelo não gera apenas imagens bonitas. Ele é capaz de gerar imagens que são realmente úteis no mundo real. Na minha opinião, para que um modelo de geração de imagens seja realmente útil, ele deve ser capaz de modificar imagens existentes ou aplicar estilos existentes de forma consistente.

Em situações da vida real, geralmente não queremos uma imagem do zero. Em vez disso, temos um estilo e queremos gerar uma imagem nesse estilo, ou temos uma foto e precisamos modificá-la de alguma forma. Aqui estão alguns exemplos:

  • O proprietário de uma cafeteria que deseja publicar uma foto de marketing não quer uma imagem de uma cafeteria aleatória - ele quer uma foto de sua cafeteria.
  • Se eu estiver usando IA para criar uma história visual, preciso ser capaz de manter um personagem consistente em toda a história. Não adianta nada se as imagens não forem consistentes.
  • Como fotógrafo, não tenho interesse em gerar uma imagem do zero que não exista na vida real. Em vez disso, quero poder editar uma fotografia existente.

1. Texto

Já vimos no exemplo do logotipo que o GPT-4o pode gerar texto em imagens. A geração de texto autônomo é provavelmente o exemplo mais fácil.

Para testar isso ainda mais, tentei gerar texto em um objeto:

Exemplo de como o GPT-4o lida com texto em um objeto

Esse exemplo mostra dois recursos importantes:

  1. O modelo é capaz de gerar texto sobre um objeto de forma consistente com a forma do objeto.
  2. O modelo pode entender cores e seguir um esquema de cores.

Para levar o modelo adiante, pedi que ele gerasse um texto mais longo e o exibisse na imagem de forma legível. Aqui está o resultado:

Exemplo de texto mais complexo

Fiquei impressionado com isso. Outros modelos que experimentei no passado não realizaram essa tarefa tão bem.

2. Transparência

O GPT-4o é capaz de gerar imagens com áreas transparentes. Isso é especialmente útil para imagens que devem ser sobrepostas a outro conteúdo, como adesivos de personagens de um jogo.

Tirei uma foto minha e pedi ao GPT-4o que criasse um personagem de pixel art com base nela. Aqui está o resultado:

Geração de caracteres e manipulação de transparência

Observe que ele não gerou um plano de fundo transparente por padrão, mas solicitá-lo funcionou bem e não alterou o resultado original.

3. Consistência de caracteres

Com base na conversa anterior, tentei gerar uma cena usando o personagem de pixel art que eu havia gerado. Esse foi o resultado:

Consistência de caracteres com a geração de imagens GPT-4o

O personagem nesta imagem tem uma resolução diferente da original. Ela tem mais detalhes, portanto, parece que o GPT-4o gera um novo personagem com base na foto, em vez de usar o personagem criado anteriormente.

O resultado ainda é bom, mas não pode ser usado em um jogo porque precisamos que os dois personagens sejam mais consistentes. Nesse estágio, é melhor que você o use como inspiração para um artista de pixels do que como um resultado final em si.

4. Criar uma história detalhada

Em seguida, eu queria criar uma história em quadrinhos para contar a história de como tirei uma foto da paisagem urbana de Taipei há alguns meses. Usei isso para testar como o GPT-4o lida com a geração de uma imagem a partir de instruções detalhadas.

Comecei pedindo ao modelo que gerasse um personagem de história em quadrinhos baseado em mim. Em seguida, forneci os detalhes de cada quadro da história em quadrinhos. 

Geração de imagens com instruções complexas

O primeiro resultado foi próximo do que eu queria, mas não totalmente preciso. Além disso, senti novamente que o modelo gerou um novo personagem em vez de usar o primeiro que ele gerou.

No entanto, fiquei muito satisfeito com o resultado depois que minhas alterações foram solicitadas. Foi uma sensação interessante ver aquela noite ganhar vida como uma história em quadrinhos.

Ajuste de partes de uma imagem

Eu particularmente adorei o fato de ele ter conseguido imitar a foto no último quadro. Acho que isso elevou o resultado.

5. Edição de fotos

Em seguida, tentei a edição de fotos. Há alguns meses, eu estava viajando de volta para a Europa e tirei uma foto antes de embarcar no avião. Infelizmente, havia um reflexo incômodo na janela porque tirei a foto de dentro. Tentei usar o Photoshop para removê-lo, mas não consegui.

Tentei novamente usando o GPT-4o e funcionou muito bem.

edição de fotos com geração de imagens GPT-4o

Aqui estão alguns outros exemplos de edição de uma foto usando o GPT-4o:

Mais exemplos de edição de fotos com o GPT-4o

Novamente, não é perfeito, mas ainda assim é muito bom. No primeiro exemplo, as pessoas foram removidas, mas o edifício na parte de trás foi modificado. As fotos noturnas são bonitas, mas um pouco escuras demais.

Outro detalhe interessante é que, devido ao aspecto de conversação do GPT-4o, ele tende a aplicar as novas alterações à imagem mais recente. Nesse caso, quando solicitei a chuva, eu esperava que ela modificasse a imagem original, não a imagem noturna. 

Você pode contornar isso especificando a imagem no prompt ou iniciando uma nova conversa.

6. Classificação de cores

A maior parte da minha edição de fotos consiste em ajustar as cores, não em modificar o conteúdo da foto.

Eu estava curioso para ver se o GPT-4o era bom na gradação de cores, então experimentei a gradação de cores em uma de minhas fotos. Um dos meus filmes favoritos é Blade Runner 2049, e eu gosto da estética geral do filme, então quis ver se o GPT-4o poderia colorir uma de minhas fotos urbanas nesse estilo. Aqui está o resultado:

Graduação de cores com geração de imagens gpt-4o

Adorei o resultado. Isso me poupou muito tempo em comparação com a edição pessoal. Também gosto muito do fato de que ele preservou (principalmente) a integridade da imagem.

Neste exemplo, descrevemos textualmente o resultado desejado. Também tentei fornecer a ele uma imagem de amostra com uma paleta de cores para ver se ele poderia classificar a cor da minha foto nesse estilo. Na minha opinião, ele fez um ótimo trabalho.

Ajuste de cores com estilo de imagem

7. Infográficos e diagramas

Um infográfico é uma representação visual de informações ou dados criados para facilitar a compreensão rápida de ideias complexas. Até o momento, não vi um modelo que possa produzir infográficos úteis.

Vamos testar o GPT-4o pedindo que ele gere um infográfico explicando por que há tantos terremotos em Taiwan.

Infográficos sobre a geração de imagens GPT-4o

O primeiro resultado foi bastante impreciso, pois tanto a localização quanto a ortografia de Taiwan estão incorretas. Pedi que ele consertasse o problema e obtive um resultado melhor. No entanto, o novo resultado ainda não é perfeito porque o final da explicação é cortado.

Isso mostra que o modelo ainda não é perfeito. No entanto, vi muitos exemplos on-line em que ele se saiu muito bem nessa tarefa.

Como educador on-line, frequentemente preciso criar diagramas para meu conteúdo. Tentei pedir ao GPT-4o que gerasse diagramas para mim, mas não consegui encontrar um bom resultado. Aqui está o que recebi quando solicitei um diagrama que ilustrasse o Merge Sort. O diagrama captura a ideia correta, mas todos os detalhes estão incorretos.

Diagrama sobre a geração de imagens GPT-4o - resultado incorreto 

No geral, acho que essa é uma área em que esses modelos ainda precisam de muitas melhorias.

8. Adicionar elementos a uma imagem existente

Por fim, tentei modificar uma foto existente adicionando elementos a ela. Neste exemplo, tenho uma foto de dentro de uma loja de chá e pedi que você desenhasse uma xícara de chá sobre a tabela:

Adicionando objetos a uma imagem com o GPT-4o

Eu já havia tentado gerar essa imagem do zero usando o DALL-E antes, mas, em todas as vezes, a aparência geral da imagem não era muito realista. A possibilidade de adicionar elementos a uma fotografia real facilita muito a obtenção do resultado que eu estava buscando.

Conclusão

Neste artigo, exploramos os novos e interessantes recursos da geração de imagens do GPT-4o e seus notáveis recursos. Por meio de oito exemplos práticos, descobrimos como esse modelo pode criar texto em imagens, lidar com transparência e manter a consistência dos caracteres. Cada recurso ilustrou a versatilidade e a eficácia do GPT-4o para dar vida a visões criativas.

Acho que ainda há muito espaço para melhorar quando se trata de infográficos e diagramas. As imagens geradas nesses casos são coerentes com os prompts, mas carecem de precisão e consistência factual.

Há muito tempo eu não ficava tão empolgado com um lançamento de IA. Em minha opinião, o GPT-4o é um verdadeiro divisor de águas no campo da geração de imagens. Estou animado para fazer mais experiências com ele e já tenho várias ideias que mal posso esperar para explorar e dar vida a elas.

Temas

Aprenda IA com estes cursos!

Programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Os 10 melhores GPTs personalizados na GPT Store

Explore os melhores GPTs personalizados que vimos até agora na loja GPT, desde ferramentas de ciência de dados até assistentes de SEO e geração de imagens.
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

10 min

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

11 min

Tutorial

Como criar modelos personalizados do ChatGPT: 5 etapas fáceis para GPTs personalizados

Confira estas cinco etapas simples para liberar todo o potencial do ChatGPT com seus próprios GPTs personalizados.
Moez Ali's photo

Moez Ali

9 min

Ver maisVer mais