Programa
Como fotógrafo e interessado em arte em geral, sempre fico intrigado quando um novo modelo de geração de imagens é lançado. A geração de imagens GPT-4o da OpenAI da OpenAI realmente me surpreendeu.
Tenho ideias em minha mente que gostaria de expressar visualmente, mas às vezes acho difícil dar vida a elas. Fico esperando que apareça um modelo que possa preencher a lacuna entre a realidade e minha visão. O novo modelo pode ser exatamente essa ponte.
Neste artigo, mostrarei os recursos do novo modelo de geração de imagens da OpenAI por meio de oito exemplos práticos.
O que é a geração de imagens GPT-4o?
A geração de imagens do GPT-4o é um novo recurso do modelo GPT-4o que permite aos usuários criar imagens diretamente no ChatGPT. Esse recurso traz a geração de imagens nativas para a plataforma, tornando-a acessível para várias finalidades, como criatividade, educação e muito mais.
O lançamento representa um grande avanço em relação às tecnologias anteriores de geração de imagens, pois visa tornar a criação de imagens mais precisa, fácil de usar e útil em várias situações. Por exemplo, os usuários agora podem gerar imagens fornecendo instruções específicas, combinando imagens com texto ou até mesmo editando imagens por meio de instruções simples.
De modo geral, a geração de imagens GPT-4o pode ser usada para várias tarefas criativas, como criar histórias em quadrinhos, desenhar cartões comerciais, criar memes ou até mesmo criar materiais educacionais que expliquem tópicos complexos. Por exemplo, solicitei ao ChatGPT que resumisse o conteúdo dessa seção por meio de um infográfico:

Exemplo de infográfico usando a geração de imagens GPT-4o
Como acessar a geração de imagens GPT-4o?
O recurso de geração de imagens GPT-4o está disponível como o gerador de imagens padrão no ChatGPT. De acordo com a OpenAI, ele está disponível para usuários Plus, Pro, Team e Free. No entanto, em minha experiência, não consegui fazer com que funcionasse em meu plano gratuito e, mais tarde, a OpenAI confirmou que o acesso ainda não está disponível no plano gratuito devido à alta demanda.
Os desenvolvedores terão a oportunidade de gerar imagens com o GPT-4o por meio da API nas próximas semanas.
Você pode criar imagens com o GPT-4o selecionando o modelo GPT-4o e fornecendo um prompt de texto descrevendo o que você deseja que ele gere.

Você também pode continuar conversando para solicitar alterações:

Exemplos de geração de imagens GPT-4o
Agora que já falamos sobre como usar o modelo, vamos demonstrar o que ele pode fazer por meio de oito exemplos práticos.
A OpenAI afirma que esse novo modelo não gera apenas imagens bonitas. Ele é capaz de gerar imagens que são realmente úteis no mundo real. Na minha opinião, para que um modelo de geração de imagens seja realmente útil, ele deve ser capaz de modificar imagens existentes ou aplicar estilos existentes de forma consistente.
Em situações da vida real, geralmente não queremos uma imagem do zero. Em vez disso, temos um estilo e queremos gerar uma imagem nesse estilo, ou temos uma foto e precisamos modificá-la de alguma forma. Aqui estão alguns exemplos:
- O proprietário de uma cafeteria que deseja publicar uma foto de marketing não quer uma imagem de uma cafeteria aleatória - ele quer uma foto de sua cafeteria.
 
- Se eu estiver usando IA para criar uma história visual, preciso ser capaz de manter um personagem consistente em toda a história. Não adianta nada se as imagens não forem consistentes.
 
- Como fotógrafo, não tenho interesse em gerar uma imagem do zero que não exista na vida real. Em vez disso, quero poder editar uma fotografia existente.
 
1. Texto
Já vimos no exemplo do logotipo que o GPT-4o pode gerar texto em imagens. A geração de texto autônomo é provavelmente o exemplo mais fácil.
Para testar isso ainda mais, tentei gerar texto em um objeto:

Esse exemplo mostra dois recursos importantes:
- O modelo é capaz de gerar texto sobre um objeto de forma consistente com a forma do objeto.
 - O modelo pode entender cores e seguir um esquema de cores.
 
Para levar o modelo adiante, pedi que ele gerasse um texto mais longo e o exibisse na imagem de forma legível. Aqui está o resultado:

Fiquei impressionado com isso. Outros modelos que experimentei no passado não realizaram essa tarefa tão bem.
2. Transparência
O GPT-4o é capaz de gerar imagens com áreas transparentes. Isso é especialmente útil para imagens que devem ser sobrepostas a outro conteúdo, como adesivos de personagens de um jogo.
Tirei uma foto minha e pedi ao GPT-4o que criasse um personagem de pixel art com base nela. Aqui está o resultado:

Observe que ele não gerou um plano de fundo transparente por padrão, mas solicitá-lo funcionou bem e não alterou o resultado original.
3. Consistência de caracteres
Com base na conversa anterior, tentei gerar uma cena usando o personagem de pixel art que eu havia gerado. Esse foi o resultado:

O personagem nesta imagem tem uma resolução diferente da original. Ela tem mais detalhes, portanto, parece que o GPT-4o gera um novo personagem com base na foto, em vez de usar o personagem criado anteriormente.
O resultado ainda é bom, mas não pode ser usado em um jogo porque precisamos que os dois personagens sejam mais consistentes. Nesse estágio, é melhor que você o use como inspiração para um artista de pixels do que como um resultado final em si.
4. Criar uma história detalhada
Em seguida, eu queria criar uma história em quadrinhos para contar a história de como tirei uma foto da paisagem urbana de Taipei há alguns meses. Usei isso para testar como o GPT-4o lida com a geração de uma imagem a partir de instruções detalhadas.
Comecei pedindo ao modelo que gerasse um personagem de história em quadrinhos baseado em mim. Em seguida, forneci os detalhes de cada quadro da história em quadrinhos.

O primeiro resultado foi próximo do que eu queria, mas não totalmente preciso. Além disso, senti novamente que o modelo gerou um novo personagem em vez de usar o primeiro que ele gerou.
No entanto, fiquei muito satisfeito com o resultado depois que minhas alterações foram solicitadas. Foi uma sensação interessante ver aquela noite ganhar vida como uma história em quadrinhos.

Eu particularmente adorei o fato de ele ter conseguido imitar a foto no último quadro. Acho que isso elevou o resultado.
5. Edição de fotos
Em seguida, tentei a edição de fotos. Há alguns meses, eu estava viajando de volta para a Europa e tirei uma foto antes de embarcar no avião. Infelizmente, havia um reflexo incômodo na janela porque tirei a foto de dentro. Tentei usar o Photoshop para removê-lo, mas não consegui.
Tentei novamente usando o GPT-4o e funcionou muito bem.

Aqui estão alguns outros exemplos de edição de uma foto usando o GPT-4o:

Novamente, não é perfeito, mas ainda assim é muito bom. No primeiro exemplo, as pessoas foram removidas, mas o edifício na parte de trás foi modificado. As fotos noturnas são bonitas, mas um pouco escuras demais.
Outro detalhe interessante é que, devido ao aspecto de conversação do GPT-4o, ele tende a aplicar as novas alterações à imagem mais recente. Nesse caso, quando solicitei a chuva, eu esperava que ela modificasse a imagem original, não a imagem noturna.
Você pode contornar isso especificando a imagem no prompt ou iniciando uma nova conversa.
6. Classificação de cores
A maior parte da minha edição de fotos consiste em ajustar as cores, não em modificar o conteúdo da foto.
Eu estava curioso para ver se o GPT-4o era bom na gradação de cores, então experimentei a gradação de cores em uma de minhas fotos. Um dos meus filmes favoritos é Blade Runner 2049, e eu gosto da estética geral do filme, então quis ver se o GPT-4o poderia colorir uma de minhas fotos urbanas nesse estilo. Aqui está o resultado:

Adorei o resultado. Isso me poupou muito tempo em comparação com a edição pessoal. Também gosto muito do fato de que ele preservou (principalmente) a integridade da imagem.
Neste exemplo, descrevemos textualmente o resultado desejado. Também tentei fornecer a ele uma imagem de amostra com uma paleta de cores para ver se ele poderia classificar a cor da minha foto nesse estilo. Na minha opinião, ele fez um ótimo trabalho.

7. Infográficos e diagramas
Um infográfico é uma representação visual de informações ou dados criados para facilitar a compreensão rápida de ideias complexas. Até o momento, não vi um modelo que possa produzir infográficos úteis.
Vamos testar o GPT-4o pedindo que ele gere um infográfico explicando por que há tantos terremotos em Taiwan.

O primeiro resultado foi bastante impreciso, pois tanto a localização quanto a ortografia de Taiwan estão incorretas. Pedi que ele consertasse o problema e obtive um resultado melhor. No entanto, o novo resultado ainda não é perfeito porque o final da explicação é cortado.
Isso mostra que o modelo ainda não é perfeito. No entanto, vi muitos exemplos on-line em que ele se saiu muito bem nessa tarefa.
Como educador on-line, frequentemente preciso criar diagramas para meu conteúdo. Tentei pedir ao GPT-4o que gerasse diagramas para mim, mas não consegui encontrar um bom resultado. Aqui está o que recebi quando solicitei um diagrama que ilustrasse o Merge Sort. O diagrama captura a ideia correta, mas todos os detalhes estão incorretos.
 
No geral, acho que essa é uma área em que esses modelos ainda precisam de muitas melhorias.
8. Adicionar elementos a uma imagem existente
Por fim, tentei modificar uma foto existente adicionando elementos a ela. Neste exemplo, tenho uma foto de dentro de uma loja de chá e pedi que você desenhasse uma xícara de chá sobre a tabela:

Eu já havia tentado gerar essa imagem do zero usando o DALL-E antes, mas, em todas as vezes, a aparência geral da imagem não era muito realista. A possibilidade de adicionar elementos a uma fotografia real facilita muito a obtenção do resultado que eu estava buscando.
Conclusão
Neste artigo, exploramos os novos e interessantes recursos da geração de imagens do GPT-4o e seus notáveis recursos. Por meio de oito exemplos práticos, descobrimos como esse modelo pode criar texto em imagens, lidar com transparência e manter a consistência dos caracteres. Cada recurso ilustrou a versatilidade e a eficácia do GPT-4o para dar vida a visões criativas.
Acho que ainda há muito espaço para melhorar quando se trata de infográficos e diagramas. As imagens geradas nesses casos são coerentes com os prompts, mas carecem de precisão e consistência factual.
Há muito tempo eu não ficava tão empolgado com um lançamento de IA. Em minha opinião, o GPT-4o é um verdadeiro divisor de águas no campo da geração de imagens. Estou animado para fazer mais experiências com ele e já tenho várias ideias que mal posso esperar para explorar e dar vida a elas.





