Pular para o conteúdo principal

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
23 de abr. de 2024

A Stability AI anunciou uma prévia do Stable Diffusion 3, seu modelo de IA gerador de texto para imagem. Ao contrário do anúncio de texto para vídeo do Sora da OpenAI na semana passada, houve demonstrações limitadas dos novos recursos do modelo, mas alguns detalhes foram fornecidos. Aqui, exploramos o significado do anúncio, como o novo modelo funciona e algumas implicações para o avanço da geração de imagens.

O que é a Difusão Estável 3?

O Stable Diffusion é uma série de modelos de IA geradores de texto para imagem. Ou seja, você escreve um prompt descrevendo o que deseja ver, e o modelo cria uma imagem que corresponde à sua descrição. Há uma interface de usuário da Web para facilitar o acesso à IA.

Uma grande diferença em relação à IA de geração de imagens DALL-E, rival da OpenAI, é que ela tem "pesos abertos". Ou seja, os detalhes da rede neural que fornece os cálculos do modelo estão disponíveis publicamente. Isso significa que há alguma transparência na forma como o modelo funciona, e é possível que os pesquisadores adaptem e desenvolvam o trabalho da Stability AI.

O Stable Diffusion 3 não é um modelo, mas uma família inteira de modelos, com tamanhos que variam de 800 milhões de parâmetros a 8 bilhões de parâmetros. Mais parâmetros resultam em uma qualidade de saída mais alta, mas têm o efeito colateral de que as imagens são mais caras e demoram mais para serem criadas. As versões do modelo com menos parâmetros são melhores para criar imagens simples, e as versões com mais parâmetros são mais adequadas para criar imagens de maior qualidade ou mais complexas.

Como funciona o Stable Diffusion 3?

O Stable Diffusion 3 usa uma arquitetura de transformador de difusão, semelhante à usada pelo Sora. As versões anteriores do Stable Diffusion - e a maioria das IAs de geração de imagens atuais - usam um modelo de difusão. Modelos de linguagem grandes para geração de texto, como o GPT, usam uma arquitetura de transformador. A capacidade de combinar os dois modelos é uma inovação recente e promete aproveitar o melhor das duas arquiteturas.

Os modelos de difusão têm bom desempenho na criação de detalhes em pequenas regiões, mas são ruins na geração do layout geral de uma imagem. Por outro lado, os transformadores são bons no layout, mas ruins na criação de detalhes. Portanto, é provável que o Stable Diffusion use um transformador para definir a imagem geral e, em seguida, use difusores para gerar patches.

Isso significa que podemos esperar que o Stable Diffusion 3 tenha um desempenho melhor do que seus antecessores na organização de cenas complexas.

O anúncio também afirma que o Stable Diffusion 3 usa uma técnica chamada correspondência de fluxo. Essa é uma maneira computacionalmente mais eficiente de treinar modelos e criar imagens a partir desses modelos do que a atual técnica de caminho de difusão. Isso significa que a IA é mais barata para criar, e as imagens criadas com a IA também são mais baratas para criar, resultando em custos mais baixos para a IA.

Quais são as limitações do Stable Diffusion 3?

Uma das limitações atuais da IA de geração de imagens é a capacidade de gerar texto. Notavelmente, o anúncio do Stability AI começou com uma imagem que incluía o nome do modelo, "Stable Diffusion 3". O posicionamento das letras no texto é bom, mas não perfeito: observe que a distância entre o "B" e o "L" em Stable é maior do que a distância entre o "L" e o "E". Da mesma forma, os dois "F "s em Diffusion estão muito próximos um do outro. No entanto, de modo geral, essa é uma melhoria notável em relação à geração anterior de modelos.

Sugestão: Arte épica de anime de um mago no topo de uma montanha à noite, lançando um feitiço cósmico no céu escuro que diz

Prompt: Arte épica de anime de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Stable Diffusion 3" (Difusão estável 3) feito de energia colorida

Outro problema com os modelos é que, como os difusores geram partes da imagem separadamente, podem ocorrer inconsistências entre as regiões da imagem. Isso é um problema principalmente quando se tenta gerar imagens realistas. A publicação do anúncio não incluiu muitos exemplos realistas, mas uma imagem de um ônibus em uma rua da cidade revela alguns exemplos desses problemas. Observe que a sombra sob o ônibus sugere que a luz vem de trás do ônibus, mas a sombra de um prédio na rua indica que a luz vem da esquerda da imagem. Da mesma forma, o posicionamento das janelas do edifício no canto superior direito da imagem é ligeiramente inconsistente em diferentes regiões do edifício. O ônibus também não tem motorista, embora isso possa ser resolvido com uma orientação mais cuidadosa.

image1.png

Como posso acessar o Stable Diffusion 3?

O Stable Diffusion 3 está em um estado de "visualização antecipada". Isso significa que ele só está disponível para pesquisadores para fins de teste. O estado de visualização permite que a Stability AI obtenha feedback sobre o desempenho e a segurança do modelo antes que ele seja liberado para o público.

Você pode entrar na lista de espera para acessar a IA aqui.

Quais são os casos de uso do Stable Diffusion 3?

As IAs de geração de imagens já encontraram muitos casos de uso, de ilustrações a design gráfico e materiais de marketing. O Stable Diffusion promete ser utilizável da mesma maneira, com a vantagem adicional de poder criar imagens com layouts mais complexos.

Quais são os riscos do Stable Diffusion 3?

O conjunto de dados no qual o Stable Diffusion foi treinado incluía algumas imagens protegidas por direitos autorais, o que resultou em várias ações judiciais ainda não resolvidas. Não está claro qual será o resultado dessas ações judiciais, mas é teoricamente possível que qualquer imagem criada pela Stable Diffusion também seja considerada uma violação de direitos autorais.

O que ainda não sabemos?

Os detalhes técnicos completos do Stable Diffusion 3 ainda não foram divulgados e, em particular, não há como testar o desempenho da IA. Quando o modelo estiver disponível publicamente e os benchmarks forem estabelecidos, será possível determinar o grau de aprimoramento da IA em relação aos modelos anteriores. Outros fatores, como o tempo e o custo para gerar uma imagem, também ficarão claros.

Um desenvolvimento técnico que foi fortemente defendido pela OpenAI em seu artigo sobre o DALL-E 3, mas que não foi mencionado no anúncio da Stability AI, foi o recaptioning. Essa é uma forma de engenharia automática de prompt, em que o texto escrito pelo usuário é reestruturado e recebe detalhes adicionais para fornecer instruções mais claras ao modelo. Não se sabe se o Stable Diffusion 3 faz uso dessa técnica ou não.

Considerações finais

O Stable Diffusion 3 promete ser mais um passo à frente no progresso da IA geradora de texto para imagem. Quando a IA for liberada publicamente, poderemos testá-la ainda mais e descobrir novos casos de uso. Se você está ansioso para começar no mundo da IA generativa, nosso curso de habilidades AI Fundamentals o ajudará a se atualizar com ​aprendizagem automática, aprendizagem profunda, PNL, modelos generativos e muito mais.

Para obter mais recursos sobre as últimas novidades no mundo da IA, confira a lista abaixo:

Temas

Comece sua jornada de IA hoje mesmo!

curso

Introduction to ChatGPT

1 hr
220K
Learn how to use ChatGPT. Discover best practices for writing prompts and explore common business use cases for the powerful AI tool.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

O que é IA multimodal?

Descubra a IA multimodal, uma das tendências mais promissoras da IA generativa.

blog

O que é DALL-E?

A IA DALL-E da OpenAI cria imagens a partir de texto, combinando linguagem e recursos visuais. O DALL-E 2 produz imagens de maior resolução e mais realistas.
Abid Ali Awan's photo

Abid Ali Awan

9 min

AI shaking hands with a human

blog

As 5 melhores ferramentas de IA para ciência de dados em 2024: Aumente seu fluxo de trabalho hoje mesmo

Os recentes avanços em IA têm o potencial de mudar drasticamente a ciência de dados. Leia este artigo para descobrir as cinco melhores ferramentas de IA que todo cientista de dados deve conhecer

tutorial

IA explicável - Entendendo e confiando nos modelos de aprendizado de máquina

Mergulhe na IA explicável (XAI) e saiba como criar confiança em sistemas de IA com LIME e SHAP para interpretabilidade de modelos. Entenda a importância da transparência e da justiça nas decisões baseadas em IA.
Zoumana Keita 's photo

Zoumana Keita

12 min

See MoreSee More