Pular para o conteúdo principal
InicioBlogInteligência Artificial (IA)

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
abr. de 2024

A Stability AI anunciou uma prévia do Stable Diffusion 3, seu modelo de IA gerador de texto para imagem. Ao contrário do anúncio de texto para vídeo do Sora da OpenAI na semana passada, houve demonstrações limitadas dos novos recursos do modelo, mas alguns detalhes foram fornecidos. Aqui, exploramos o significado do anúncio, como o novo modelo funciona e algumas implicações para o avanço da geração de imagens.

O que é a Difusão Estável 3?

O Stable Diffusion é uma série de modelos de IA geradores de texto para imagem. Ou seja, você escreve um prompt descrevendo o que deseja ver, e o modelo cria uma imagem que corresponde à sua descrição. Há uma interface de usuário da Web para facilitar o acesso à IA.

Uma grande diferença em relação à IA de geração de imagens DALL-E, rival da OpenAI, é que ela tem "pesos abertos". Ou seja, os detalhes da rede neural que fornece os cálculos do modelo estão disponíveis publicamente. Isso significa que há alguma transparência na forma como o modelo funciona, e é possível que os pesquisadores adaptem e desenvolvam o trabalho da Stability AI.

O Stable Diffusion 3 não é um modelo, mas uma família inteira de modelos, com tamanhos que variam de 800 milhões de parâmetros a 8 bilhões de parâmetros. Mais parâmetros resultam em uma qualidade de saída mais alta, mas têm o efeito colateral de que as imagens são mais caras e demoram mais para serem criadas. As versões do modelo com menos parâmetros são melhores para criar imagens simples, e as versões com mais parâmetros são mais adequadas para criar imagens de maior qualidade ou mais complexas.

Como funciona o Stable Diffusion 3?

O Stable Diffusion 3 usa uma arquitetura de transformador de difusão, semelhante à usada pelo Sora. As versões anteriores do Stable Diffusion - e a maioria das IAs de geração de imagens atuais - usam um modelo de difusão. Modelos de linguagem grandes para geração de texto, como o GPT, usam uma arquitetura de transformador. A capacidade de combinar os dois modelos é uma inovação recente e promete aproveitar o melhor das duas arquiteturas.

Os modelos de difusão têm bom desempenho na criação de detalhes em pequenas regiões, mas são ruins na geração do layout geral de uma imagem. Por outro lado, os transformadores são bons no layout, mas ruins na criação de detalhes. Portanto, é provável que o Stable Diffusion use um transformador para definir a imagem geral e, em seguida, use difusores para gerar patches.

Isso significa que podemos esperar que o Stable Diffusion 3 tenha um desempenho melhor do que seus antecessores na organização de cenas complexas.

O anúncio também afirma que o Stable Diffusion 3 usa uma técnica chamada correspondência de fluxo. Essa é uma maneira computacionalmente mais eficiente de treinar modelos e criar imagens a partir desses modelos do que a atual técnica de caminho de difusão. Isso significa que a IA é mais barata para criar, e as imagens criadas com a IA também são mais baratas para criar, resultando em custos mais baixos para a IA.

Quais são as limitações do Stable Diffusion 3?

Uma das limitações atuais da IA de geração de imagens é a capacidade de gerar texto. Notavelmente, o anúncio do Stability AI começou com uma imagem que incluía o nome do modelo, "Stable Diffusion 3". O posicionamento das letras no texto é bom, mas não perfeito: observe que a distância entre o "B" e o "L" em Stable é maior do que a distância entre o "L" e o "E". Da mesma forma, os dois "F "s em Diffusion estão muito próximos um do outro. No entanto, de modo geral, essa é uma melhoria notável em relação à geração anterior de modelos.

Sugestão: Arte épica de anime de um mago no topo de uma montanha à noite, lançando um feitiço cósmico no céu escuro que diz

Prompt: Arte épica de anime de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Stable Diffusion 3" (Difusão estável 3) feito de energia colorida

Outro problema com os modelos é que, como os difusores geram partes da imagem separadamente, podem ocorrer inconsistências entre as regiões da imagem. Isso é um problema principalmente quando se tenta gerar imagens realistas. A publicação do anúncio não incluiu muitos exemplos realistas, mas uma imagem de um ônibus em uma rua da cidade revela alguns exemplos desses problemas. Observe que a sombra sob o ônibus sugere que a luz vem de trás do ônibus, mas a sombra de um prédio na rua indica que a luz vem da esquerda da imagem. Da mesma forma, o posicionamento das janelas do edifício no canto superior direito da imagem é ligeiramente inconsistente em diferentes regiões do edifício. O ônibus também não tem motorista, embora isso possa ser resolvido com uma orientação mais cuidadosa.

image1.png

Como posso acessar o Stable Diffusion 3?

O Stable Diffusion 3 está em um estado de "visualização antecipada". Isso significa que ele só está disponível para pesquisadores para fins de teste. O estado de visualização permite que a Stability AI obtenha feedback sobre o desempenho e a segurança do modelo antes que ele seja liberado para o público.

Você pode entrar na lista de espera para acessar a IA aqui.

Quais são os casos de uso do Stable Diffusion 3?

As IAs de geração de imagens já encontraram muitos casos de uso, de ilustrações a design gráfico e materiais de marketing. O Stable Diffusion promete ser utilizável da mesma maneira, com a vantagem adicional de poder criar imagens com layouts mais complexos.

Quais são os riscos do Stable Diffusion 3?

O conjunto de dados no qual o Stable Diffusion foi treinado incluía algumas imagens protegidas por direitos autorais, o que resultou em várias ações judiciais ainda não resolvidas. Não está claro qual será o resultado dessas ações judiciais, mas é teoricamente possível que qualquer imagem criada pela Stable Diffusion também seja considerada uma violação de direitos autorais.

O que ainda não sabemos?

Os detalhes técnicos completos do Stable Diffusion 3 ainda não foram divulgados e, em particular, não há como testar o desempenho da IA. Quando o modelo estiver disponível publicamente e os benchmarks forem estabelecidos, será possível determinar o grau de aprimoramento da IA em relação aos modelos anteriores. Outros fatores, como o tempo e o custo para gerar uma imagem, também ficarão claros.

Um desenvolvimento técnico que foi fortemente defendido pela OpenAI em seu artigo sobre o DALL-E 3, mas que não foi mencionado no anúncio da Stability AI, foi o recaptioning. Essa é uma forma de engenharia automática de prompt, em que o texto escrito pelo usuário é reestruturado e recebe detalhes adicionais para fornecer instruções mais claras ao modelo. Não se sabe se o Stable Diffusion 3 faz uso dessa técnica ou não.

Considerações finais

O Stable Diffusion 3 promete ser mais um passo à frente no progresso da IA geradora de texto para imagem. Quando a IA for liberada publicamente, poderemos testá-la ainda mais e descobrir novos casos de uso. Se você está ansioso para começar no mundo da IA generativa, nosso curso de habilidades AI Fundamentals o ajudará a se atualizar com ​aprendizagem automática, aprendizagem profunda, PNL, modelos generativos e muito mais.

Para obter mais recursos sobre as últimas novidades no mundo da IA, confira a lista abaixo:

Temas

Comece sua jornada de IA hoje mesmo!

Course

Introduction to ChatGPT

1 hr
193.9K
Learn how to use ChatGPT. Discover best practices for writing prompts and explore common business use cases for the powerful AI tool.
See DetailsRight Arrow
Start Course
Veja MaisRight Arrow
Relacionado

blog

25 exemplos práticos da transformação da IA nos setores

Desde a reformulação da saúde e do comércio eletrônico até a revolução da agricultura e das finanças, descubra exemplos reais de IA que impulsionam o crescimento, a eficiência e a inovação.

Nahla Davies

15 min

blog

O que é um algoritmo?

Aprenda algoritmos e sua importância no aprendizado de máquina. Entenda como os algoritmos resolvem problemas e executam tarefas com etapas bem definidas.
DataCamp Team's photo

DataCamp Team

11 min

blog

O que são redes neurais?

As NNs são modelos computacionais inspirados no cérebro, usados no aprendizado de máquina para reconhecer padrões e tomar decisões.
Abid Ali Awan's photo

Abid Ali Awan

7 min

tutorial

Um guia introdutório para aperfeiçoar os LLMs

O ajuste fino dos modelos de linguagem ampla (LLMs) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de texto. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos por meio do processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

Como usar o Midjourney: Um guia abrangente para a criação de obras de arte geradas por IA

Descubra o poder do Midjourney, uma ferramenta de IA generativa para criar obras de arte impressionantes. Saiba como começar, escrever prompts eficazes e otimizar seu uso com nosso guia passo a passo.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

See MoreSee More