Pular para o conteúdo principal
InicioTutoriaisInteligência Artificial (IA)

Gerador de imagens Flux AI: Um guia com exemplos

Saiba como usar o Flux AI para gerar imagens e explorar os recursos, aplicativos e casos de uso de cada modelo da família Flux: Flux Pro, Flux Dev e Flux Schnell.
Actualizado 24 de set. de 2024  · 8 min leer

Entre os últimos avanços em IA generativa está o conjunto de modelos Flux desenvolvido pela Black Forest Labs. Esses modelos estão entre os mais avançados em síntese de texto para imagem, proporcionando excelente qualidade visual, aderência imediata e diversidade de estilos.

Experimentei o Flux e me diverti muito com ele. Neste blog, compartilharei minha experiência e orientarei você sobre como começar a usar o Flux. Explicarei seus principais recursos, como ele funciona, como executar um pipeline, seus aplicativos e muito mais.

O que é Flux AI?

Flux é uma série de modelos de geração de texto para imagem desenvolvidos pela Black Forest Labs. Os modelos Flux são projetados para criar imagens altamente detalhadas e diversificadas com base em instruções textuais.

O Flux oferece vários recursos importantes que o diferenciam de outros modelos de IA generativa:

  • Qualidade de imagem de última geração: O Flux estabelece novos padrões de qualidade visual, superando modelos populares como o Midjourney v6.0 e o DALL-E 3.
  • Adesão imediata: Os modelos são ajustados com precisão para seguir instruções textuais textuais com alta precisão, assegurando que as imagens geradas correspondam exatamente à entrada do usuário.
  • Diversidade e variabilidade de estilo: O Flux oferece suporte a uma ampla variedade de estilos e complexidades de cena, tornando-o adequado para vários aplicativos criativos.
  • Eficiência: Os modelos são otimizados para desempenho, incorporando técnicas avançadas como rotativos e atenção paralela atenção camadas.

Modelos Flux AI: Pro, Dev, Schnell

A família de modelos Flux consiste em três variantes: Flux Pro, Flux Dev e Flux Schnell. Cada variante foi projetada para diferentes casos de uso, desde a geração de imagens de nível profissional até o desenvolvimento local eficiente.

Flux Pro

O Flux Pro é o modelo principal da família Flux. Ele oferece desempenho de primeira linha, o que o torna ideal para uso profissional em setores que exigem geração de imagens de alta qualidade. Com aderência imediata de última geração, detalhes visuais e diversidade de resultados, o Flux Pro foi projetado para aqueles que exigem o melhor em IA generativa.

O Flux Pro pode ser acessado por meio de APIs fornecidas pela Black Forest Labs, bem como por plataformas como Replicate e fal.ai.

Flux Dev

O Flux Dev é um modelo de peso aberto, com orientação destilada, projetado para aplicações não comerciais. A versão versão destilada do Flux Pro oferece qualidade semelhante e recursos de adesão imediata, além de ser mais eficiente. O Flux Dev também está disponível em HuggingFace e plataformas como Replicate e fal.ai.

Essa variante é ideal para desenvolvedores, pesquisadores e amadores que desejam fazer experiências com IA generativa sem a necessidade de recursos de nível profissional.

Fluxo Schnell

O Flux Schnell é o modelo mais rápido da família Flux, feito sob medida para desenvolvimento local e uso pessoal. Ele está disponível abertamente sob a licença Apache 2.0, tornando-o acessível a uma ampla gama de usuários. Assim como o Flux Dev, os pesos do Flux Schnell estão disponíveis no HuggingFace.

O Flux Schnell é perfeito para quem deseja fazer experiências com IA generativa em suas máquinas locais, sem a necessidade de recursos computacionais extensos.

Como o Flux AI funciona

Os modelos Flux são criados em uma arquitetura híbrida de multimodal e de difusão paralela transformador em paralelo, dimensionados para 12 bilhões de parâmetros. Essa arquitetura permite que os modelos gerem imagens com um alto grau de precisão e diversidade, mesmo ao lidar com cenas e estilos complexos.

Correspondência de fluxo: A metodologia principal

No centro da inovação do Flux está uma técnica chamada correspondência de fluxo. Em contraste com a tradicional difusão tradicionais, que refinam gradualmente uma imagem com ruído para uma imagem coerente, a correspondência de fluxo adota uma abordagem mais direta. Pense nisso como se você estivesse guiando uma caneta ao longo de um caminho preciso para criar um desenho, em vez de começar com um esboço borrado e afiá-lo gradualmente.

Ao aprender a prever a transformação ideal em cada etapa, os modelos de correspondência de fluxo podem gerar imagens de alta qualidade com eficiência notável, superando os modelos de difusão tradicionais tanto em velocidade quanto em fidelidade.

Embeddings posicionais rotativos e camadas de atenção paralela

Os modelos de fluxo utilizam duas técnicas principais para aprimorar seu desempenho: incorporação de posição rotativa e camadas de atenção paralela.

Os Rotary embeddings fornecem ao modelo uma compreensão detalhada das relações espaciais em uma imagem, o que é importante para a geração de visuais complexos e coerentes.

Enquanto isso, as camadas de atenção paralela permitem que o modelo processe diferentes partes de uma imagem simultaneamente, da mesma forma que vários especialistas se concentram em várias áreas de um quebra-cabeça complexo. Esse processamento paralelo melhora significativamente a eficiência computacional do modelo, permitindo que ele gere imagens de alta qualidade mais rapidamente e, ao mesmo tempo, reduza o consumo de recursos.

Modelos de fluxo alimentados por transformador

Os modelos Flux são desenvolvidos em uma arquitetura avançada baseada em transformadores, conhecida por sua capacidade de lidar com tarefas generativas de grande escala. Os transformadores são eficazes na compreensão das relações entre diferentes elementos dos dados, o que os torna ideais para traduzir solicitações textuais em representações visuais.

Os modelos Flux incorporam uma combinação de codificadores automáticos, codificadores de texto CLIP e codificadores T5 para realizar essa tradução. Os codificadores automáticos compactam e reconstroem com eficiência os dados de imagem, enquanto os codificadores de texto CLIP capturam o significado semântico das solicitações textuais. Os codificadores T5, reconhecidos por sua versatilidade em tarefas de linguagem, aprimoram a capacidade do modelo de interpretar e gerar conteúdo visual complexo com base em informações textuais.

Primeiros passos com o Flux

Para começar a usar o Flux em seus próprios projetos, aqui está um guia rápido para ajudar você a iniciar sua jornada com o Flux:

Fluxograma do FLUX

  1. Escolha uma variante: Decida qual variante do Flux atende melhor às suas necessidades. O Flux Pro é o caminho a seguir se você estiver procurando por geração de imagens de nível profissional. Para desenvolvimento e experimentação não comerciais, o Flux Dev oferece um ótimo equilíbrio entre desempenho e acessibilidade. E se você estiver interessado em desenvolvimento local, o Flux Schnell oferece uma opção rápida e eficiente.
  2. Acesse os modelos: Depois de escolher sua variante, você pode acessar os modelos por meio de várias plataformas. Você pode usar a interface gráfica do usuário no Flux-ai.io ou acessar os modelos de forma programática: O Flux Pro está disponível por meio de APIs, enquanto o Flux Dev e o Flux Schnell podem ser encontrados no HuggingFace e no GitHub.
  3. Experimente os prompts: Um dos principais recursos do Flux é sua capacidade de gerar imagens com base em solicitações textuais. Comece fazendo experiências com diferentes solicitações para ver como os modelos respondem. Se você deseja criar uma imagem simples ou uma cena complexa, o Flux oferece uma ampla gama de possibilidades.
  4. Otimize o desempenho: Se você estiver trabalhando com recursos computacionais limitados, há várias maneiras de otimizar o Flux para obter melhor desempenho. Técnicas como quantização de modelospipelines com eficiência de memória e otimizações de inferência podem ajudar você a executar os modelos com mais rapidez e eficiência.

Como configurar um pipeline de fluxo

Os modelos Flux estão disponíveis em duas variantes principais com base em seu processo de destilação: destilado por etapas e destilado por orientação. Cada variante tem padrões de uso ligeiramente diferentes, descritos abaixo.

Modelo destilado por etapas (Flux Schnell)

A variante destilada por intervalo de tempo, Flux Schnell, é otimizada para velocidade. Ele se beneficia de menos etapas de amostragem, o que o torna ideal para cenários em que a geração rápida é necessária. No entanto, ele tem algumas limitações, como um comprimento máximo de sequência de 256 tokens e uma escala de orientação que deve ser definida como 0.

Veja como você pode usar o Flux Schnell (trecho de código extraído do site do Black Forest Labs no GitHub):

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()
prompt = "A cat holding a sign that says hello world"
out = pipe(
    prompt=prompt,
    guidance_scale=0.0,
    height=768,
    width=1360,
    num_inference_steps=4,
    max_sequence_length=256,
).images[0]
out.save("image.png")

Saída do Flux Schnell para o prompt: "Um gato segurando uma placa que diz Hello world"

Este trecho de código demonstra como gerar uma imagem usando o modelo Flux Schnell com um prompt de texto simples. O parâmetro num_inference_steps é definido como 4, refletindo a eficiência do modelo em produzir imagens rapidamente.

Modelo destilado de orientação (Flux Dev)

A variante destilada de orientação, Flux Dev, foi projetada para cenários em que a qualidade é priorizada em relação à velocidade. Ele requer cerca de 50 etapas de amostragem para gerar imagens de alta qualidade e não tem as limitações de comprimento de sequência da variante destilada por etapas de tempo.

Veja como você pode usar o Flux Dev (trecho de código extraído do GitHub):

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()
prompt = "a tiny astronaut hatching from an egg on the moon"
out = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    height=768,
    width=1360,
    num_inference_steps=50,
).images[0]
out.save("image.png")

Saída do Flux Dev para o prompt: "Um pequeno astronauta eclodindo de um ovo na lua"

Neste exemplo, o guidance_scale está definido como 3,5, permitindo que o modelo gere imagens que se aproximem do prompt fornecido. O número maior de etapas de inferência garante que a qualidade da saída seja mantida em um nível alto.

O Flux também pode gerar imagens usando precisão FP16 (ponto flutuante de 16 bits) para acelerar a inferência em GPUs como Turing ou Volta. No entanto, a execução em FP16 pode, às vezes, produzir resultados diferentes em comparação com FP32 ou BF16, especialmente em codificadores de texto. Para atenuar isso, os codificadores de texto podem ser forçados a ser executados em FP32 para remover quaisquer diferenças de saída.

Aplicações reais do Flux AI

O Flux tem uma ampla gama de aplicações em vários setores:

  • Mídia e entretenimento: O Flux pode ser usado para gerar imagens e vídeos de alta qualidade para filmes, programas de TV, videogames e publicidade.
  • Arte e design: Artistas e designers podem usar o Flux para explorar novas direções criativas, gerar obras de arte exclusivas e experimentar diferentes estilos e técnicas.
  • Publicidade e marketing: O Flux pode ser usado para criar visuais atraentes para campanhas de publicidade e marketing. Ao gerar imagens que se aproximam da mensagem e da marca desejadas, o Flux pode ajudar as empresas a se destacarem.
  • Educação e pesquisa: Em ambientes educacionais, o Flux pode ser usado para ensinar aos alunos sobre IA generativa e suas aplicações. Os pesquisadores também podem usar os modelos para explorar novos caminhos de pesquisa em IA e desenvolver soluções inovadoras para problemas complexos.

Flux AI: Desafios e considerações

Embora o Flux ofereça recursos incríveis, é importante que você esteja ciente dos desafios e das considerações que acompanham o uso de modelos de IA generativa.

Recursos computacionais: Para gerar imagens de alta qualidade com o Flux, você precisa de computacionais significativos. Se estiver trabalhando em um dispositivo de nível de consumidor, talvez você precise otimizar os modelos para obter melhor desempenho ou considerar o uso de serviços baseados em nuvem.

Considerações éticas: Como acontece com qualquer tecnologia de IA, existem considerações éticas que você deve ter em mente ao usar o Flux. É importante garantir que o conteúdo gerado seja usado de forma responsável e que os modelos não sejam usados indevidamente para fins prejudiciais.

Privacidade de dados: Ao usar o Flux para aplicativos comerciais, é importante que você considere a privacidade dos dados e a segurança. Certifique-se de que todos os dados usados com os modelos sejam tratados de acordo com os regulamentos relevantes e as práticas recomendadas.

Conclusão

O Flux marca um desenvolvimento notável na IA generativa, fornecendo ferramentas eficazes para a síntese de texto para imagem em diversos aplicativos.

Com sua boa qualidade de imagem, forte aderência imediata e eficiência operacional, o Flux pode ser uma boa opção para a geração de imagens.

À medida que você explorar os recursos, concentre-se em otimizar o desempenho e considerar os aspectos éticos do seu trabalho.


Photo of Bhavishya Pandit
Author
Bhavishya Pandit
LinkedIn
Twitter

Engenheiro sênior de GenAI e criador de conteúdo que obteve 20 milhões de visualizações ao compartilhar conhecimento sobre GenAI e ciência de dados.

Temas

Aprenda IA com estes cursos!

Course

Image Processing in Python

4 hr
44.9K
Learn to process, transform, and manipulate images at your will.
See DetailsRight Arrow
Start Course
Ver maisRight Arrow
Relacionado

blog

Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo

Descubra os principais geradores de vídeo com IA disponíveis atualmente, incluindo RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo e os altamente esperados Sora e Veo da DeepMind.
Dr Ana Rojo-Echeburúa's photo

Dr Ana Rojo-Echeburúa

9 min

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.
Matt Crabtree's photo

Matt Crabtree

11 min

blog

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
Richie Cotton's photo

Richie Cotton

tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.
François Aubry's photo

François Aubry

10 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Como usar o Midjourney: Um guia abrangente para a criação de obras de arte geradas por IA

Descubra o poder do Midjourney, uma ferramenta de IA generativa para criar obras de arte impressionantes. Saiba como começar, escrever prompts eficazes e otimizar seu uso com nosso guia passo a passo.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

See MoreSee More