Pular para o conteúdo principal

Gemini Diffusion: Um guia com 8 exemplos práticos

Saiba o que é o Gemini Diffusion do Google e como ele funciona por meio de oito exemplos práticos de geração de texto, desenvolvimento de jogos, simulações e muito mais.
Atualizado 30 de mai. de 2025  · 8 min lido

Um dos anúncios que achei mais interessantes do Google I/O 2025 foi Gemini Diffusione fiquei muito feliz em ter acesso antecipado para experimentá-lo!

Neste tutorial, farei um tour pelo Gemini Diffusion e mostrarei a você como usá-lo em tarefas práticas. Usaremos o Gemini Diffusion para:

  • Gerar texto em velocidade de flash
  • Crie uma simulação de partículas ao vivo e um aplicativo de áudio de xilofone
  • Aplique correções de código e veja visualizações ao vivo
  • Criar ferramentas de desenho em tempo real e jogos baseados em navegador

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

O que é o Gemini Diffusion?

O Gemini Diffusion é o novo modelo de linguagem grande de difusão de texto do Google DeepMind , um sistema de última geração que não gera tokens um a um como os LLMs tradicionais. Em vez disso, ele aprende a gerar texto refinando o ruído aleatório em várias etapas, da mesma forma que o Stable Diffusion gera imagens.

Isso permite que o Gemini Diffusion:

  • Gerar blocos inteiros de saída coerente de uma só vez
  • Corrigir rapidamente seus próprios erros durante a geração
  • Ofereça aos usuários interação em tempo real com visualizações ao vivo, código editável e controle criativo

Você pode experimentar a Gemini Diffusion entrando na lista de espera aqui.

Como funciona o Gemini Diffusion?

Os modelos de linguagem tradicionais são autorregressivos, prevendo um token por vez. Essa abordagem sequencial pode retardar a geração e limitar a coerência.

Os modelos de difusão, por outro lado, começam a partir de um espaço latente ruidoso e gradualmente o "denotizam" em um resultado significativo por meio de várias etapas aprendidas. Essa técnica é originalmente usada na geração de imagens (como Stable Diffusion), que agora faz parte da geração de texto no Gemini, permitindo que você crie respostas mais coerentes, corrija erros no meio da geração e produza resultados em velocidades recordes.

Isso permite:

  • Geração de texto mais rápida (até 1479 tokens/s)
  • Blocos de texto mais coerentes
  • Melhores fluxos de trabalho de edição em tempo real

Assim, agora você não espera por uma palavra de cada vez, mas vê um resultado completo e refinado instantaneamente. Isso faz do Gemini Diffusion um dos modelos mais rápidos em termos de velocidade de amostragem lançados pelo Google para tarefas de geração em tempo real. Aqui estão alguns benchmarks nos quais esse modelo se destaca, produzindo resultados surpreendentes.

Como acessar o Gemini Diffusion?

No momento em que este artigo foi escrito, o Gemini Diffusion estava disponível como uma demonstração experimental apenas para usuários convidados. Ele é executado totalmente no navegador e oferece suporte a interações de texto, código, tela e áudio (por meio da geração de som MIDI integrada).

Para começar:

  1. Vá para o Formulário de lista de espera do Gemini Diffusion
  2. Faça login com sua conta do Google
  3. Aguardar aprovação de acesso
  4. Uma vez concedido, você pode fazer experimentos diretamente na interface do DeepMind.

Você não precisa de SDKs ou APIs!

Comece a usar

Vamos dar uma olhada no que o Gemini Diffusion pode fazer em vários domínios, desde o desenvolvimento de jogos e desenhos até a edição de códigos e até mesmo áudio.

Exemplo 1: Geração de texto

No playground, testei a capacidade do modelo de gerar conteúdo de formato longo com o seguinte prompt.

Sugestão: Explique os méritos do brinde no estilo de Hegel. Em seguida, traduza a redação para 10 outros idiomas.

O modelo retornou mais de 7.000 tokens em menos de 9 segundos, com títulos claros, comentários e texto em 10 idiomas.

Observe no vídeo acima que a velocidade de geração foi de 892 tokens/s. Por outro lado, o Gemini 2.0 Flash-Lite normalmente gera cerca de 250-400 tokens/s na maioria dos cenários em tempo real.

Exemplo 2: Desenvolvimento de jogos com interações em tempo real

Para os fãs do Rock Paper Scissors Lizard Spock, testei a geração dessa simulação de jogo usando o modelo Gemini Diffusion.

Sugestão: Crie um aplicativo da Web em HTML+JavaScript para jogar Rock, Paper, Scissors, Lizard, Spock. Use emojis para cada opção (🪨📄✂️🦎🖖), torne a interface do usuário neon/brilhante e futurista. Deixe o jogador clicar em uma opção e o computador escolherá aleatoriamente. Mostre o resultado com animação e programa de pontuação. Inclua um botão "Reiniciar jogo". Faça com que o jogo seja responsivo.

Isso gerou um jogo totalmente jogável e interativo, completo com controles de teclado suaves, ideal para criar protótipos de loops de jogos ou ensinar noções básicas de animação.

Exemplo 3: Simulação em tempo real

A melhor parte do modelo Gemini Diffusion são as simulações em tempo real. Eles fazem com que os prompts ganhem vida. Aqui, testei dois exemplos: partículas que ricocheteiam e simulações de comprimento de onda senoidal e cossenoidal.

Exemplo 3.1: Simulação do sistema de partículas saltadoras

Sugestão: Simule 100 partículas que se movem em direções aleatórias dentro de uma caixa usando JavaScript.

Quando apliquei o prompt acima, o Gemini Diffusion gerou uma simulação de partículas saltitantes totalmente funcional, completa com atualizações de DOM e física básica. A animação era suave e responsiva, e eu podia ajustar facilmente parâmetros como contagem de partículas, velocidade e cor.

Para dar um passo adiante, pedi ao modelo que adicionasse um controle deslizante para ajustar os tamanhos dos círculos em tempo real, o que foi implementado perfeitamente. No entanto, quando solicitei a substituição dos círculos por ícones de borboletas, não foi possível atender ao pedido conforme pretendido.

Exemplo 3.2: Simulação interativa de forma de onda

No próximo exemplo, tentei gerar uma simulação de forma de onda interativa:

Prompt: Crie um simulador de forma de onda interativo que visualize uma onda senoidal. Permite que os usuários ajustem o comprimento de onda, a amplitude e a frequência usando controles deslizantes. A visualização deve mostrar claramente como a alteração do comprimento de onda estica ou comprime a onda. Adicione dicas de ferramentas para explicar cada parâmetro e seu significado no mundo real.

Ao executar o prompt, o Gemini gerou um simulador de forma de onda responsivo com controles deslizantes para ajustar o comprimento de onda (λ), a amplitude (A) e a frequência (f), tornando-o ideal para demonstrações educacionais.

Inicialmente, ele suportava apenas ondas senoidais. Quando pedi que ele também suportasse ondas de cosseno, o Gemini rapidamente adicionou um menu suspenso para alternar entre os tipos de onda, demonstrando sua capacidade de iteração nos componentes da interface do usuário. No entanto, quando solicitei que ele mesclasse as ondas senoidais e cossenoidais em uma forma de onda combinada, o modelo não conseguiu fazer isso.

Exemplo 4: Geração e execução de código

Como profissional de ML, eu queria testar a capacidade do Gemini Diffusion de gerar e executar código de machine learning baseado em Python. Então, eu pedi que você o fizesse:

Sugestão: Você pode escrever uma rede neural simples usando o NumPy e executá-la.

exemplo de difusão da gemini

O Gemini retornou uma implementação de rede neural feedforward completa e bem estruturada usando apenas o NumPy, incluindo a função de ativação, a inicialização do peso, a lógica de retropropagação e o loop de treinamento. Incluía até mesmo explicações para cada etapa.

exemplo de difusão da gemini

Para testar os recursos de tempo de execução, fiz o acompanhamento com:

Sugestão: Você pode executar isso para mim?

A Gemini respondeu que não pode executar código Python nativamente, pois não possui um ambiente de tempo de execução integrado. No entanto, ele simulou o resultado esperado estimando a perda em vários intervalos de treinamento, demonstrando como seria um resultado típico se executado em um ambiente local como o Jupyter Notebook.

exemplo de difusão da gemini

Embora o Gemini Diffusion ainda não possa executar o código no navegador, esse recurso de simular o comportamento de saída e fornecer os resultados esperados ainda é muito valioso para a criação de protótipos. Se a integração do tempo de execução for adicionada no futuro, você poderá transformar a ferramenta em um playground totalmente autônomo para aprender e fazer experiências com modelos de machine learning.

Exemplo 5: Aplicativo de desenho em tempo real

Em seguida, experimentei algo mais lúdico, ou seja, um aplicativo de desenho interativo com pincéis, cores e formas. Comecei com uma solicitação básica:

Sugestão: Crie um aplicativo de desenho com vários pincéis e cores.

O Gemini respondeu com um bloco de desenho baseado em tela, incluindo uma paleta de cores básica, seletores de tamanho de pincel (pequeno, médio, grande) e um botão de limpar.

Com base nisso, pedi ao modelo que adicionasse uma opção de cor "rosa" à paleta, que foi integrada perfeitamente. Em seguida, solicitei ferramentas de desenho adicionais - retângulo, quadrado e círculo - e o Gemini Diffusion as forneceu como opções de formas selecionáveis.

O resultado final correspondeu a todas as minhas solicitações e funcionou bem como uma ferramenta criativa. A única desvantagem perceptível foi o atraso e a redução da suavidade durante as interações de desenho, provavelmente devido às limitações da execução no modo de visualização. Mas, de modo geral, foi impressionantemente funcional para um protótipo em tempo real no navegador.

Exemplo 6: Edição instantânea com código

Além do Playground, o Gemini Diffusion oferece um recurso avançado chamado Edição instantâneaque permite que você faça modificações em tempo real no texto ou no código com o mínimo de solicitação.

Para testá-lo, forneci uma função Python na caixa de texto de conteúdo:

def find_median(nums):
    if not nums:
        return None
    nums.sort()
    n = len(nums)
    mid = n // 2
    if n % 2 == 1:
        return nums[mid]
    else:
        return (nums[mid - 1] + nums[mid]) / 2

Sugestão: Converta esse código em C++

O Gemini traduziu com sucesso a função para uma sintaxe C++ limpa. Em seguida, solicitei que ele adicionasse duas funções adicionais: uma para calcular a média e outra para a moda. Ele os anexou corretamente ao bloco de código.

Como etapa final, pedi ao modelo que adicionasse casos de teste para validar as três funções, o que também foi feito. No entanto, quando tentei solicitar que ele "executasse este código", o Gemini não respondeu, destacando que, embora seja excelente na geração de código, a execução ou simulação de código compilado não é compatível com esse ambiente no momento.

Exemplo 7: Edição instantânea com texto

Essa ferramenta também é excelente para escrever e editar histórias. Usando o Instant Edit, dei ao modelo uma história de uma única linha e pedi a ele que a estendesse .

Caixa de texto de conteúdo: Escreva uma história sobre uma árvore feliz chamada Sprig, que vive em Treewood e sonha em se tornar uma estrela de cinema famosa.

Para aprofundar a narrativa, pedi ao modelo que acrescentasse tensão dramática introduzindo uma figura paterna desaprovadora.

Prompt: Acrescente drama a essa história com a inclusão de um personagem pai que não está satisfeito com a escolha de carreira de Sprig.

O modelo reagiu expandindo a história em linha, tecendo com perfeição um pai carvalho sábio, mas severo, que desaprovava os sonhos teatrais de Sprig. As edições foram destacadas com alternâncias visuais, o que me permitiu comparar o conteúdo original e o atualizado.

Esse exemplo demonstrou como o Instant Edit pode dar suporte à narrativa incremental e ao refinamento criativo controlado, mantendo o usuário no circuito.

gemini diffusion instant Edit com texto

Exemplo 8: Xilofone com áudio

Para meu teste final, solicitei à Gemini Diffusion que criasse um aplicativo de xilofone interativo. O modelo gerou um conjunto de teclas coloridas e bem definidas com mapeamentos de som, ouvintes de eventos e efeitos de foco correspondentes, demonstrando sua capacidade de lidar com UIs de áudio interativas.

Sugestão: Gere um aplicativo de xilofone em que o usuário possa pressionar as teclas e ele gere sons. Cada nota dura um tempo razoável depois de pressionada. Não use nenhum ativo externo. Use a geração de som MIDI integrada. Disponha as teclas como em um xilofone de verdade.

Observação: Embora o Gemini Diffusion não ofereça suporte à geração de áudio ou vídeo, ele foi capaz de simular um comportamento realista de áudio usando a síntese de tons no estilo MIDI na visualização do navegador.

Isso destaca a capacidade do modelo de criar interfaces de áudio funcionais sem a necessidade de ativos ou bibliotecas externas.

Recomendo que você ligue o som do vídeo abaixo:

Por que a difusão dos gêmeos é importante?

O Gemini Diffusion representa uma mudança de paradigma na forma como interagimos com os LLMs. Veja por que isso é importante:

  • Geração em tempo real: É o modelo de texto mais rápido do Google até o momento.
  • Edição mais inteligente: Ele refina e corrige a saída durante a geração.
  • Interatividade rica: Ele cria simulações, jogos e aplicativos baseados em som no navegador.
  • Desempenho de benchmark: Por fim, ele tem um desempenho comparável em muitos benchmarks de codificação, como HumanEval (89,6%) e MBPP (76%), e ainda é significativamente mais rápido.

Achei o Gemini Diffusion bastante impressionante, tanto em termos de velocidade de geração, coerência e qualidade de seus resultados. Seja ampliando histórias, simulando física ou criando ferramentas interativas, o modelo sempre forneceu resultados rápidos e úteis com o mínimo de solicitação.

É claro que ainda há áreas que podem ser melhoradas. Por exemplo, atualmente, ele não retém o histórico de bate-papo e, ocasionalmente, erra o alvo para alterações em várias etapas. Além disso, ele pode não ter um desempenho tão bom quanto os modelos autorregressivos otimizados em todas as tarefas e está limitado a 200 solicitações por dia e por usuário, mas a fase beta é promissora.

Conclusão

O Gemini Diffusion é uma das ferramentas mais interessantes que explorei este ano. Ao adotar uma abordagem de difusão para texto, o Google criou um modelo que é mais rápido e mais interativo do que os modelos anteriores de pequena e média escala, embora ainda não seja tão útil quanto o Gemini 2.5 Pro.

Neste passo a passo prático, destaquei como o Gemini Diffusion pode elevar o seu fluxo de trabalho, quer você esteja criando protótipos de componentes da interface do usuário, criando demonstrações educacionais ou iterando rapidamente conceitos criativos.

À medida que o Gemini Diffusion evolui, prevejo integrações mais profundas com ferramentas de desenvolvimento, ambientes de codificação criativa e IDEs baseados em navegador, tornando-o um companheiro versátil para designers, engenheiros e educadores.

Para saber mais sobre as ferramentas mais recentes anunciadas no Google I/O 2025, recomendo estes tutoriais:


Aashi Dutt's photo
Author
Aashi Dutt
LinkedIn
Twitter

Sou Google Developers Expert em ML (Gen AI), Kaggle 3x Expert e Women Techmakers Ambassador com mais de 3 anos de experiência em tecnologia. Fui cofundador de uma startup de tecnologia de saúde em 2020 e estou fazendo mestrado em ciência da computação na Georgia Tech, com especialização em machine learning.

Tópicos

Aprenda IA com estes cursos!

Programa

AI Fundamentals

0 min
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
Richie Cotton's photo

Richie Cotton

blog

25 exemplos práticos da transformação da IA nos setores

Desde a reformulação da saúde e do comércio eletrônico até a revolução da agricultura e das finanças, descubra exemplos reais de IA que impulsionam o crescimento, a eficiência e a inovação.

Nahla Davies

15 min

cursor ai code editor

Tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

11 min

Tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

8 min

Ver maisVer mais