Pular para o conteúdo principal

Janus Pro da DeepSeek: Recursos, comparação com o DALL-E 3 e muito mais

Saiba mais sobre o novo modelo de IA multimodal Janus-Pro da DeepSeek, como acessá-lo e como ele se compara ao DALL-E 3 da OpenAI.
Actualizado 4 de fev. de 2025  · 8 min de leitura

O lançamento do DeepSeek-R1 abalou o setor de IA, causando quedas significativas nas ações da NVIDIA e das principais empresas americanas de IA.

A DeepSeek apresentou agora o Janus-Pro, seu mais recente modelo multimodal projetado para geração de texto e imagem. Assim como o R1, o Janus Pro é de código aberto e oferece bons resultados de benchmark. Resumidamente, ele é um concorrente de peso do DALL-E 3 da OpenAI e do Stable Diffusion da Stability AI no segmento de IA multimodal.

Neste blog, explicarei o Janus Pro, o que ele é, o que significa IA multimodal, como ele funciona e como você pode acessá-lo. Também vou compará-lo com o DALL-E 3 em alguns prompts.

O que é o Janus-Pro?

O Janus-Pro é o mais novo modelo de IA multimodal da DeepSeek, projetado para lidar com tarefas que envolvem texto e imagens. Ele apresenta vários aprimoramentos em relação ao modelo Janus original, incluindo melhores estratégias de treinamento, conjuntos de dados maiores e tamanhos de modelos escalonados (disponíveis nas versões de parâmetros 1B e 7B).

Janus Pro vs Janus

Janus vs. Janus Pro-7b. Fonte: Artigo de lançamento do Janus-Pro.

Ao contrário dos modelos de IA especializados em apenas um tipo de entrada, os modelos de IA multimodal, como o Janus-Pro, são criados para entender e conectar essas duas modalidades. Por exemplo, você pode carregar uma imagem e escrever uma pergunta sobre ela como, por exemplo, identificar objetos na cena, interpretar o texto dentro da imagem ou até mesmo analisar seu contexto.

Demonstração do reconhecimento de texto do janus pro

Reconhecimento de texto com o Janus-Pro. Fonte: Artigo de lançamento do Janus-Pro.

O Janus-Pro pode gerar imagens de alta qualidade a partir de instruções de texto, como a criação de trabalhos artísticos detalhados, projetos de produtos ou visualizações realistas com base em instruções específicas. Ele também pode analisar entradas visuais, como identificar objetos em uma foto, ler e interpretar textos em uma imagem ou responder a perguntas sobre um gráfico ou diagrama.

janus pro text-to-image generation

Geração de imagens a partir de texto com o Janus-Pro. Fonte: Artigo de lançamento do Janus-Pro.

O Janus-Pro é fornecido em dois tamanhos, parâmetros 1B e 7B, oferecendo flexibilidade, dependendo do seu hardware.

Como o Janus-Pro funciona?

O Janus-Pro foi projetado para lidar tanto com a compreensão quanto com a geração de texto e imagens, e consegue isso com alguns aprimoramentos inteligentes em relação ao seu antecessor. Vou explicar seus principais componentes de uma forma que seja mais fácil de digerir.

recursos do janus-pro

Programação visual desacoplada

Um dos recursos de destaque do Janus-Pro é que ele não usa um único sistema para lidar com a interpretação e a criação de imagens. Em vez disso, ele separa esses processos (programação visual desacoplada).

Por exemplo, quando você carrega uma imagem e faz uma pergunta sobre ela, o Janus-Pro usa um sistema especializado para "ler" a imagem e descobrir o que é importante. Por outro lado, quando você pede que ele crie uma imagem a partir de uma descrição em texto, ele muda para um sistema diferente que se concentra na geração de imagens. Essa separação permite que o modelo realize melhor as duas tarefas, evitando as concessões que ocorrem quando um sistema é forçado a lidar com tudo.

Processo de treinamento aprimorado

O treinamento da Janus-Pro é dividido em três etapas, cada uma delas projetada para aperfeiçoar seus recursos:

  1. Aprendizado de conceitos básicos de elementos visuais: O modelo começa com o treinamento em conjuntos de dados como ImageNetcom foco no reconhecimento de objetos, textos e padrões visuais. Esse estágio foi ampliado no Janus-Pro, dando ao modelo mais tempo para modelar dependências de pixel e processar dados visuais com eficiência.
  2. Conexão de elementos visuais e texto: Nessa fase, o Janus-Pro integra texto e imagens por meio do treinamento em conjuntos de dados descritivos de texto para imagem de alta qualidade. Diferentemente das versões anteriores, o Janus-Pro ignora abordagens ineficientes e usa prompts densos para obter melhores resultados.
  3. Ajuste final: Esse estágio ajusta o equilíbrio dos dados de treinamento— multimodal, somente texto e texto para imagem—de 7:3:10 para 5:1:4.

Dados maiores e dimensionamento de modelos

O Janus-Pro amplia seus recursos usando tanto dados do mundo real quanto dados sintéticos em partes iguais. Essa combinação não apenas garante resultados de maior qualidade, mas também melhora a estabilidade durante tarefas como a geração de imagens.

Janus-Pro vs. DALL-E 3

Nesta seção, compararei o Janus-Pro-7B e o DALL-E 3 na compreensão multimodal e na geração de imagens a partir de texto. Essa comparação tem o objetivo de dar a você uma noção prática desses modelos em ação, mas não substitui a profundidade das medições sistemáticas de benchmark.

Compreensão multimodal

Carreguei a imagem abaixo e perguntei ao Janus-Pro-7B e ao DALL-E 3:

"Em uma frase, qual é a principal conclusão dessa imagem?"

janus-pro benchmark

Fonte: Página do GitHub do Janus-Pro.

Aqui estão as respostas:

Janus-Pro: A principal conclusão dessa imagem é que o modelo Janus atinge o desempenho médio mais alto em tarefas de compreensão multimodal, além de demonstrar alta precisão em benchmarks de cumprimento de instruções para geração de imagens a partir de texto.

DALL-E 3: Os modelos Janus-Pro, especialmente o Janus-Pro-7B, superam outros modelos multimodais em benchmarks de compreensão e de cumprimento de instruções, demonstrando recursos sólidos em tarefas de texto e imagem.

Embora ambos os modelos resumam bem o gráfico, o Janus-Pro se refere incorretamente ao "modelo Janus", deixando de diferenciá-lo do Janus-Pro. O DALL-E 3, no entanto, identifica especificamente "modelos Janus-Pro, particularmente Janus-Pro-7B", demonstrando melhor compreensão contextual.

Esse é apenas um exemplo isolado, portanto, não podemos tirar conclusões gerais.

Geração de imagens a partir de texto

Tentei esse prompt porque pode ser algo que tenha um uso real na prática:

"Um projeto de um escritório moderno com estações de trabalho colaborativas, salas de reunião privadas e luz natural, apresentado como uma renderização em estilo 3D"

O DALL-E 3 gerou esta imagem abaixo, que atende a todos os elementos do prompt: escritório moderno, estações de trabalho colaborativas, salas de reunião privadas, luz natural e renderização em estilo 3D. No entanto, se você observar com atenção, perceberá alguns artefatos, como:

  1. Os reflexos nos painéis de vidro superiores à esquerda parecem ligeiramente deformados, especialmente a luminária circular.
  2. Alguns dos itens nas mesas (lâmpadas, papéis e computadores) têm bordas borradas ou não naturais, indicando possíveis erros de mesclagem de IA.
  3. As cadeiras de escritório, especialmente a do meio, parecem um pouco distorcidas, principalmente as pernas e a forma como interagem com o chão (os apoios de braço também não estão posicionados corretamente).

Exemplo de geração de imagens a partir de texto do dall-e 3

Fiz um prompt para o Janus-Pro-7B no Hugging Face. O modelo gerou cinco imagens, e todas elas ficaram muito ruins:

O Janus-Pro gerou cinco imagens

Observando a primeira imagem, podemos identificar alguns artefatos importantes sem muito esforço:

  1. O teto tem um efeito de distorção não natural, com luminárias duplicadas e desalinhadas que parecem esticadas ou flutuantes.
  2. Algumas mesas têm um formato estranho, com ângulos inconsistentes e sobreposições não naturais. Algumas cadeiras parecem parcialmente derretidas ou fundidas com o piso.
  3. O espaço reservado à direita tem uma aparência estranha e derretida, com a cadeira dentro dela parecendo deformada e desconectada.

Você poderá reproduzir esse resultado no Hugging Face usando o mesmo prompt e os parâmetros e sementes a seguir:

hugging face space for janus-pro-7b

Apesar de fazer experiências com diferentes parâmetros e sementes, não consegui produzir resultados melhores com o Janus-Pro-7B. Novamente, esse é apenas um exemplo e não fornece evidências suficientes para tirar conclusões amplas sobre qualquer um dos modelos.

Janus-Pro Benchmarks

O Janus-Pro foi testado em vários benchmarks para medir seu desempenho tanto na compreensão multimodal quanto na geração de imagens a partir de texto. Os resultados mostram melhorias em relação ao seu antecessor, o Janus, e o colocam entre os modelos de melhor desempenho em sua categoria.

janus-pro benchmark

Fonte: Página do GitHub do Janus-Pro.

O gráfico à esquerda na imagem acima mostra o desempenho do Janus-Pro em quatro benchmarks de compreensão multimodal. A equipe do DeepSeek ficou na média de precisão do POPE, MME-Perception, GQA e MMMU. A principal conclusão é que o Janus-Pro-7B supera sua contraparte menor, o Janus-Pro-1B, bem como outros modelos multimodais, como o LLaVA-v1.5-7B e o VILA-U.

O gráfico à direita compara o Janus-Pro-7B com outros modelos líderes em benchmarks de cumprimento de instruções para geração de imagens a partir de texto, especificamente GenEval e DPG-Bench:

  • No GenEval, que avalia a capacidade de um modelo de seguir instruções de texto para gerar imagens, o Janus-Pro-7B obteve uma pontuação de 80,0%, superando o DALL-E 3 (67%) e o SD3-Medium (74%).
  • No DPG-Bench, que testa a precisão na execução detalhada de prompts, o Janus-Pro-7B obteve uma pontuação de 84,2%, superando todos os outros modelos.

Como acessar o Janus-Pro

Você pode experimentar o Janus-Pro sem configurações complexas usando alguns métodos diferentes.

Demonstração on-line no Hugging Face

A maneira mais rápida de testar o Janus-Pro é por meio da sua demonstração do Hugging Face Spacesem que você pode escrever prompts e gerar texto ou imagens diretamente no navegador. Não requer instalação ou configuração.

GUI local com o Gradio

Se você preferir uma configuração local com uma interface fácil de usar, o DeepSeek fornece uma demonstração baseada no Gradio. Isso permite que você interaja com o Janus-Pro por meio de uma GUI baseada na Web em seu computador. Para usá-lo, siga as instruções no repositório oficial do Janus no GitHub.

Conclusão

O Janus-Pro é a mais recente iniciativa da DeepSeek no espaço da IA multimodal, oferecendo uma alternativa de código aberto a modelos como o DALL-E 3. Ele é melhor que seu antecessor com melhor treinamento, conjuntos de dados maiores e uma arquitetura desacoplada para lidar com textos e imagens de forma mais eficaz.

Na minha comparação direta com o DALL-E 3, o Janus-Pro mostrou alguns pontos fracos na geração de imagens a partir de texto, produzindo artefatos e inconsistências perceptíveis. No entanto, ele teve um bom desempenho em tarefas de compreensão multimodal. Dito isso, este é apenas um teste limitado e não fornece evidências suficientes para tirar conclusões gerais sobre os recursos gerais do modelo.

Perguntas frequentes

Que hardware é necessário para executar o Janus-Pro localmente?

O Janus-Pro pode ser executado em GPUs de nível de consumidor nos modelos menores, como a versão 1B. Para o modelo 7B maior, recomenda-se uma GPU de ponta com VRAM suficiente, como uma NVIDIA A100 ou similar.

O Janus-Pro é adequado para aplicações em tempo real?

Embora o Janus-Pro seja eficiente, seu desempenho depende do hardware em que estiver sendo executado. Aplicações em tempo real podem exigir recursos computacionais significativos, especialmente com o modelo 7B.

O Janus-Pro oferece suporte a outros idiomas além do inglês?

Sim, o Janus-Pro inclui conjuntos de dados destinados a aprimorar os recursos multilíngues, incluindo dados de conversação em chinês e outros, tornando-o adequado para tarefas em vários idiomas.

O Janus-Pro pode gerar imagens de alta resolução?

Atualmente, o Janus-Pro gera imagens com uma resolução de 384×384 pixels.

O Janus-Pro pode ser ajustado para aplicações específicas?

Sim, como um modelo de código aberto, o Janus-Pro pode ser ajustado usando conjuntos de dados específicos do domínio para aplicações personalizadas.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Você é um especialista em Python, marketing e estratégia de conteúdo, SEO, edição e redação. Técnico - escrevi cursos sobre Python, estatística e probabilidade. Mas também publiquei um romance premiado. Edição de vídeo e gradação de cores no DaVinci.

Temas

Aprenda IA com estes cursos!

programa

Fundamentos de IA

10h hr
Descubra os fundamentos da IA, conheça melhor modelos como o ChatGPT e desvende os segredos da IA generativa para enfrentar o dinâmico panorama da IA.
Ver DetalhesRight Arrow
Iniciar curso
Certificação disponível

curso

Desenvolvimento de sistemas de IA com a API da OpenAI

3 hr
4.9K
Aproveite a API da OpenAI para deixar seus aplicativos de IA prontos para produção.
Ver maisRight Arrow