programa
Janus Pro da DeepSeek: Recursos, comparação com o DALL-E 3 e muito mais
O lançamento do DeepSeek-R1 abalou o setor de IA, causando quedas significativas nas ações da NVIDIA e das principais empresas americanas de IA.
A DeepSeek apresentou agora o Janus-Pro, seu mais recente modelo multimodal projetado para geração de texto e imagem. Assim como o R1, o Janus Pro é de código aberto e oferece bons resultados de benchmark. Resumidamente, ele é um concorrente de peso do DALL-E 3 da OpenAI e do Stable Diffusion da Stability AI no segmento de IA multimodal.
Neste blog, explicarei o Janus Pro, o que ele é, o que significa IA multimodal, como ele funciona e como você pode acessá-lo. Também vou compará-lo com o DALL-E 3 em alguns prompts.
O que é o Janus-Pro?
O Janus-Pro é o mais novo modelo de IA multimodal da DeepSeek, projetado para lidar com tarefas que envolvem texto e imagens. Ele apresenta vários aprimoramentos em relação ao modelo Janus original, incluindo melhores estratégias de treinamento, conjuntos de dados maiores e tamanhos de modelos escalonados (disponíveis nas versões de parâmetros 1B e 7B).
Janus vs. Janus Pro-7b. Fonte: Artigo de lançamento do Janus-Pro.
Ao contrário dos modelos de IA especializados em apenas um tipo de entrada, os modelos de IA multimodal, como o Janus-Pro, são criados para entender e conectar essas duas modalidades. Por exemplo, você pode carregar uma imagem e escrever uma pergunta sobre ela como, por exemplo, identificar objetos na cena, interpretar o texto dentro da imagem ou até mesmo analisar seu contexto.
Reconhecimento de texto com o Janus-Pro. Fonte: Artigo de lançamento do Janus-Pro.
O Janus-Pro pode gerar imagens de alta qualidade a partir de instruções de texto, como a criação de trabalhos artísticos detalhados, projetos de produtos ou visualizações realistas com base em instruções específicas. Ele também pode analisar entradas visuais, como identificar objetos em uma foto, ler e interpretar textos em uma imagem ou responder a perguntas sobre um gráfico ou diagrama.
Geração de imagens a partir de texto com o Janus-Pro. Fonte: Artigo de lançamento do Janus-Pro.
O Janus-Pro é fornecido em dois tamanhos, parâmetros 1B e 7B, oferecendo flexibilidade, dependendo do seu hardware.
Como o Janus-Pro funciona?
O Janus-Pro foi projetado para lidar tanto com a compreensão quanto com a geração de texto e imagens, e consegue isso com alguns aprimoramentos inteligentes em relação ao seu antecessor. Vou explicar seus principais componentes de uma forma que seja mais fácil de digerir.
Programação visual desacoplada
Um dos recursos de destaque do Janus-Pro é que ele não usa um único sistema para lidar com a interpretação e a criação de imagens. Em vez disso, ele separa esses processos (programação visual desacoplada).
Por exemplo, quando você carrega uma imagem e faz uma pergunta sobre ela, o Janus-Pro usa um sistema especializado para "ler" a imagem e descobrir o que é importante. Por outro lado, quando você pede que ele crie uma imagem a partir de uma descrição em texto, ele muda para um sistema diferente que se concentra na geração de imagens. Essa separação permite que o modelo realize melhor as duas tarefas, evitando as concessões que ocorrem quando um sistema é forçado a lidar com tudo.
Processo de treinamento aprimorado
O treinamento da Janus-Pro é dividido em três etapas, cada uma delas projetada para aperfeiçoar seus recursos:
- Aprendizado de conceitos básicos de elementos visuais: O modelo começa com o treinamento em conjuntos de dados como ImageNetcom foco no reconhecimento de objetos, textos e padrões visuais. Esse estágio foi ampliado no Janus-Pro, dando ao modelo mais tempo para modelar dependências de pixel e processar dados visuais com eficiência.
- Conexão de elementos visuais e texto: Nessa fase, o Janus-Pro integra texto e imagens por meio do treinamento em conjuntos de dados descritivos de texto para imagem de alta qualidade. Diferentemente das versões anteriores, o Janus-Pro ignora abordagens ineficientes e usa prompts densos para obter melhores resultados.
- Ajuste final: Esse estágio ajusta o equilíbrio dos dados de treinamento— multimodal, somente texto e texto para imagem—de 7:3:10 para 5:1:4.
Dados maiores e dimensionamento de modelos
O Janus-Pro amplia seus recursos usando tanto dados do mundo real quanto dados sintéticos em partes iguais. Essa combinação não apenas garante resultados de maior qualidade, mas também melhora a estabilidade durante tarefas como a geração de imagens.
Janus-Pro vs. DALL-E 3
Nesta seção, compararei o Janus-Pro-7B e o DALL-E 3 na compreensão multimodal e na geração de imagens a partir de texto. Essa comparação tem o objetivo de dar a você uma noção prática desses modelos em ação, mas não substitui a profundidade das medições sistemáticas de benchmark.
Compreensão multimodal
Carreguei a imagem abaixo e perguntei ao Janus-Pro-7B e ao DALL-E 3:
"Em uma frase, qual é a principal conclusão dessa imagem?"
Fonte: Página do GitHub do Janus-Pro.
Aqui estão as respostas:
Janus-Pro: A principal conclusão dessa imagem é que o modelo Janus atinge o desempenho médio mais alto em tarefas de compreensão multimodal, além de demonstrar alta precisão em benchmarks de cumprimento de instruções para geração de imagens a partir de texto.
DALL-E 3: Os modelos Janus-Pro, especialmente o Janus-Pro-7B, superam outros modelos multimodais em benchmarks de compreensão e de cumprimento de instruções, demonstrando recursos sólidos em tarefas de texto e imagem.
Embora ambos os modelos resumam bem o gráfico, o Janus-Pro se refere incorretamente ao "modelo Janus", deixando de diferenciá-lo do Janus-Pro. O DALL-E 3, no entanto, identifica especificamente "modelos Janus-Pro, particularmente Janus-Pro-7B", demonstrando melhor compreensão contextual.
Esse é apenas um exemplo isolado, portanto, não podemos tirar conclusões gerais.
Geração de imagens a partir de texto
Tentei esse prompt porque pode ser algo que tenha um uso real na prática:
"Um projeto de um escritório moderno com estações de trabalho colaborativas, salas de reunião privadas e luz natural, apresentado como uma renderização em estilo 3D"
O DALL-E 3 gerou esta imagem abaixo, que atende a todos os elementos do prompt: escritório moderno, estações de trabalho colaborativas, salas de reunião privadas, luz natural e renderização em estilo 3D. No entanto, se você observar com atenção, perceberá alguns artefatos, como:
- Os reflexos nos painéis de vidro superiores à esquerda parecem ligeiramente deformados, especialmente a luminária circular.
- Alguns dos itens nas mesas (lâmpadas, papéis e computadores) têm bordas borradas ou não naturais, indicando possíveis erros de mesclagem de IA.
- As cadeiras de escritório, especialmente a do meio, parecem um pouco distorcidas, principalmente as pernas e a forma como interagem com o chão (os apoios de braço também não estão posicionados corretamente).
Fiz um prompt para o Janus-Pro-7B no Hugging Face. O modelo gerou cinco imagens, e todas elas ficaram muito ruins:
Observando a primeira imagem, podemos identificar alguns artefatos importantes sem muito esforço:
- O teto tem um efeito de distorção não natural, com luminárias duplicadas e desalinhadas que parecem esticadas ou flutuantes.
- Algumas mesas têm um formato estranho, com ângulos inconsistentes e sobreposições não naturais. Algumas cadeiras parecem parcialmente derretidas ou fundidas com o piso.
- O espaço reservado à direita tem uma aparência estranha e derretida, com a cadeira dentro dela parecendo deformada e desconectada.
Você poderá reproduzir esse resultado no Hugging Face usando o mesmo prompt e os parâmetros e sementes a seguir:
Apesar de fazer experiências com diferentes parâmetros e sementes, não consegui produzir resultados melhores com o Janus-Pro-7B. Novamente, esse é apenas um exemplo e não fornece evidências suficientes para tirar conclusões amplas sobre qualquer um dos modelos.
Janus-Pro Benchmarks
O Janus-Pro foi testado em vários benchmarks para medir seu desempenho tanto na compreensão multimodal quanto na geração de imagens a partir de texto. Os resultados mostram melhorias em relação ao seu antecessor, o Janus, e o colocam entre os modelos de melhor desempenho em sua categoria.
Fonte: Página do GitHub do Janus-Pro.
O gráfico à esquerda na imagem acima mostra o desempenho do Janus-Pro em quatro benchmarks de compreensão multimodal. A equipe do DeepSeek ficou na média de precisão do POPE, MME-Perception, GQA e MMMU. A principal conclusão é que o Janus-Pro-7B supera sua contraparte menor, o Janus-Pro-1B, bem como outros modelos multimodais, como o LLaVA-v1.5-7B e o VILA-U.
O gráfico à direita compara o Janus-Pro-7B com outros modelos líderes em benchmarks de cumprimento de instruções para geração de imagens a partir de texto, especificamente GenEval e DPG-Bench:
- No GenEval, que avalia a capacidade de um modelo de seguir instruções de texto para gerar imagens, o Janus-Pro-7B obteve uma pontuação de 80,0%, superando o DALL-E 3 (67%) e o SD3-Medium (74%).
- No DPG-Bench, que testa a precisão na execução detalhada de prompts, o Janus-Pro-7B obteve uma pontuação de 84,2%, superando todos os outros modelos.
Como acessar o Janus-Pro
Você pode experimentar o Janus-Pro sem configurações complexas usando alguns métodos diferentes.
Demonstração on-line no Hugging Face
A maneira mais rápida de testar o Janus-Pro é por meio da sua demonstração do Hugging Face Spacesem que você pode escrever prompts e gerar texto ou imagens diretamente no navegador. Não requer instalação ou configuração.
GUI local com o Gradio
Se você preferir uma configuração local com uma interface fácil de usar, o DeepSeek fornece uma demonstração baseada no Gradio. Isso permite que você interaja com o Janus-Pro por meio de uma GUI baseada na Web em seu computador. Para usá-lo, siga as instruções no repositório oficial do Janus no GitHub.
Conclusão
O Janus-Pro é a mais recente iniciativa da DeepSeek no espaço da IA multimodal, oferecendo uma alternativa de código aberto a modelos como o DALL-E 3. Ele é melhor que seu antecessor com melhor treinamento, conjuntos de dados maiores e uma arquitetura desacoplada para lidar com textos e imagens de forma mais eficaz.
Na minha comparação direta com o DALL-E 3, o Janus-Pro mostrou alguns pontos fracos na geração de imagens a partir de texto, produzindo artefatos e inconsistências perceptíveis. No entanto, ele teve um bom desempenho em tarefas de compreensão multimodal. Dito isso, este é apenas um teste limitado e não fornece evidências suficientes para tirar conclusões gerais sobre os recursos gerais do modelo.
Perguntas frequentes
Que hardware é necessário para executar o Janus-Pro localmente?
O Janus-Pro pode ser executado em GPUs de nível de consumidor nos modelos menores, como a versão 1B. Para o modelo 7B maior, recomenda-se uma GPU de ponta com VRAM suficiente, como uma NVIDIA A100 ou similar.
O Janus-Pro é adequado para aplicações em tempo real?
Embora o Janus-Pro seja eficiente, seu desempenho depende do hardware em que estiver sendo executado. Aplicações em tempo real podem exigir recursos computacionais significativos, especialmente com o modelo 7B.
O Janus-Pro oferece suporte a outros idiomas além do inglês?
Sim, o Janus-Pro inclui conjuntos de dados destinados a aprimorar os recursos multilíngues, incluindo dados de conversação em chinês e outros, tornando-o adequado para tarefas em vários idiomas.
O Janus-Pro pode gerar imagens de alta resolução?
Atualmente, o Janus-Pro gera imagens com uma resolução de 384×384 pixels.
O Janus-Pro pode ser ajustado para aplicações específicas?
Sim, como um modelo de código aberto, o Janus-Pro pode ser ajustado usando conjuntos de dados específicos do domínio para aplicações personalizadas.

Você é um especialista em Python, marketing e estratégia de conteúdo, SEO, edição e redação. Técnico - escrevi cursos sobre Python, estatística e probabilidade. Mas também publiquei um romance premiado. Edição de vídeo e gradação de cores no DaVinci.
Aprenda IA com estes cursos!
programa
Fundamentos de Llama
curso