Saltar al contenido principal

Janus Pro de DeepSeek: características, comparación de DALL-E 3 y más

Conoce el nuevo modelo de IA multimodal de DeepSeek, Janus-Pro, cómo acceder a él y cómo se compara con DALL-E 3 de OpenAI.
Actualizado 4 feb 2025  · 8 min de lectura

El lanzamiento de DeepSeek-R1 sacudió la industria de la IA y provocó importantes caídas en las acciones de NVIDIA y las principales empresas estadounidenses de IA.

DeepSeek acaba de presentar Janus-Pro, su modelo multimodal más reciente diseñado para la generación de texto e imágenes. Al igual que R1, Janus Pro es de código abierto y obtiene buenos resultados en los benchmarks. En pocas palabras, es un serio competidor del DALL-E 3 de OpenAI y del Stable Diffusion de Stability AI en el ámbito de la IA multimodal.

En este blog, te presentaré Janus Pro y explicaré qué es, qué es la IA multimodal, cómo funciona y cómo acceder. También lo compararé con DALL-E 3 con algunos prompts.

¿Qué es Janus-Pro?

Janus-Pro es el modelo de IA multimodal más reciente de DeepSeek, diseñado para manejar tareas que implican tanto texto como imágenes. Introduce varias mejoras respecto al modelo Janus original, como mejores estrategias de entrenamiento, conjuntos de datos más amplios y tamaños de modelo escalados (disponibles en las versiones de parámetros 1B y 7B).

Janus Pro frente a Janus

Janus frente a Janus Pro-7b. Fuente: Documento de lanzamiento de Janus-Pro.

A diferencia de los modelos de IA que se especializan en un solo tipo de entrada, los modelos de IA multimodal como Janus-Pro se construyen para comprender y conectar estas dos modalidades. Por ejemplo, puedes subir una imagen y hacer una pregunta de texto sobre ella, como identificar objetos en la escena, interpretar texto dentro de la imagen o incluso analizar su contexto.

Demostración de reconocimiento de texto con Janus Pro

Reconocimiento de texto con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.

Janus-Pro puede generar imágenes de alta calidad a partir de prompts de texto, como la creación de ilustraciones detalladas, diseños de productos o imágenes realistas basadas en instrucciones específicas. También puede analizar entradas visuales, como identificar objetos en una foto, leer e interpretar texto dentro de una imagen o responder preguntas sobre un gráfico o diagrama.

Generación de texto a imagen con Janus Pro

Generación de texto a imagen con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.

Janus-Pro viene en dos tamaños (parámetros 1B y 7B) que ofrecen flexibilidad en función del hardware del que dispongas.

¿Cómo funciona Janus-Pro?

Janus-Pro está diseñado para manejar tanto la comprensión como la generación de texto e imágenes. Para ello, introduce algunas mejoras inteligentes respecto a su predecesor. Deja que te explique sus componentes clave de una forma más fácil de digerir.

Capacidades de Janus-Pro

Codificación visual desacoplada

Una de las funciones más destacadas de Janus-Pro es que no utiliza un único sistema para gestionar tanto la interpretación como la creación de imágenes. En su lugar, separa estos procesos (codificación visual desacoplada).

Por ejemplo, cuando subes una imagen y haces una pregunta sobre ella, Janus-Pro utiliza un sistema especializado para "leer" la imagen y averiguar qué es importante. En cambio, cuando le pides que cree una imagen a partir de una descripción de texto, cambia a un sistema diferente que se centra en generar elementos visuales. Esta separación permite al modelo realizar mejor ambas tareas y evitar las limitaciones derivadas de obligar a un sistema a encargarse de todo.

Mejora del proceso de formación

El entrenamiento de Janus-Pro se divide en tres etapas, cada una destinada a perfeccionar sus capacidades:

  1. Aprender los conceptos básicos relacionados con imágenes: El entrenamiento del modelo comienza con conjuntos de datos como ImageNety se centra en el reconocimiento de objetos, texto y patrones visuales. Esta etapa se ha ampliado en Janus-Pro, para dar al modelo más tiempo para modelar las dependencias de los píxeles y procesar eficazmente los datos visuales.
  2. Conectar imágenes y texto: En esta fase, Janus-Pro integra texto y elementos visuales y se entrena con conjuntos de datos descriptivos de texto a imagen de alta calidad. A diferencia de las versiones anteriores, Janus-Pro se salta los enfoques ineficaces y utiliza prompts densos para obtener mejores resultados.
  3. Puesta a punto final: Esta etapa ajusta el equilibrio de los datos de entrenamiento (multimodal, solo texto y texto a imagen) de 7:3:10 a 5:1:4.

Mayores datos y escalado de modelos

Janus-Pro amplía sus capacidades al utilizar tanto datos del mundo real como datos sintéticos a partes iguales. Esta mezcla no solo garantiza resultados de mayor calidad, sino que también mejora la estabilidad durante tareas como la generación de imágenes.

Janus-Pro frente a DALL-E 3

En esta sección, compararé Janus-Pro-7B y DALL-E 3 en cuanto a comprensión multimodal y generación de texto a imagen. Esta comparación pretende darte una idea práctica de estos modelos en acción, pero no sustituye la profundidad de las mediciones sistemáticas de referencia.

Comprensión multimodal

He subido la imagen que se muestra a continuación y he preguntado tanto a Janus-Pro-7B como a DALL-E 3:

"En una frase, ¿cuál es la idea principal de esta imagen?"

benchmark de janus-pro

Fuente: Página GitHub de Janus-Pro.

Aquí tienes las respuestas:

Janus-Pro: La principal conclusión de esta imagen es que el modelo Janus consigue el mayor rendimiento medio en las tareas de comprensión multimodal, al tiempo que demuestra una gran precisión en los benchmarks de seguimiento de instrucciones para la generación de texto a imagen.

DALL-E 3: Los modelos Janus-Pro, en particular Janus-Pro-7B, superan a otros modelos multimodales tanto en comprensión como en seguimiento de instrucciones, por lo que demuestran una gran capacidad en tareas de texto e imagen.

Aunque ambos modelos resumen bien el gráfico, Janus-Pro denomina incorrectamente el gráfico "modelo Janus", sin distinguirlo de Janus-Pro. Sin embargo, DALL-E 3 identifica específicamente los "modelos Janus-Pro, en particular Janus-Pro-7B", lo que demuestra una mejor comprensión del contexto.

Se trata solo de un ejemplo aislado, por lo que no podemos sacar conclusiones generales.

Generación de texto a imagen

He probado este prompt porque puede ser algo que tenga un uso real en la práctica:

"Un diseño moderno de un espacio de oficina con puestos de trabajo colaborativos, cabinas de reunión privadas y luz natural, renderizado en estilo 3D"

DALL-E 3 ha generado esta imagen a continuación, que contiene todos los elementos del prompt: espacio de oficina moderno, puestos de trabajo colaborativos, cabinas de reunión privadas, luz natural y renderizado en 3D. Sin embargo, si te fijas bien, notarás bastantes artefactos, como los siguientes:

  1. Los reflejos en los paneles de cristal de la parte superior izquierda parecen ligeramente deformados, especialmente la iluminación circular.
  2. Algunos de los elementos del escritorio (lámparas, papeles y ordenadores) tienen bordes borrosos o poco naturales, lo que indica posibles errores de fusión de la IA.
  3. Las sillas de oficina, especialmente la del centro, parecen ligeramente distorsionadas, sobre todo las patas y cómo interactúan con el suelo (las almohadillas de los reposabrazos tampoco están bien colocadas).

ejemplo de generación de texto a imagen de dall-e 3

He introducido un prompt para Janus-Pro-7B sobre Hugging Face. El modelo ha generado cinco imágenes y todas ellas tienen muy mal aspecto:

Janus-Pro ha generado cinco imágenes

En la primera imagen, podemos detectar algunos artefactos importantes sin mucho esfuerzo:

  1. El techo tiene un efecto de deformación antinatural, con iluminación duplicada y desalineada que parecen estirada o flotando.
  2. Algunos escritorios tienen formas extrañas, con ángulos incoherentes y superposiciones poco naturales. Algunas sillas aparecen parcialmente fundidas o fusionadas con el suelo.
  3. La estructura de la cabina de la derecha tiene un aspecto poco natural y fundido, mientras que la silla que hay en su interior parece deformada y desconectada.

Podrás reproducir este resultado en Hugging Face con el mismo prompt y los siguientes parámetros y semillas:

espacio de Hugging Face para janus-pro-7b

A pesar de experimentar con distintos parámetros y semillas, no pude obtener mejores resultados con Janus-Pro-7B. De nuevo, esto es solo un ejemplo y no aporta pruebas suficientes para sacar conclusiones generales sobre ninguno de los dos modelos.

Benchmarks de Janus-Pro

Janus-Pro se ha probado en varios benchmarks para medir su rendimiento tanto en la comprensión multimodal como en la generación de texto a imagen. Los resultados muestran mejoras respecto a su predecesor, Janus, y lo sitúan entre los modelos de mayor rendimiento de su categoría.

benchmark de janus-pro

Fuente: Página GitHub de Janus-Pro.

El gráfico de la izquierda de la imagen superior muestra el rendimiento de Janus-Pro en cuatro benchmarks de comprensión multimodal: el equipo de DeepSeek promedió la precisión de POPE, MME-Perception, GQA y MMMU. La conclusión clave es que Janus-Pro-7B supera a su homólogo más pequeño, Janus-Pro-1B, así como a otros modelos multimodales como LLaVA-v1,5-7B y VILA-U.

El gráfico de la derecha compara Janus-Pro-7B con otros modelos líderes en bechmarks de seguimiento de instrucciones para la generación de texto a imagen, concretamente GenEval y DPG-Bench:

  • En GenEval, que evalúa lo bien que un modelo sigue prompts de texto para generar imágenes, Janus-Pro-7B obtiene una puntuación del 80,0%, por lo que supera a DALL-E 3 (67%) y SD3-Medium (74%).
  • En DPG-Bench, que comprueba la precisión en la ejecución de prompts detallados, Janus-Pro-7B obtiene una puntuación del 84,2%, por lo que supera a todos los demás modelos.

Cómo acceder a Janus-Pro

Puedes probar Janus-Pro sin una configuración compleja si utilizas algunos métodos diferentes.

Demo en línea con Hugging Face

La forma más rápida de probar Janus-Pro es a través de su demo Hugging Face Spaces, donde puedes introducir prompts y generar texto o imágenes directamente en tu navegador. No requiere instalación ni configuración.

GUI local con Gradio

Si prefieres una configuración local con una interfaz fácil de usar, DeepSeek proporciona una demo basada en Gradio. Esto te permite interactuar con Janus-Pro a través de una GUI basada en la web en tu equipo. Para utilizarla, sigue las instrucciones del repositorio oficial de Janus en el repositorio oficial de GitHub.

Conclusión

Janus-Pro es el último movimiento de DeepSeek en el espacio de la IA multimodal y ofrece una alternativa de código abierto a modelos como DALL-E 3. Mejora a su predecesor con un mejor entrenamiento, conjuntos de datos más amplios y una arquitectura desacoplada para manejar texto e imágenes con mayor eficacia.

En mi comparación directa con DALL-E 3, Janus-Pro mostró algunas debilidades en la generación de texto a imagen y produjo notables artefactos e incoherencias. Sin embargo, obtuvo buenos resultados en tareas de comprensión multimodal. Dicho esto, se trata solo de una prueba limitada y no aporta pruebas suficientes para sacar conclusiones generales sobre las capacidades generales del modelo.

Preguntas frecuentes

¿Qué hardware se necesita para ejecutar Janus-Pro localmente?

Janus-Pro puede ejecutarse en GPU de consumo para modelos más pequeños, como la versión 1B. Para el modelo 7B, más grande, se recomienda una GPU de gama alta con suficiente VRAM, como una NVIDIA A100 o similar.

¿Es Janus-Pro adecuado para aplicaciones en tiempo real?

Aunque Janus-Pro es potente, su rendimiento depende del hardware en el que se ejecute. Las aplicaciones en tiempo real pueden requerir importantes recursos informáticos, especialmente para el modelo 7B.

¿Admite Janus-Pro otros idiomas además del inglés?

Sí, Janus-Pro incluye conjuntos de datos destinados a mejorar las capacidades multilingües, incluidos datos conversacionales en chino y otros idiomas, lo que lo hace adecuado para tareas en varios idiomas.

¿Puede Janus-Pro generar imágenes de alta resolución?

Actualmente, Janus-Pro genera imágenes con una resolución de 384×384 píxeles.

¿Se puede ajustar Janus-Pro para aplicaciones específicas?

Sí, como modelo de código abierto, Janus-Pro puede ajustarse al utilizar conjuntos de datos específicos del dominio para aplicaciones personalizadas.

Temas

Aprende IA con estos cursos

Programa

Fundamentos de la IA

10 horas hr
Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

Los 7 mejores generadores de vídeo de IA para 2024 con vídeos de ejemplo

Descubre los mejores generadores de vídeo de IA disponibles en la actualidad, como RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo y el esperadísimo Sora y Veo de DeepMind.

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

8 min

Tutorial

Introducción al uso de DALL-E 3: Consejos, ejemplos y funciones

Descubre cómo utilizar DALL-E 3 para crear imágenes. Descubre qué es DALL-E 3, sus principales características y cómo utilizar las instrucciones para obtener los mejores resultados.
Kurtis Pykes 's photo

Kurtis Pykes

13 min

Tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.
Dimitri Didmanidze's photo

Dimitri Didmanidze

9 min

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

11 min

Ver másVer más