Programa
El lanzamiento de DeepSeek-R1 sacudió la industria de la IA y provocó importantes caídas en las acciones de NVIDIA y las principales empresas estadounidenses de IA.
DeepSeek acaba de presentar Janus-Pro, su modelo multimodal más reciente diseñado para la generación de texto e imágenes. Al igual que R1, Janus Pro es de código abierto y obtiene buenos resultados en los benchmarks. En pocas palabras, es un serio competidor del DALL-E 3 de OpenAI y del Stable Diffusion de Stability AI en el ámbito de la IA multimodal.
En este blog, te presentaré Janus Pro y explicaré qué es, qué es la IA multimodal, cómo funciona y cómo acceder. También lo compararé con DALL-E 3 con algunos prompts.
¿Qué es Janus-Pro?
Janus-Pro es el modelo de IA multimodal más reciente de DeepSeek, diseñado para manejar tareas que implican tanto texto como imágenes. Introduce varias mejoras respecto al modelo Janus original, como mejores estrategias de entrenamiento, conjuntos de datos más amplios y tamaños de modelo escalados (disponibles en las versiones de parámetros 1B y 7B).
Janus frente a Janus Pro-7b. Fuente: Documento de lanzamiento de Janus-Pro.
A diferencia de los modelos de IA que se especializan en un solo tipo de entrada, los modelos de IA multimodal como Janus-Pro se construyen para comprender y conectar estas dos modalidades. Por ejemplo, puedes subir una imagen y hacer una pregunta de texto sobre ella, como identificar objetos en la escena, interpretar texto dentro de la imagen o incluso analizar su contexto.
Reconocimiento de texto con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.
Janus-Pro puede generar imágenes de alta calidad a partir de prompts de texto, como la creación de ilustraciones detalladas, diseños de productos o imágenes realistas basadas en instrucciones específicas. También puede analizar entradas visuales, como identificar objetos en una foto, leer e interpretar texto dentro de una imagen o responder preguntas sobre un gráfico o diagrama.
Generación de texto a imagen con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.
Janus-Pro viene en dos tamaños (parámetros 1B y 7B) que ofrecen flexibilidad en función del hardware del que dispongas.
¿Cómo funciona Janus-Pro?
Janus-Pro está diseñado para manejar tanto la comprensión como la generación de texto e imágenes. Para ello, introduce algunas mejoras inteligentes respecto a su predecesor. Deja que te explique sus componentes clave de una forma más fácil de digerir.
Codificación visual desacoplada
Una de las funciones más destacadas de Janus-Pro es que no utiliza un único sistema para gestionar tanto la interpretación como la creación de imágenes. En su lugar, separa estos procesos (codificación visual desacoplada).
Por ejemplo, cuando subes una imagen y haces una pregunta sobre ella, Janus-Pro utiliza un sistema especializado para "leer" la imagen y averiguar qué es importante. En cambio, cuando le pides que cree una imagen a partir de una descripción de texto, cambia a un sistema diferente que se centra en generar elementos visuales. Esta separación permite al modelo realizar mejor ambas tareas y evitar las limitaciones derivadas de obligar a un sistema a encargarse de todo.
Mejora del proceso de formación
El entrenamiento de Janus-Pro se divide en tres etapas, cada una destinada a perfeccionar sus capacidades:
- Aprender los conceptos básicos relacionados con imágenes: El entrenamiento del modelo comienza con conjuntos de datos como ImageNety se centra en el reconocimiento de objetos, texto y patrones visuales. Esta etapa se ha ampliado en Janus-Pro, para dar al modelo más tiempo para modelar las dependencias de los píxeles y procesar eficazmente los datos visuales.
- Conectar imágenes y texto: En esta fase, Janus-Pro integra texto y elementos visuales y se entrena con conjuntos de datos descriptivos de texto a imagen de alta calidad. A diferencia de las versiones anteriores, Janus-Pro se salta los enfoques ineficaces y utiliza prompts densos para obtener mejores resultados.
- Puesta a punto final: Esta etapa ajusta el equilibrio de los datos de entrenamiento (multimodal, solo texto y texto a imagen) de 7:3:10 a 5:1:4.
Mayores datos y escalado de modelos
Janus-Pro amplía sus capacidades al utilizar tanto datos del mundo real como datos sintéticos a partes iguales. Esta mezcla no solo garantiza resultados de mayor calidad, sino que también mejora la estabilidad durante tareas como la generación de imágenes.
Janus-Pro frente a DALL-E 3
En esta sección, compararé Janus-Pro-7B y DALL-E 3 en cuanto a comprensión multimodal y generación de texto a imagen. Esta comparación pretende darte una idea práctica de estos modelos en acción, pero no sustituye la profundidad de las mediciones sistemáticas de referencia.
Comprensión multimodal
He subido la imagen que se muestra a continuación y he preguntado tanto a Janus-Pro-7B como a DALL-E 3:
"En una frase, ¿cuál es la idea principal de esta imagen?"
Fuente: Página GitHub de Janus-Pro.
Aquí tienes las respuestas:
Janus-Pro: La principal conclusión de esta imagen es que el modelo Janus consigue el mayor rendimiento medio en las tareas de comprensión multimodal, al tiempo que demuestra una gran precisión en los benchmarks de seguimiento de instrucciones para la generación de texto a imagen.
DALL-E 3: Los modelos Janus-Pro, en particular Janus-Pro-7B, superan a otros modelos multimodales tanto en comprensión como en seguimiento de instrucciones, por lo que demuestran una gran capacidad en tareas de texto e imagen.
Aunque ambos modelos resumen bien el gráfico, Janus-Pro denomina incorrectamente el gráfico "modelo Janus", sin distinguirlo de Janus-Pro. Sin embargo, DALL-E 3 identifica específicamente los "modelos Janus-Pro, en particular Janus-Pro-7B", lo que demuestra una mejor comprensión del contexto.
Se trata solo de un ejemplo aislado, por lo que no podemos sacar conclusiones generales.
Generación de texto a imagen
He probado este prompt porque puede ser algo que tenga un uso real en la práctica:
"Un diseño moderno de un espacio de oficina con puestos de trabajo colaborativos, cabinas de reunión privadas y luz natural, renderizado en estilo 3D"
DALL-E 3 ha generado esta imagen a continuación, que contiene todos los elementos del prompt: espacio de oficina moderno, puestos de trabajo colaborativos, cabinas de reunión privadas, luz natural y renderizado en 3D. Sin embargo, si te fijas bien, notarás bastantes artefactos, como los siguientes:
- Los reflejos en los paneles de cristal de la parte superior izquierda parecen ligeramente deformados, especialmente la iluminación circular.
- Algunos de los elementos del escritorio (lámparas, papeles y ordenadores) tienen bordes borrosos o poco naturales, lo que indica posibles errores de fusión de la IA.
- Las sillas de oficina, especialmente la del centro, parecen ligeramente distorsionadas, sobre todo las patas y cómo interactúan con el suelo (las almohadillas de los reposabrazos tampoco están bien colocadas).
He introducido un prompt para Janus-Pro-7B sobre Hugging Face. El modelo ha generado cinco imágenes y todas ellas tienen muy mal aspecto:
En la primera imagen, podemos detectar algunos artefactos importantes sin mucho esfuerzo:
- El techo tiene un efecto de deformación antinatural, con iluminación duplicada y desalineada que parecen estirada o flotando.
- Algunos escritorios tienen formas extrañas, con ángulos incoherentes y superposiciones poco naturales. Algunas sillas aparecen parcialmente fundidas o fusionadas con el suelo.
- La estructura de la cabina de la derecha tiene un aspecto poco natural y fundido, mientras que la silla que hay en su interior parece deformada y desconectada.
Podrás reproducir este resultado en Hugging Face con el mismo prompt y los siguientes parámetros y semillas:
A pesar de experimentar con distintos parámetros y semillas, no pude obtener mejores resultados con Janus-Pro-7B. De nuevo, esto es solo un ejemplo y no aporta pruebas suficientes para sacar conclusiones generales sobre ninguno de los dos modelos.
Benchmarks de Janus-Pro
Janus-Pro se ha probado en varios benchmarks para medir su rendimiento tanto en la comprensión multimodal como en la generación de texto a imagen. Los resultados muestran mejoras respecto a su predecesor, Janus, y lo sitúan entre los modelos de mayor rendimiento de su categoría.
Fuente: Página GitHub de Janus-Pro.
El gráfico de la izquierda de la imagen superior muestra el rendimiento de Janus-Pro en cuatro benchmarks de comprensión multimodal: el equipo de DeepSeek promedió la precisión de POPE, MME-Perception, GQA y MMMU. La conclusión clave es que Janus-Pro-7B supera a su homólogo más pequeño, Janus-Pro-1B, así como a otros modelos multimodales como LLaVA-v1,5-7B y VILA-U.
El gráfico de la derecha compara Janus-Pro-7B con otros modelos líderes en bechmarks de seguimiento de instrucciones para la generación de texto a imagen, concretamente GenEval y DPG-Bench:
- En GenEval, que evalúa lo bien que un modelo sigue prompts de texto para generar imágenes, Janus-Pro-7B obtiene una puntuación del 80,0%, por lo que supera a DALL-E 3 (67%) y SD3-Medium (74%).
- En DPG-Bench, que comprueba la precisión en la ejecución de prompts detallados, Janus-Pro-7B obtiene una puntuación del 84,2%, por lo que supera a todos los demás modelos.
Cómo acceder a Janus-Pro
Puedes probar Janus-Pro sin una configuración compleja si utilizas algunos métodos diferentes.
Demo en línea con Hugging Face
La forma más rápida de probar Janus-Pro es a través de su demo Hugging Face Spaces, donde puedes introducir prompts y generar texto o imágenes directamente en tu navegador. No requiere instalación ni configuración.
GUI local con Gradio
Si prefieres una configuración local con una interfaz fácil de usar, DeepSeek proporciona una demo basada en Gradio. Esto te permite interactuar con Janus-Pro a través de una GUI basada en la web en tu equipo. Para utilizarla, sigue las instrucciones del repositorio oficial de Janus en el repositorio oficial de GitHub.
Conclusión
Janus-Pro es el último movimiento de DeepSeek en el espacio de la IA multimodal y ofrece una alternativa de código abierto a modelos como DALL-E 3. Mejora a su predecesor con un mejor entrenamiento, conjuntos de datos más amplios y una arquitectura desacoplada para manejar texto e imágenes con mayor eficacia.
En mi comparación directa con DALL-E 3, Janus-Pro mostró algunas debilidades en la generación de texto a imagen y produjo notables artefactos e incoherencias. Sin embargo, obtuvo buenos resultados en tareas de comprensión multimodal. Dicho esto, se trata solo de una prueba limitada y no aporta pruebas suficientes para sacar conclusiones generales sobre las capacidades generales del modelo.
Preguntas frecuentes
¿Qué hardware se necesita para ejecutar Janus-Pro localmente?
Janus-Pro puede ejecutarse en GPU de consumo para modelos más pequeños, como la versión 1B. Para el modelo 7B, más grande, se recomienda una GPU de gama alta con suficiente VRAM, como una NVIDIA A100 o similar.
¿Es Janus-Pro adecuado para aplicaciones en tiempo real?
Aunque Janus-Pro es potente, su rendimiento depende del hardware en el que se ejecute. Las aplicaciones en tiempo real pueden requerir importantes recursos informáticos, especialmente para el modelo 7B.
¿Admite Janus-Pro otros idiomas además del inglés?
Sí, Janus-Pro incluye conjuntos de datos destinados a mejorar las capacidades multilingües, incluidos datos conversacionales en chino y otros idiomas, lo que lo hace adecuado para tareas en varios idiomas.
¿Puede Janus-Pro generar imágenes de alta resolución?
Actualmente, Janus-Pro genera imágenes con una resolución de 384×384 píxeles.
¿Se puede ajustar Janus-Pro para aplicaciones específicas?
Sí, como modelo de código abierto, Janus-Pro puede ajustarse al utilizar conjuntos de datos específicos del dominio para aplicaciones personalizadas.