Janus Pro de DeepSeek: características, comparación de DALL-E 3 y más

Conoce el nuevo modelo de IA multimodal de DeepSeek, Janus-Pro, cómo acceder a él y cómo se compara con DALL-E 3 de OpenAI.

Actualizado 4 feb 2025 · 8 min leer

El lanzamiento de DeepSeek-R1 sacudió la industria de la IA y provocó importantes caídas en las acciones de NVIDIA y las principales empresas estadounidenses de IA.

DeepSeek acaba de presentar Janus-Pro, su modelo multimodal más reciente diseñado para la generación de texto e imágenes. Al igual que R1, Janus Pro es de código abierto y obtiene buenos resultados en los benchmarks. En pocas palabras, es un serio competidor del DALL-E 3 de OpenAI y del Stable Diffusion de Stability AI en el ámbito de la IA multimodal.

En este blog, te presentaré Janus Pro y explicaré qué es, qué es la IA multimodal, cómo funciona y cómo acceder. También lo compararé con DALL-E 3 con algunos prompts.

¿Qué es Janus-Pro?

Janus-Pro es el modelo de IA multimodal más reciente de DeepSeek, diseñado para manejar tareas que implican tanto texto como imágenes. Introduce varias mejoras respecto al modelo Janus original, como mejores estrategias de entrenamiento, conjuntos de datos más amplios y tamaños de modelo escalados (disponibles en las versiones de parámetros 1B y 7B).

Janus frente a Janus Pro-7b. Fuente: Documento de lanzamiento de Janus-Pro.

A diferencia de los modelos de IA que se especializan en un solo tipo de entrada, los modelos de IA multimodal como Janus-Pro se construyen para comprender y conectar estas dos modalidades. Por ejemplo, puedes subir una imagen y hacer una pregunta de texto sobre ella, como identificar objetos en la escena, interpretar texto dentro de la imagen o incluso analizar su contexto.

Reconocimiento de texto con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.

Janus-Pro puede generar imágenes de alta calidad a partir de prompts de texto, como la creación de ilustraciones detalladas, diseños de productos o imágenes realistas basadas en instrucciones específicas. También puede analizar entradas visuales, como identificar objetos en una foto, leer e interpretar texto dentro de una imagen o responder preguntas sobre un gráfico o diagrama.

Generación de texto a imagen con Janus-Pro. Fuente: Documento de lanzamiento de Janus-Pro.

Janus-Pro viene en dos tamaños (parámetros 1B y 7B) que ofrecen flexibilidad en función del hardware del que dispongas.

¿Cómo funciona Janus-Pro?

Janus-Pro está diseñado para manejar tanto la comprensión como la generación de texto e imágenes. Para ello, introduce algunas mejoras inteligentes respecto a su predecesor. Deja que te explique sus componentes clave de una forma más fácil de digerir.

Codificación visual desacoplada

Una de las funciones más destacadas de Janus-Pro es que no utiliza un único sistema para gestionar tanto la interpretación como la creación de imágenes. En su lugar, separa estos procesos (codificación visual desacoplada).

Por ejemplo, cuando subes una imagen y haces una pregunta sobre ella, Janus-Pro utiliza un sistema especializado para "leer" la imagen y averiguar qué es importante. En cambio, cuando le pides que cree una imagen a partir de una descripción de texto, cambia a un sistema diferente que se centra en generar elementos visuales. Esta separación permite al modelo realizar mejor ambas tareas y evitar las limitaciones derivadas de obligar a un sistema a encargarse de todo.

Mejora del proceso de formación

El entrenamiento de Janus-Pro se divide en tres etapas, cada una destinada a perfeccionar sus capacidades:

Aprender los conceptos básicos relacionados con imágenes: El entrenamiento del modelo comienza con conjuntos de datos como ImageNety se centra en el reconocimiento de objetos, texto y patrones visuales. Esta etapa se ha ampliado en Janus-Pro, para dar al modelo más tiempo para modelar las dependencias de los píxeles y procesar eficazmente los datos visuales.
Conectar imágenes y texto: En esta fase, Janus-Pro integra texto y elementos visuales y se entrena con conjuntos de datos descriptivos de texto a imagen de alta calidad. A diferencia de las versiones anteriores, Janus-Pro se salta los enfoques ineficaces y utiliza prompts densos para obtener mejores resultados.
Puesta a punto final: Esta etapa ajusta el equilibrio de los datos de entrenamiento (multimodal, solo texto y texto a imagen) de 7:3:10 a 5:1:4.

Mayores datos y escalado de modelos

Janus-Pro amplía sus capacidades al utilizar tanto datos del mundo real como datos sintéticos a partes iguales. Esta mezcla no solo garantiza resultados de mayor calidad, sino que también mejora la estabilidad durante tareas como la generación de imágenes.

Janus-Pro frente a DALL-E 3

En esta sección, compararé Janus-Pro-7B y DALL-E 3 en cuanto a comprensión multimodal y generación de texto a imagen. Esta comparación pretende darte una idea práctica de estos modelos en acción, pero no sustituye la profundidad de las mediciones sistemáticas de referencia.

Comprensión multimodal

He subido la imagen que se muestra a continuación y he preguntado tanto a Janus-Pro-7B como a DALL-E 3:

"En una frase, ¿cuál es la idea principal de esta imagen?"

Fuente: Página GitHub de Janus-Pro.

Aquí tienes las respuestas:

Janus-Pro: La principal conclusión de esta imagen es que el modelo Janus consigue el mayor rendimiento medio en las tareas de comprensión multimodal, al tiempo que demuestra una gran precisión en los benchmarks de seguimiento de instrucciones para la generación de texto a imagen.

DALL-E 3: Los modelos Janus-Pro, en particular Janus-Pro-7B, superan a otros modelos multimodales tanto en comprensión como en seguimiento de instrucciones, por lo que demuestran una gran capacidad en tareas de texto e imagen.

Aunque ambos modelos resumen bien el gráfico, Janus-Pro denomina incorrectamente el gráfico "modelo Janus", sin distinguirlo de Janus-Pro. Sin embargo, DALL-E 3 identifica específicamente los "modelos Janus-Pro, en particular Janus-Pro-7B", lo que demuestra una mejor comprensión del contexto.

Se trata solo de un ejemplo aislado, por lo que no podemos sacar conclusiones generales.

Generación de texto a imagen

He probado este prompt porque puede ser algo que tenga un uso real en la práctica:

"Un diseño moderno de un espacio de oficina con puestos de trabajo colaborativos, cabinas de reunión privadas y luz natural, renderizado en estilo 3D"

DALL-E 3 ha generado esta imagen a continuación, que contiene todos los elementos del prompt: espacio de oficina moderno, puestos de trabajo colaborativos, cabinas de reunión privadas, luz natural y renderizado en 3D. Sin embargo, si te fijas bien, notarás bastantes artefactos, como los siguientes:

Los reflejos en los paneles de cristal de la parte superior izquierda parecen ligeramente deformados, especialmente la iluminación circular.
Algunos de los elementos del escritorio (lámparas, papeles y ordenadores) tienen bordes borrosos o poco naturales, lo que indica posibles errores de fusión de la IA.
Las sillas de oficina, especialmente la del centro, parecen ligeramente distorsionadas, sobre todo las patas y cómo interactúan con el suelo (las almohadillas de los reposabrazos tampoco están bien colocadas).

He introducido un prompt para Janus-Pro-7B sobre Hugging Face. El modelo ha generado cinco imágenes y todas ellas tienen muy mal aspecto:

Janus-Pro ha generado cinco imágenes

En la primera imagen, podemos detectar algunos artefactos importantes sin mucho esfuerzo:

El techo tiene un efecto de deformación antinatural, con iluminación duplicada y desalineada que parecen estirada o flotando.
Algunos escritorios tienen formas extrañas, con ángulos incoherentes y superposiciones poco naturales. Algunas sillas aparecen parcialmente fundidas o fusionadas con el suelo.
La estructura de la cabina de la derecha tiene un aspecto poco natural y fundido, mientras que la silla que hay en su interior parece deformada y desconectada.

Podrás reproducir este resultado en Hugging Face con el mismo prompt y los siguientes parámetros y semillas:

A pesar de experimentar con distintos parámetros y semillas, no pude obtener mejores resultados con Janus-Pro-7B. De nuevo, esto es solo un ejemplo y no aporta pruebas suficientes para sacar conclusiones generales sobre ninguno de los dos modelos.

Benchmarks de Janus-Pro

Janus-Pro se ha probado en varios benchmarks para medir su rendimiento tanto en la comprensión multimodal como en la generación de texto a imagen. Los resultados muestran mejoras respecto a su predecesor, Janus, y lo sitúan entre los modelos de mayor rendimiento de su categoría.

Fuente: Página GitHub de Janus-Pro.

El gráfico de la izquierda de la imagen superior muestra el rendimiento de Janus-Pro en cuatro benchmarks de comprensión multimodal: el equipo de DeepSeek promedió la precisión de POPE, MME-Perception, GQA y MMMU. La conclusión clave es que Janus-Pro-7B supera a su homólogo más pequeño, Janus-Pro-1B, así como a otros modelos multimodales como LLaVA-v1,5-7B y VILA-U.

El gráfico de la derecha compara Janus-Pro-7B con otros modelos líderes en bechmarks de seguimiento de instrucciones para la generación de texto a imagen, concretamente GenEval y DPG-Bench:

En GenEval, que evalúa lo bien que un modelo sigue prompts de texto para generar imágenes, Janus-Pro-7B obtiene una puntuación del 80,0%, por lo que supera a DALL-E 3 (67%) y SD3-Medium (74%).
En DPG-Bench, que comprueba la precisión en la ejecución de prompts detallados, Janus-Pro-7B obtiene una puntuación del 84,2%, por lo que supera a todos los demás modelos.

Cómo acceder a Janus-Pro

Puedes probar Janus-Pro sin una configuración compleja si utilizas algunos métodos diferentes.

Demo en línea con Hugging Face

La forma más rápida de probar Janus-Pro es a través de su demo Hugging Face Spaces, donde puedes introducir prompts y generar texto o imágenes directamente en tu navegador. No requiere instalación ni configuración.

GUI local con Gradio

Si prefieres una configuración local con una interfaz fácil de usar, DeepSeek proporciona una demo basada en Gradio. Esto te permite interactuar con Janus-Pro a través de una GUI basada en la web en tu equipo. Para utilizarla, sigue las instrucciones del repositorio oficial de Janus en el repositorio oficial de GitHub.

Conclusión

Janus-Pro es el último movimiento de DeepSeek en el espacio de la IA multimodal y ofrece una alternativa de código abierto a modelos como DALL-E 3. Mejora a su predecesor con un mejor entrenamiento, conjuntos de datos más amplios y una arquitectura desacoplada para manejar texto e imágenes con mayor eficacia.

En mi comparación directa con DALL-E 3, Janus-Pro mostró algunas debilidades en la generación de texto a imagen y produjo notables artefactos e incoherencias. Sin embargo, obtuvo buenos resultados en tareas de comprensión multimodal. Dicho esto, se trata solo de una prueba limitada y no aporta pruebas suficientes para sacar conclusiones generales sobre las capacidades generales del modelo.

¿Qué hardware se necesita para ejecutar Janus-Pro localmente?

¿Es Janus-Pro adecuado para aplicaciones en tiempo real?

¿Admite Janus-Pro otros idiomas además del inglés?

¿Puede Janus-Pro generar imágenes de alta resolución?

¿Se puede ajustar Janus-Pro para aplicaciones específicas?

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Aprende IA con estos cursos

programa

Fundamentos de la IA

10 h

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

programa

Llama Fundamentals

4 h

Experimenta con Llama 3 para ejecutar la inferencia en modelos preentrenados, afinarlos en conjuntos de datos personalizados y optimizar el rendimiento.

Ver detalles

Iniciar curso

Curso

Desarrollar sistemas de IA con la API OpenAI

3 h

21K

Aprovecha la API OpenAI para preparar tus aplicaciones de IA para la producción.

Ver detalles

Iniciar curso

Relacionado

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Introducción al uso de DALL-E 3: Consejos, ejemplos y funciones

Descubre cómo utilizar DALL-E 3 para crear imágenes. Descubre qué es DALL-E 3, sus principales características y cómo utilizar las instrucciones para obtener los mejores resultados.

Kurtis Pykes

Tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Ver más Ver más

¿Qué es Janus-Pro?

¿Cómo funciona Janus-Pro?

Codificación visual desacoplada

Mejora del proceso de formación

Mayores datos y escalado de modelos

Janus-Pro frente a DALL-E 3

Comprensión multimodal

Generación de texto a imagen

Benchmarks de Janus-Pro

Cómo acceder a Janus-Pro

Demo en línea con Hugging Face

GUI local con Gradio

Conclusión

Preguntas frecuentes

¿Admite Janus-Pro otros idiomas además del inglés?

¿Puede Janus-Pro generar imágenes de alta resolución?

¿Se puede ajustar Janus-Pro para aplicaciones específicas?

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Introducción al uso de DALL-E 3: Consejos, ejemplos y funciones

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Llama Fundamentals

Desarrollar sistemas de IA con la API OpenAI

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Introducción al uso de DALL-E 3: Consejos, ejemplos y funciones

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Fundamentos de la IA