Qwen 2,5 Máx: Características, comparación con DeepSeek V3 y más

Infórmate sobre Qwen2.5-Max de Alibaba, un modelo que compite con GPT-4o, Claude 3.5 Sonnet y DeepSeek V3.

Actualizado 29 ene 2025 · 8 min de lectura

Alibaba acaba de lanzar Qwen2.5-Max, su modelo de IA más avanzado hasta la fecha. No se trata de un modelo de razonamiento como DeepSeek R1 o el o1 de OpenAI, lo que significa que no puedes ver su proceso de pensamiento.

Es mejor pensar en Qwen2.5-Max como un modelo generalista y competidor de GPT-4o, Claude 3.5 Sonnet o DeepSeek V3.

En este blog, repasaré qué es Qwen2.5-Max, cómo se desarrolló, cómo se compara con la competencia y cómo puedes acceder a él.

¿Qué es Qwen2,5-Max?

Qwen2.5-Max es el modelo de IA más potente de Alibaba hasta la fecha, diseñado para competir con modelos de primer nivel como GPT-4o, Claude 3.5 Sonnet y DeepSeek V3.

Alibaba, una de las mayores empresas tecnológicas de China, es más conocida por sus plataformas de comercio electrónico, pero también ha construido una fuerte presencia en computación en nube y inteligencia artificial. La serie Qwen forma parte de su ecosistema de IA más amplio, que abarca desde modelos más pequeños de peso abierto hasta sistemas propietarios a gran escala.

A diferencia de algunos modelos Qwen anteriores, Qwen2.5-Max no es de código abierto, lo que significa que sus pesos no están disponibles públicamente.

Entrenado con 20 billones de fichas, Qwen2.5-Max tiene una amplia base de conocimientos y una gran capacidad de IA general. Sin embargo, no es un modelo de razonamiento como DeepSeek R1 o el o1 de OpenAI, lo que significa que no muestra explícitamente su proceso de pensamiento. Sin embargo, dada la actual expansión de la IA de Alibaba, es posible que veamos un modelo de razonamiento dedicado en el futuro, posiblemente con Qwen 3.

¿Cómo funciona Qwen2,5-Max?

Qwen2.5-Max utiliza una Mezcla de Expertos (MoE) una técnica que también emplea DeepSeek V3. Este planteamiento permite ampliar el modelo manteniendo unos costes computacionales manejables. Vamos a desglosar sus componentes clave de una forma fácil de entender.

Arquitectura de Mezcla de Expertos (MDE)

A diferencia de los modelos de IA tradicionales, que utilizan todos sus parámetros para cada tarea, los modelos MoE como Qwen2.5-Max y DeepSeek V3 sólo activan las partes más relevantes del modelo en cada momento.

Puedes pensar en ello como en un equipo de especialistas: si haces una pregunta compleja sobre física, sólo responden los expertos en física, mientras que el resto del equipo permanece inactivo. Esta activación selectiva significa que el modelo puede manejar el procesamiento a gran escala de forma más eficiente sin requerir cantidades extremas de potencia de cálculo.

Este método hace que Qwen2.5-Max sea potente y escalable, lo que le permite competir con modelos densos como GPT-4o y Claude 3.5 Sonnet, y al mismo tiempo consume menos recursos: un modelo denso es aquel en el que todos los parámetros se activan para cada entrada.

Formación y puesta a punto

Qwen2.5-Max se entrenó con 20 billones de tokens, cubriendo una amplia gama de temas, idiomas y contextos.

Para poner 20 billones de tokens en perspectiva, eso equivale aproximadamente a 15 billones de palabras, una cantidad tan enorme que es difícil de comprender. A modo de comparación, la obra de George Orwell 1984 contiene unas 89.000 palabras, lo que significa que Qwen2.5-Max se ha entrenado en el equivalente a 168 millones de ejemplares de 1984.

Sin embargo, los datos de entrenamiento en bruto por sí solos no garantizan un modelo de IA de alta calidad, por lo que Alibaba lo perfeccionó aún más con:

Ajuste fino supervisado (SFT): Los anotadores humanos proporcionaron respuestas de alta calidad para guiar al modelo en la producción de resultados más precisos y útiles.
Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF): El modelo fue entrenado para alinear sus respuestas con las preferencias humanas, garantizando que las respuestas sean más naturales y conscientes del contexto.

Puntos de referencia de Qwen2.5-Max

Qwen2.5-Max se ha probado frente a otros modelos de IA líderes para medir sus capacidades en diversas tareas. Estas pruebas evalúan tanto los modelos instructores (que se ajustan para tareas como chatear y codificar) como los modelos base (que sirven de base bruta antes del ajuste). Comprender esta distinción ayuda a aclarar lo que significan realmente las cifras.

Instruye a los modelos de referencia

Los modelos de instrucción se ajustan a las aplicaciones del mundo real, como la conversación, la codificación y las tareas de conocimiento general. Qwen2.5-Max se compara aquí con modelos como GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405By DeepSeek V3.

Comparación de los modelos instructores. Fuente: QwenLM

Desglosemos rápidamente los resultados:

Arena-Hard (punto de referencia de preferencias): Qwen2.5-Max obtiene una puntuación de 89,4, por delante de DeepSeek V3 (85,5) y Claude 3.5 Sonnet (85,2). Este punto de referencia se aproxima a la preferencia humana en las respuestas generadas por la IA.
MMLU-Pro (conocimiento y razonamiento): Qwen2.5-Max obtiene una puntuación de 76,1, ligeramente por delante de DeepSeek V3 (75,9), pero también ligeramente por detrás del líder Claude 3.5 Sonnet (78,0), y del subcampeón GPT-4o (77,0).
GPQA-Diamante (garantía de calidad de conocimientos generales): Con una puntuación de 60,1, Qwen2.5-Max supera a DeepSeek V3 (59,1), mientras que Claude 3.5 Sonnet lidera con 65,0.
LiveCodeBench (capacidad de codificación): Con 38,7, Qwen2.5-Max está más o menos a la par con DeepSeek V3 (37,6), pero por detrás de Claude 3.5 Sonnet (38,9).
LiveBench (capacidades generales): Qwen2.5-Max lidera con una puntuación de 62,2, superando a DeepSeek V3 (60,5) y Claude 3.5 Sonnet (60,3), lo que indica una amplia competencia en tareas de IA del mundo real.

En general, Qwen2.5-Max demuestra ser un modelo de IA completo, que destaca en tareas basadas en preferencias y en capacidades generales de IA, al tiempo que mantiene conocimientos competitivos y habilidades de codificación.

Modelos base de referencia

Desde GPT-4o y Claude 3.5 Sonnet son modelos propietarios sin versiones base disponibles públicamente, la comparación se limita a modelos de peso abierto como Qwen2.5-Max, DeepSeek V3, LLaMA 3.1-405B y Qwen 2.5-72B. Esto proporciona una imagen más clara de la posición de Qwen2.5-Max frente a los principales modelos abiertos a gran escala.

Comparación de los modelos base. Fuente: QwenLM

Si te fijas bien en el gráfico anterior, está dividido en tres secciones basadas en el tipo de puntos de referencia que se evalúan:

Conocimientos generales y comprensión lingüística (MMLU, MMLU-Pro, BBH, C-Eval, CMMU): Qwen2.5-Max lidera todas las pruebas comparativas en esta categoría, con una puntuación de 87,9 en MMLU y 92,2 en C-Eval, superando a DeepSeek V3 y Llama 3.1-405B. Estos puntos de referencia se centran en la amplitud y profundidad de los conocimientos y en la capacidad de aplicarlos en un contexto de razonamiento.
Codificación y resolución de problemas (HumanEval, MBPP, CRUX-I, CRUX-O): Qwen2.5-Max también es líder en todas las pruebas de rendimiento y rinde bien en tareas relacionadas con la codificación, con una puntuación de 73,2 en HumanEval y 80,6 en MBPP, ligeramente por delante de DeepSeek V3 y significativamente por delante de Llama 3.1-405B. Estos puntos de referencia miden las habilidades de codificación, la resolución de problemas y la capacidad de seguir instrucciones o generar soluciones de forma independiente.
Resolución de problemas matemáticos (GSM8K, MATH): El razonamiento matemático es una de las áreas más fuertes de Qwen2.5-Max, que alcanza 94,5 en GSM8K, muy por delante de DeepSeek V3 (89,3) y Llama 3.1-405B (89,0). Sin embargo, en MATEMÁTICAS, que se centra en la resolución de problemas más complejos, Qwen2.5-Max obtiene una puntuación de 68,5, superando ligeramente a sus competidores pero dejando margen de mejora.

Cómo acceder a Qwen2.5-Max

Acceder a Qwen2.5-Max es sencillo, y puedes probarlo gratis sin ninguna configuración complicada.

Chat de Qwen

La forma más rápida de experimentar Qwen2.5-Max es a través del Chat Qwen de Qwen. Se trata de una interfaz basada en web que te permite interactuar con el modelo directamente en tu navegador, igual que usarías ChatGPT en tu navegador.

Para utilizar el modelo Qwen2,5-Max, haz clic en el menú desplegable del modelo y selecciona Qwen2,5-Max:

Acceso a la API a través de Alibaba Cloud

Para los desarrolladores, Qwen2.5-Max está disponible a través de la API Alibaba Cloud Model Studio. Para utilizarlo, tendrás que registrarte en una cuenta de Alibaba Cloud, activar el servicio Model Studio y generar una clave API.

Como la API sigue el formato de OpenAI, la integración debería ser sencilla si ya estás familiarizado con los modelos de OpenAI. Para obtener instrucciones detalladas de configuración, visita el blog oficial de Qwen2.5-Max.

Conclusión

Qwen2.5-Max es el modelo de IA más capaz de Alibaba hasta la fecha, creado para competir con modelos de primer nivel como GPT-4o, Claude 3.5 Sonnet y DeepSeek V3.

A diferencia de algunos modelos anteriores de Qwen, Qwen2.5-Max no es de código abierto, pero está disponible para probarlo a través del chat de Qwen o mediante el acceso a la API en Alibaba Cloud.

Dada la continua inversión de Alibaba en IA, no sería sorprendente ver un modelo centrado en el razonamiento en el futuro, posiblemente con Qwen 3.

Si quieres leer más noticias sobre IA, te recomiendo estos artículos:

¿Puedes configurar Qwen2.5-Max localmente?

¿Puedes ajustar Qwen2.5-Max?

¿Será Qwen2.5-Max de código abierto en el futuro?

¿Puede Qwen2.5-Max generar imágenes como DALL-E 3 o Janus-Pro?

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Aprende IA con estos cursos

Programa

Fundamentos de la IA

0 min

Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.

Ver detalles

Comienza el curso

Programa

EU AI Fundamentos de la Ley

0 min

Domina la Ley EU AI y los fundamentos de la IA. Aprende a sortear las normativas y a fomentar la confianza con la IA Responsable.

Ver detalles

Comienza el curso

Curso

Implantar soluciones de IA en las empresas

2 h

41.1K

Saca provecho a la IA en la empresa: evalúa sus oportunidades, crea POC, implementa soluciones y desarrolla una estrategia de IA.

Ver detalles

Comienza el curso

Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.

Josep Ferrer

8 min

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Ver más Ver más

¿Qué es Qwen2,5-Max?

¿Cómo funciona Qwen2,5-Max?

Arquitectura de Mezcla de Expertos (MDE)

Formación y puesta a punto

Puntos de referencia de Qwen2.5-Max

Instruye a los modelos de referencia

Modelos base de referencia

Cómo acceder a Qwen2.5-Max

Chat de Qwen

Acceso a la API a través de Alibaba Cloud

Conclusión

Preguntas frecuentes

¿Será Qwen2.5-Max de código abierto en el futuro?

¿Puede Qwen2.5-Max generar imágenes como DALL-E 3 o Janus-Pro?

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Todo lo que sabemos sobre GPT-5

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

EU AI Fundamentos de la Ley

Implantar soluciones de IA en las empresas

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Todo lo que sabemos sobre GPT-5

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Fundamentos de la IA