Qwen 3: Características, comparación DeepSeek-R1, acceso y más

Infórmate sobre el paquete Qwen3, incluida su arquitectura, implantación y pruebas comparativas con DeepSeek-R1 y Gemini 2.5 Pro.

Actualizado 29 abr 2025 · 8 min de lectura

Qwen3 es una de las suites de modelos de peso abierto más completas publicadas hasta la fecha.

Procede del equipo Qwen de Alibaba e incluye modelos que alcanzan un rendimiento de nivel de investigación, así como versiones más pequeñas que pueden ejecutarse localmente en un hardware más modesto.

En este blog, te daré una rápida visión general del conjunto completo de Qwen3, te explicaré cómo se desarrollaron los modelos, recorreré los resultados de las pruebas comparativas y te mostraré cómo puedes acceder a ellos y empezar a utilizarlos.

Nuestro equipo también está trabajando en tutoriales que muestren cómo ejecutar Qwen3 localmente y cómo afinar los modelos de Qwen3. Me aseguraré de actualizar este artículo en cuanto estén listos, así que si vuelves aquí en los próximos 2-3 días, encontrarás enlaces a esos recursos añadidos en esta introducción.

Mantenemos a nuestros lectores al día de lo último en IA enviándoles The Median, nuestro boletín gratuito de los viernes que desglosa las noticias clave de la semana. Suscríbete y mantente alerta en sólo unos minutos a la semana:

¿Qué es Qwen 3?

Qwen3 es la última familia de grandes modelos lingüísticos del equipo Qwen de Alibaba. Todos los modelos de la gama son de licencia abierta Apache 2.0.

Lo que me llamó la atención de inmediato fue la introducción de un presupuesto pensante que los usuarios pueden controlar directamente dentro de la aplicación Qwen. Esto proporciona a los usuarios normales un control granular sobre el proceso de razonamiento, algo que antes sólo podía hacerse mediante programación.

Como podemos ver en los gráficos siguientes, aumentar los presupuestos de pensamiento mejora significativamente el rendimiento, especialmente en matemáticas, codificación y ciencias.

Fuente: Qwen

En las pruebas comparativas, el buque insignia Qwen3-235B-A22B compite con otros modelos de gama alta y obtiene mejores resultados que DeepSeek-R1 en codificación, matemáticas y razonamiento general. Exploremos rápidamente cada modelo y entendamos para qué está diseñado.

Qwen3-235B-A22B

Es el modelo más grande de la gama Qwen3. Utiliza una mezcla de expertos (MdE) con 235.000 millones de parámetros totales y 22.000 millones activos por paso de generación.

En un modelo MoE, sólo se activa un pequeño subconjunto de parámetros en cada paso, lo que lo hace más rápido y barato de ejecutar en comparación con los modelos densos (como el GPT-4o), en los que siempre se utilizan todos los parámetros.

El modelo rinde bien en tareas matemáticas, de razonamiento y de codificación, y en las comparaciones de referencia supera a modelos como DeepSeek-R1.

Qwen3-30B-A3B

Qwen3-30B-A3B es un modelo MoE más pequeño, con 30.000 millones de parámetros totales y sólo 3.000 millones activos en cada paso. A pesar del bajo recuento de activos, su rendimiento es comparable al de modelos mucho más densos como el QwQ-32B. Es una opción práctica para los usuarios que quieren una mezcla de capacidad de razonamiento y menores costes de inferencia. Al igual que el modelo 235B, admite una ventana contextual de 128K y está disponible bajo Apache 2.0.

Modelos densos: 32B, 14B, 8B, 4B, 1,7B, 0,6B

Los seis modelos densos de la versión Qwen3 siguen una arquitectura más tradicional, en la que todos los parámetros están activos en cada paso. Cubren una amplia gama de casos de uso:

Qwen3-32B, 14B, 8B admiten ventanas contextuales de 128K, mientras que Qwen3-4B, 1,7B, 0,6B admiten 32K. Todos son de ponderación abierta y tienen licencia Apache 2.0. Los modelos más pequeños de este grupo son adecuados para implantaciones ligeras, mientras que los más grandes se acercan más a los LLM de uso general.

¿Qué modelo debes elegir?

Qwen3 ofrece distintos modelos en función de la profundidad de razonamiento, la velocidad y el coste computacional que necesites. Aquí tienes un resumen rápido de :

Modelo	Tipo	Contexto Longitud	Lo mejor para
Qwen3-235B-A22B	MoE	128K	Tareas de investigación, flujos de trabajo de agentes, largas cadenas de razonamiento
Qwen3-30B-A3B	MoE	128K	Razonamiento equilibrado con menor coste de inferencia
Qwen3-32B	Denso	128K	Despliegues de uso general de gama alta
Qwen3-14B	Denso	128K	Aplicaciones de gama media que necesitan un razonamiento sólido
Qwen3-8B	Denso	128K	Tareas de razonamiento ligero
Qwen3-4B	Denso	32K	Aplicaciones más pequeñas, inferencia más rápida
Qwen3-1.7B	Denso	32K	Casos de uso móviles e integrados
Qwen3-0,6B	Denso	32K	Ajustes muy ligeros o restringidos

Sitrabajas en tareas que requieren un razonamiento más profundo, el uso de herramientas de agente o el manejo de contextos largos, Qwen3-235B-A22B te proporcionará la mayor flexibilidad.

Para los casos en los que quieras mantener la inferencia más rápida y barata sin dejar de manejar tareas moderadamente complejas, Qwen3-30B-A3B es una opción sólida.

Los modelos densos ofrecen despliegues más sencillos y una latencia predecible, lo que los hace más adecuados para aplicaciones a menor escala.

Cómo se desarrolló Qwen3

Los modelos Qwen3 se construyeron mediante una fase de preentrenamiento de tres etapas, seguida de un proceso de postentrenamiento de cuatro etapas.

El preentrenamiento es cuando el modelo aprende patrones generales a partir de cantidades masivas de datos (lenguaje, lógica, matemáticas, código) sin que se le diga exactamente lo que tiene que hacer. El post-entrenamiento es donde se afina el modelo para que se comporte de formas específicas, como razonar cuidadosamente o seguir instrucciones.

Recorreré ambas partes en términos sencillos, sin entrar demasiado en detalles técnicos.

Formación previa

En comparación con Qwen2.5, el conjunto de datos de preentrenamiento de Qwen3 se amplió considerablemente. Se utilizaron unos 36 billones de fichas, el doble que en la generación anterior. Los datos incluían contenido web, texto extraído de documentos y ejemplos sintéticos de matemáticas y código generados por modelos Qwen2.5 .

El proceso de formación previa siguió tres etapas:

Etapa 1: Se aprendieron habilidades lingüísticas y conocimientos básicos utilizando más de 30 billones de tokens, con una longitud de contexto de 4K.
Etapa 2: El conjunto de datos se perfeccionó para aumentar la proporción de datos de STEM, codificación y razonamiento, y se añadieron 5 billones de tokens adicionales.
Etapa 3: Se utilizaron datos de contexto largo de alta calidad para ampliar los modelos a ventanas de contexto de 32K.

El resultado es que los modelos base Qwen3 densos igualan o superan a los modelos base Qwen2.5 más grandes utilizando menos parámetros, especialmente en las tareas STEM y de razonamiento.

Después de la formación

El pipeline de post-entrenamiento de Qwen3 se centró en integrar el razonamiento profundo y las capacidades de respuesta rápida en un único modelo. Primero echemos un vistazo al diagrama de abajo, y luego te lo explicaré paso a paso:

Qwen 3 tubería post-entrenamiento. Fuente: Qwen

En la parte superior (en naranja), puedes ver la ruta de desarrollo de los "modelos frontera" más grandes, como Qwen3-235B-A22B y Qwen3-32B. Comienza con una Larga Cadena de Pensamiento Arranque en frío (etapa 1), en la que el modelo aprende a razonar paso a paso en tareas más difíciles.

Le sigue el Razonamiento Aprendizaje por Refuerzo (RL) (etapa 2) para fomentar mejores estrategias de resolución de problemas. En la etapa 3, denominada Fusión del Modo de Pensamiento, Qwen3 aprende a equilibrar el razonamiento lento y cuidadoso con respuestas más rápidas. Por último, una etapade RL General mejora su comportamiento en una amplia gama de tareas, como el seguimiento de instrucciones y los casos de uso agéntico.

Debajo (en azul claro), verás la ruta para los "Modelos ligeros", como Qwen3-30B-A3B y los modelos densos más pequeños. Estos modelos se entrenan utilizando destilaciónun proceso en el que el conocimiento de los modelos más grandes se comprime en modelos más pequeños y rápidos sin perder demasiada capacidad de razonamiento.

En términos sencillos: primero se entrenaron los modelos grandes y luego se destilaron de ellos los ligeros. De este modo, toda la familia Qwen3 comparte un estilo de pensamiento similar, incluso en modelos de tamaños muy diferentes.

Puntos de referencia de Qwen 3

Los modelos Qwen3 se evaluaron en una serie de pruebas de razonamiento, codificación y conocimientos generales. Los resultados muestran que el Qwen3-235B-A22B lidera la gama en la mayoría de las tareas, pero los modelos más pequeños Qwen3-30B-A3B y Qwen3-4B también ofrecen un buen rendimiento.

Qwen3-235B-A22B y Qwen3-32B

En la mayoría de las pruebas comparativas, el Qwen3-235B-A22B se encuentra entre los modelos de mejor rendimiento, aunque no siempre es el líder.

Fuente: Qwen

Exploremos rápidamente los resultados anteriores:

ArenaHard (razonamiento general): Géminis 2.5 Pro lidera con 96,4. Qwen3-235B está justo detrás con 95,6, por delante de o1 y DeepSeek-R1.
AIME'24 / AIME'25 (matemáticas): Puntuaciones 85,7 y 81,4. Gemini 2.5 Pro vuelve a estar por encima, pero Qwen3-235B sigue superando a DeepSeek-R1, Grok 3 y o3-mini.
LiveCodeBench (generación de código): 70,7 para el modelo 235B, mejor que la mayoría de los modelos excepto Gemini.
CodeForces Elo (programación competitiva): 2056, superior al de todos los demás modelos de la lista, incluidos DeepSeek-R1 y Gemini 2.5 Pro.
LiveBench (tareas generales del mundo real): 77,1, de nuevo sólo superado por Gemini 2.5 Pro.
MultiIF (razonamiento multilingüe): El Qwen3-32B, más pequeño, obtiene aquí mejores resultados (73,0), pero sigue por detrás de Géminis (77,8).

Qwen3-30B-A3B y Qwen3-4B

Qwen3-30B-A3B (el modelo MoE más pequeño) obtiene buenos resultados en casi todas las pruebas comparativas, igualando o superando sistemáticamente a los modelos densos de tamaño similar.

ArenaHard: 91.0—above QwQ-32B (89.5), DeepSeek-V3 (85.5), and GPT-4o (85.3).
AIME'24 / AIME'25: 80,4 -ligeramente por delante de QwQ-32B, pero muy por delante de los demás modelos.
CodeForces Elo: 1974 - justo debajo de QwQ-32B (1982).
GPQA (garantía de calidad a nivel de postgrado): 65,8 -aproximadamente empatado con QwQ-32B.
MultiIF: 72,2-mayor que QwQ-32B (68,3).

Fuente: Qwen

Qwen3-4B muestra un rendimiento sólido para su tamaño:

ArenaHard: 76.6
AIME'24 / AIME'25: 73,8 y 65,6, claramente más fuertes que los anteriores modelos Qwen2,5, mucho más grandes, y que modelos como Gemma-27B-IT.
CodeForces Elo: 1671: no compite con los modelos más grandes, pero está a la altura de su categoría de peso.
MultiIF: 66,3 -respetable para un modelo 4B denso, y notablemente por delante de muchas líneas de base de tamaño similar.

Cómo acceder a Qwen3

Los modelos Qwen3 están disponibles públicamente y pueden utilizarse en la aplicación de chat, a través de la API, descargarse para su despliegue local o integrarse en configuraciones personalizadas.

Interfaz de chat

Puedes probar Qwen3 directamente en chat.qwen.ai.

Sólo podrás acceder a tres modelos de la familia Qwen 3 en la aplicación de chat: Qwen3-235B, Qwen3-30B y Qwen3-32B:

Acceso a la API de Qwen 3

Qwen3 funciona con formatos de API compatibles con OpenAI a través de proveedores como ModelScope o DashScope. Herramientas como vLLM y SGLang ofrecen un servicio eficaz para el despliegue local o autoalojado. El blog oficial de Qwen 3 tiene más detalles al respecto.

Pesas abiertas

Todos los modelos Qwen3 -tanto los MoE como los densos- se publican bajo licencia Apache 2.0. Están disponibles en:

Despliegue local

También puedes ejecutar Qwen3 localmente utilizando:

Ollama
LM Studio
llama.cpp
KTransformadores

Conclusión

Qwen3 es una de las suites de modelos de peso abierto más completas publicadas hasta la fecha.

El modelo insignia 235B MoE rinde bien en tareas de razonamiento, matemáticas y codificación, mientras que las versiones 30B y 4B ofrecen alternativas prácticas para implantaciones a menor escala o con un presupuesto ajustado. La posibilidad de ajustar el presupuesto de pensamiento del modelo añade una capa extra de flexibilidad para los usuarios habituales.

En su estado actual, Qwen3 es una versión muy completa que cubre una amplia gama de casos de uso y está lista para utilizarse tanto en entornos de investigación como de producción.

¿Puedo utilizar Qwen3 en productos comerciales?

¿Puedo afinar los modelos Qwen3?

¿Admite Qwen3 la llamada a funciones o el uso de herramientas?

¿Ofrece Qwen3 soporte multilingüe de fábrica?

Author

Alex Olteanu

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Aprende IA con estos cursos

Programa

Fundamentos de la IA

0 min

Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.

Ver detalles

Comienza el curso

Programa

EU AI Fundamentos de la Ley

0 min

Domina la Ley EU AI y los fundamentos de la IA. Aprende a sortear las normativas y a fomentar la confianza con la IA Responsable.

Ver detalles

Comienza el curso

Programa

Llama Fundamentals

0 min

Experimenta con Llama 3 para ejecutar la inferencia en modelos preentrenados, afinarlos en conjuntos de datos personalizados y optimizar el rendimiento.

Ver detalles

Comienza el curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.

Josep Ferrer

8 min

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver más Ver más

¿Qué es Qwen 3?

Qwen3-235B-A22B

Qwen3-30B-A3B

Modelos densos: 32B, 14B, 8B, 4B, 1,7B, 0,6B

¿Qué modelo debes elegir?

Cómo se desarrolló Qwen3

Formación previa

Después de la formación

Puntos de referencia de Qwen 3

Qwen3-235B-A22B y Qwen3-32B

Qwen3-30B-A3B y Qwen3-4B

Cómo acceder a Qwen3

Interfaz de chat

Acceso a la API de Qwen 3

Pesas abiertas

Despliegue local

Conclusión

Preguntas frecuentes

¿Admite Qwen3 la llamada a funciones o el uso de herramientas?

¿Ofrece Qwen3 soporte multilingüe de fábrica?

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Todo lo que sabemos sobre GPT-5

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

EU AI Fundamentos de la Ley

Llama Fundamentals

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Todo lo que sabemos sobre GPT-5

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Visión GPT-4: Guía completa para principiantes

Fundamentos de la IA