programa
Alibaba acaba de presentar su último modelo de lenguaje grande, Qwen3.5. Este lanzamiento llega como respuesta a novedades recientes como GPT-5.3 Codex y Claude Opus 4.6, que nos dejaron muy buenas sensaciones.
Según Alibaba, Qwen 3.5 está "pensado para la era de la IA agente", y el modelo visión-lenguaje promete ser más barato y eficiente que su predecesor, con métricas de rendimiento muy sólidas en varios benchmarks de primer nivel.
Alibaba también lanza Qwen3.5-Plus, una versión premium con una ventana de contexto de 1 millón de tokens que apunta directamente a Gemini 3.
En este artículo te cuento las novedades clave de Qwen3.5 y Qwen3.5-Plus, cómo se comparan con sus competidores, qué dicen los benchmarks y cómo puedes acceder a estos nuevos modelos.
No te pierdas también nuestras guías de los últimos modelos de la competencia, como Claude Sonnet 4.6 o GPT-5.3 Instant.
¿Qué es Qwen3.5?
Qwen3.5 es la última generación de la serie de modelos de lenguaje grande (LLM) de Alibaba, Qwen3.5-397B-A17B. A diferencia de la familia Qwen3 anterior, Qwen3.5 combina modelos especializados en un único modelo nativo de visión y lenguaje. Como los modelos Qwen anteriores, es de código abierto bajo la licencia Apache 2.0.
Se posiciona como un modelo fundacional de propósito general para casos de uso tanto de consumo como empresariales, y está diseñado para flujos de trabajo multimodales y agentes nativos. Qwen3.5-397B-A17B ofrece dos modos:
- "Thinking" para tareas que requieren razonamiento profundo
- "Fast" para inferencia rápida en tareas rutinarias
Qwen3.5 vs Qwen3.5-Plus
Qwen3.5-Plus es un servicio alojado y solo accesible por API que corresponde a Qwen3.5-397B-A17B y no es un modelo de pesos abiertos en sí mismo. La nota de lanzamiento puede resultar algo confusa en este punto: al mencionar Qwen3.5-Plus puede parecer un modelo aparte, pero en realidad es el servicio propietario de Alibaba basado en el mismo modelo.
Aunque Qwen3.5-Plus se basa en el modelo Qwen3.5-397B-A17B, hay diferencias a tener en cuenta. Solo se puede acceder a través de Alibaba Cloud Model Studio con pago por token, y mediante la interfaz Qwen Chat con acceso limitado.
Qwen3.5-Plus utiliza una ventana de contexto ampliada de 1 millón de tokens, frente a los 256K tokens de la versión estándar Qwen3.5. Además de los modos "Thinking" y "Fast", Qwen3.5-Plus incluye un modo "Auto" con razonamiento adaptativo que, además de pensar, puede usar herramientas como búsqueda e intérprete de código.
Funciones clave de Qwen3.5
Veamos algunas de las novedades que trae Qwen3.5:
Capacidades multimodales nativas
De forma similar a cómo OpenAI combinó sus modelos estándar y Codex en el reciente GPT-5.3 Codex, Alibaba ha unido texto, visión e interacción con interfaces en un único modelo.
Qwen3.5 se ha entrenado conjuntamente con texto, imágenes, capturas de pantalla de interfaces y contenido estructurado. Soporta preguntas y respuestas visuales, comprensión de documentos e interpretación de gráficos/tablas, y maneja el anclaje a nivel de píxel para identificar e interactuar con elementos en pantalla.
Capacidades de agente visual
Esto nos lleva al siguiente foco clave del nuevo Qwen3.5. Gracias al amplio entrenamiento con capturas de interfaz, el modelo puede reconocer y actuar sobre interfaces móviles y de escritorio. Esto le permite ejecutar flujos de trabajo multietapa como:
- Rellenar formularios
- Navegar por apps
- Cambiar ajustes del sistema
- Organizar archivos
Esto hace que Qwen3.5 sea ideal para automatizar productividad. Con instrucciones en lenguaje natural, puedes permitir que el agente visual de Qwen actúe en varias aplicaciones y complete flujos de trabajo complejos. Incluso puede mantener el estado a lo largo de secuencias largas de interacción, lo que facilita una orquestación sólida de herramientas y apps.
Más rendimiento y eficiencia
Qwen3.5 es un modelo enorme, con 397 mil millones de parámetros totales, aunque solo activa 17 mil millones por token gracias a la arquitectura mixture-of-experts. En esencia, tiene la inteligencia de un modelo gigante, con la velocidad y eficiencia de coste de uno mucho más pequeño.
En la práctica, esto significa que, frente a Qwen3-Max, Qwen3.5 397B-A17B es 19 veces más rápido decodificando tareas de contexto largo (256k tokens) y 8,6 veces más rápido en flujos estándar. Lo importante: esta velocidad no sacrifica inteligencia; iguala el rendimiento en razonamiento y programación de Qwen3-Max y supera a Qwen3-VL gracias a la fusión temprana de texto y vídeo.
Mejor eficiencia de costes
A la par de la mejora de rendimiento, también vemos eficiencias de coste con este modelo.
Del mismo modo, una canalización nativa en FP8 (procesando en 8 bits en lugar de los 16 estándar) reduce un 50% la memoria necesaria para ejecutar Qwen3.5. Así, los cálculos se realizan más rápido, mejorando la velocidad en más de un 10% a escala del billón de tokens.
Qwen3.5 también incorpora un vocabulario impresionante de 250k, que le permite expresar conceptos complejos con menos tokens. Junto con predicciones multi-token, el modelo puede "adivinar" varias palabras futuras en un solo paso, reduciendo el coste de tokens entre un 10% y un 60% en 201 idiomas.
Cómo se desarrolló Qwen3.5
El desarrollo de Qwen3.5 utilizó una infraestructura a medida que hace que entrenar modelos multimodales y con capacidades de agente sea (casi) tan rápido y barato como los modelos puramente de texto. El enfoque especial se apoya en tres componentes clave:
- Calidad de los datos
- Infraestructura heterogénea
- Aprendizaje por refuerzo (RL) asíncrono
Calidad de los datos
El equipo de Alibaba recopiló muchos más datos texto-visuales que para la familia Qwen3, pero los filtró con gran rigor para asegurar entradas de alta calidad. El resultado permite que el modelo de 397B parámetros iguale la inteligencia de modelos mucho mayores de 1T parámetros, como Qwen3-Max.
Infraestructura heterogénea
Las partes de visión y lenguaje se entrenaron por separado, pero en paralelo. Como ninguna tiene que esperar a la otra, esta superposición logra casi el 100% de rendimiento de entrenamiento frente a modelos solo de texto.
Aprendizaje por refuerzo asíncrono
Usando compresión FP8 (almacenando números con la mitad de bits) y decodificación especulativa (anticipación), los agentes ejecutan miles de tareas en paralelo mientras el entrenamiento continúa en segundo plano sin esperas. Esto aceleró el entrenamiento sin pérdidas de calidad significativas, de modo que Qwen3.5 aprendió habilidades de agente complejas, como clics en UI o tareas multietapa, entre 3 y 5 veces más rápido.

Benchmarks de Qwen3.5
El rendimiento del nuevo modelo de Alibaba ya se ha validado en muchas tareas. Vamos a centrarnos en los resultados de flujos de trabajo con agentes y multimodales, además de habilidades generales de razonamiento.

Flujos de trabajo con agentes
El área donde Qwen3.5 más mejora respecto a la familia Qwen3 es en flujos de trabajo con agentes.
- Programación en terminal con agente: El salto más notable está en Terminal-Bench 2.0, donde Qwen3.5 alcanza 52,5 frente a solo 22,5 de Qwen3-Max-Thinking, y compite con Gemini 3 Pro (54,2). Dicho esto, se queda bastante por detrás del líder actual, el reciente GPT-5.3 Codex (77,3).
- Búsqueda con agente: Aquí parece estar el gran punto fuerte de Qwen3.5. Logra un destacable 78,6 en BrowseComp, superando con creces a Gemini 3 Pro (59,2) y quedando segundo solo por detrás de Claude Opus 4.6 (84,0)
Multimodalidad
La multimodalidad también ha mejorado notablemente respecto a la familia anterior, especialmente en razonamiento encarnado y reconocimiento de documentos:
- Razonamiento encarnado: Qwen3.5 obtiene 67,5 en ERQA, muy por encima de Qwen3-VL (52,5) y casi a la par de Gemini 3 Pro (70,5)
- Reconocimiento de documentos: Qwen3.5 supera el 90% en OmniDocBench v1.5 con un 90,8, por delante de GPT-5.2 (85,7), Claude Opus 4.5 (87,7) y Gemini 3 Pro (88,5)
- Razonamiento visual: Aquí, Qwen3.5 queda solo ligeramente por debajo de Gemini 3 Pro, con 79,0 en MMMU-Pro y 87,5 en Video-MME (Gemini 3 Pro: 81,0 y 88,4)
Razonamiento, conocimiento y fiabilidad
El razonamiento y el conocimiento no parecen ser el foco principal de esta versión. Aun así, hay mejoras ligeras, especialmente en fiabilidad.
- Seguimiento de instrucciones: Con 76,5 en IFBench, Qwen3.5 parece muy fiable y se sitúa en lo alto del ranking. Como referencia, el líder actual, AWS Nova 2.0 Pro, obtiene 79,0
- Razonamiento a nivel posgrado: La puntuación GPQA Diamond de 88,4 es solo una mejora incremental frente a Qwen3-Max-Thinking (87,4)
- Conocimiento multilingüe: Qwen3.5 alcanza 88,5 en MMMLU, por debajo de Gemini 3 Pro (90,6), pero con una mejora notable frente al modelo anterior (84,4)
Cómo acceder a Qwen3.5
Como en versiones previas, los modelos Qwen3.5 son de código abierto y pueden usarse de varias formas: directamente en la app de chat, vía API, descargándolos para despliegue local o integrándolos en configuraciones personalizadas.
Interfaz de chat
Puedes acceder a Qwen3.5 directamente en chat.qwen.ai con la interfaz de chat de siempre.
El selector de modelo ofrece tanto Qwen3.5-397B-A17B como Qwen3.5-Plus, además de algunos modelos previos de la familia Qwen3 y Qwen2.5-Max.

Acceso por API
El acceso a la API de Qwen 3.5 funciona igual que en Qwen3: endpoints compatibles con OpenAI vía ModelScope (nivel gratuito, cupos diarios) o DashScope/Model Studio (de pago, incluye Qwen3.5-Plus). Actualiza tu ID de modelo a qwen3.5-397b-a17b o qwen3.5-plus y listo.
Pesos abiertos y despliegue local
Como ya se mencionó, los pesos del modelo Qwen3.5-397B-A17B se publicaron bajo la licencia Apache 2.0. Puedes ejecutar Qwen3.5 en local con herramientas como Ollama, LM Studio o vLLM.
Puedes descargar los pesos desde:
Conclusiones
Con sus nuevos agentes visuales, el aumento de rendimiento y la optimización de costes, Qwen3.5 llega con fuerza, presionando no solo a otros modelos chinos, sino también a los de OpenAI y Anthropic.
Como en otros lanzamientos de este año, como GPT-5.3 Codex y Claude Opus 4.6, el foco se desplaza claramente hacia la IA con agentes. El éxito fulgurante de OpenClaw ha demostrado que la gente quiere usos prácticos de la IA, y modelos como Qwen3.5, Seedance 2.0 y el rumoreado próximo lanzamiento de DeepSeek muestran que China está posicionándose rápidamente como líder del mercado en modelos de IA.
Qwen3.5: preguntas frecuentes
¿Cuál es la diferencia entre Qwen3.5 y Qwen3.5-Plus?
Qwen3.5-397B-A17B es el modelo de pesos abiertos que puedes descargar y ejecutar por tu cuenta. Tiene una ventana de contexto de 256k y ofrece los modos "Thinking" (razonamiento profundo) y "Fast". Qwen3.5-Plus es la versión alojada por API. Usa la misma arquitectura pero añade una ventana de contexto de 1 millón de tokens y un modo "Auto" exclusivo, que puede usar de forma adaptativa herramientas como búsqueda web e intérpretes de código sin prompts manuales.
¿Puedo ejecutar Qwen3.5 en local y qué hardware necesito?
Sí, pero requiere hardware potente. Aunque Qwen3.5 solo activa 17B parámetros por token (lo que lo hace rápido), igualmente necesitas cargar los 397B parámetros totales en memoria.
- Modelo completo (FP16/BF16): Requiere ~800 GB de VRAM (se necesita clúster de nivel empresarial).
- Cuantizado (4 bits): Requiere ~220 GB de memoria unificada. Puedes ejecutarlo en un Mac Studio/Pro con chip M-series Ultra (256 GB de RAM) o en un equipo multi‑GPU (p. ej., 3× A100 80 GB o 10× RTX 3090/4090).
¿Qwen3.5 es gratis para uso comercial?
Sí. A diferencia de muchos modelos punteros con licencias comunitarias restrictivas, Qwen3.5 se publica bajo la licencia Apache 2.0. Permite uso comercial sin restricciones, modificación y distribución, lo que lo hace muy atractivo para aplicaciones empresariales.
¿Qué significa realmente "multimodal nativo"?
La mayoría de modelos multimodales (como el anterior Qwen3-VL) usan un enfoque "acoplado a posteriori", donde un modelo de visión separado procesa imágenes y las traduce a rasgos de texto para el modelo de lenguaje. Multimodal nativo significa que Qwen3.5 se entrenó desde el principio para "ver" y "leer" a la vez en un único modelo. Esto da como resultado un procesamiento más rápido y mucha más precisión en tareas que requieren anclaje visual profundo, como comprender pantallas de UI complejas.
¿Cómo se compara Qwen3.5 con el mayor Qwen3-Max?
Qwen3.5 está diseñado para ser un sucesor más eficiente. Aunque Qwen3-Max es un modelo enorme de >1 billón de parámetros, Qwen3.5 iguala su rendimiento en benchmarks clave de razonamiento y código siendo 19 veces más rápido generando texto. Piensa en Qwen3.5 como con el mismo "poder de cerebro" que Max, pero mucho más rápido y barato.

Editor de ciencia de datos en DataCamp | Me encanta hacer previsiones y crear con API.

Escritora y editora de contenidos en el ámbito de la tecnología educativa. Comprometido con la exploración de tendencias de datos y entusiasmado con el aprendizaje de la ciencia de datos.




