Lernpfad
Alibaba hat soeben sein neuestes großes Sprachmodell vorgestellt: Qwen3.5. Das Modell erscheint als Antwort auf neue Releases wie GPT-5.3 Codex und Claude Opus 4.6, die beide überzeugt haben.
Laut Alibaba ist Qwen 3.5 „für das Zeitalter agentischer KI gebaut“. Das Vision-Language-Modell soll günstiger und effizienter sein als sein Vorgänger und zeigt in mehreren Benchmarks beeindruckende Werte auf Spitzenniveau.
Außerdem bringt Alibaba Qwen3.5-Plus heraus, eine Premium-Variante mit einem Kontextfenster von 1 Million Tokens – klar mit Gemini 3 im Visier.
In diesem Artikel führe ich dich durch die wichtigsten Neuerungen von Qwen3.5 und Qwen3.5-Plus, vergleiche sie mit Wettbewerbern, schaue auf die Benchmarks und erkläre, wie du die neuen Modelle nutzen kannst.
Schau dir dazu auch unsere Guides zu den neuesten Konkurrenzmodellen an, etwa Claude Sonnet 4.6 oder GPT-5.3 Instant.
Was ist Qwen3.5?
Qwen3.5 ist die neueste Generation in Alibabas Reihe großer Sprachmodelle (LLM), Qwen3.5-397B-A17B. Im Gegensatz zur vorherigen Qwen3-Modellfamilie vereint Qwen3.5 spezialisierte Modelle in einem nativen Vision-Language-Modell. Wie frühere Qwen-Modelle ist es Open Source unter der Apache-2.0-Lizenz.
Es ist als vielseitiges Foundation Model für Consumer- wie Enterprise-Use-Cases positioniert und für native multimodale und agentische Workflows ausgelegt. Qwen3.5-397B-A17B bietet zwei Modi:
- „Thinking“ für Aufgaben mit höherem Anspruch an Logik und Schlussfolgern
- „Fast“ für schnelle Inferenz bei Routineaufgaben
Qwen3.5 vs. Qwen3.5-Plus
Qwen3.5-Plus ist ein gehosteter, nur per API nutzbarer Dienst, der dem Qwen3.5-397B-A17B entspricht, selbst aber kein Open-Weight-Modell ist. Die Release Note war diesbezüglich etwas missverständlich: Die Erwähnung von Qwen3.5-Plus könnte wie ein separates Modell klingen, tatsächlich ist es aber Alibabas proprietärer Dienst auf Basis desselben Modells.
Obwohl Qwen3.5-Plus auf dem Modell Qwen3.5-397B-A17B basiert, gibt es Unterschiede: Der Zugang erfolgt ausschließlich über das Alibaba Cloud Model Studio im Pay-per-Token-Modell sowie über die Qwen Chat UI mit eingeschränktem Zugriff.
Qwen3.5-Plus nutzt ein erweitertes Kontextfenster von 1 Million Tokens, gegenüber 256K bei der Standardversion von Qwen3.5. Zusätzlich zu „Thinking“ und „Fast“ gibt es bei Qwen3.5-Plus einen „Auto“-Modus mit adaptivem Denken, der neben Reasoning auch Tools wie Suche und einen Code-Interpreter einsetzen kann.
Die wichtigsten Features von Qwen3.5
Werfen wir einen Blick auf die neuen Funktionen von Qwen3.5:
Native Multimodalität
Ähnlich wie OpenAI in der jüngsten GPT-5.3-Codex-Version Text- und Codex-Modelle vereint hat, kombiniert Alibaba Text, Vision und UI-Interaktion in einem einzigen Modell.
Qwen3.5 wurde gemeinsam auf Text, Bildern, UI-Screenshots und strukturierten Inhalten trainiert. Es unterstützt visuelles Frage-Antworten, Dokumentenverständnis sowie die Interpretation von Diagrammen/Tabellen und beherrscht Pixel-Level-Grounding, um Elemente auf dem Bildschirm zu identifizieren und mit ihnen zu interagieren.
Visuelle agentische Fähigkeiten
Damit kommen wir zum nächsten Schwerpunkt des neuen Qwen3.5. Durch das umfassende Training auf UI-Screenshots erkennt und bedient das Modell mobile wie Desktop-Oberflächen. So kann es mehrstufige Workflows ausführen, etwa:
- Formulare ausfüllen
- Apps navigieren
- Systemeinstellungen ändern
- Dateien organisieren
Das macht Qwen3.5 ideal für Produktivitätsautomatisierung. Mit Anweisungen in natürlicher Sprache kann der visuelle Qwen-Agent über mehrere Apps hinweg handeln und komplexe Workflows abschließen. Er hält dabei sogar über lange Interaktionsfolgen hinweg den Zustand aufrecht und ermöglicht so eine robuste Orchestrierung von Tools und Apps.
Mehr Leistung bei höherer Effizienz
Qwen3.5 ist ein sehr großes Modell mit insgesamt 397 Milliarden Parametern, von denen dank der Mixture-of-Experts-Architektur jedoch pro Token nur 17 Milliarden aktiviert werden. Kurz: die Intelligenz eines Riesenmodells mit der Geschwindigkeit und Kosteneffizienz eines deutlich kleineren.
Konkret heißt das: Im Vergleich zu Qwen3-Max ist Qwen3.5 397B-A17B beim Decoding von Long-Context-Aufgaben (256k Tokens) 19-mal schneller und bei Standardworkflows 8,6-mal schneller. Wichtig: Die Geschwindigkeit geht nicht zulasten der Intelligenz. Beim Reasoning und Coden hält es mit Qwen3-Max mit und übertrifft dank früher Fusion von Text und Video Qwen3-VL.
Bessere Kosteneffizienz
Mit der höheren Leistung kommen auch Kostenvorteile.
Eine native FP8-Pipeline (Verarbeitung in 8-Bit statt üblichen 16-Bit) halbiert den Speicherbedarf für den Betrieb. Dadurch lassen sich Berechnungen schneller durchführen, was im Billionen-Token-Maßstab über 10% mehr Geschwindigkeit bringt.
Qwen3.5 verfügt außerdem über einen beeindruckenden Wortschatz von 250.000 Tokens und kann komplexe Inhalte mit weniger Tokens ausdrücken. Zusammen mit Multi-Token-Vorhersagen kann das Modell mehrere kommende Wörter in einem Schritt „erraten“ und so die Tokenkosten in 201 Sprachen um 10–60% senken.
So wurde Qwen3.5 entwickelt
Für Qwen3.5 kam eine maßgeschneiderte Infrastruktur zum Einsatz, die das Training multimodaler und agentischer Modelle (fast) so schnell und günstig macht wie bei reinen Textmodellen. Der besondere Trainingsansatz beruht auf drei Kernelementen:
- Datenqualität
- Heterogene Infrastruktur
- Asynchrones Reinforcement Learning (RL)
Datenqualität
Das Alibaba-Team hat deutlich mehr visuell-textuelle Daten als für die Qwen3-Familie gesammelt, diese aber sehr streng gefiltert, um hohe Qualität sicherzustellen. Das resultierende High-Quality-Dataset ermöglicht es dem 397B-Parameter-Modell, die Intelligenz deutlich größerer 1T-Parameter-Modelle wie Qwen3-Max zu erreichen.
Heterogene Infrastruktur
Vision- und Sprachkomponenten wurden getrennt, aber gleichzeitig trainiert. Da keine der beiden warten muss, während die andere rechnet, ergibt sich nahezu 100% Trainingsdurchsatz im Vergleich zu reinen Textmodellen.
Asynchrones Reinforcement Learning
Mit FP8-Kompression (Zahlen werden mit halb so vielen Bits gespeichert) und spekulativem Decoding (vorausschauendes „Raten“) führen Agenten tausende Aufgaben gleichzeitig aus, während das Training im Hintergrund weiterläuft. So ließ sich das Training ohne nennenswerte Qualitätsverluste beschleunigen – Qwen3.5 erlernte komplexe Agentenfähigkeiten wie UI-Klicks oder mehrstufige Aufgaben 3–5-mal schneller.

Qwen3.5-Benchmarks
Die Leistung von Alibabas neuem Modell wurde bereits in vielen Aufgabenbereichen validiert. Wir konzentrieren uns auf Ergebnisse in den Schwerpunkten agentische und multimodale Workflows sowie allgemeine Reasoning-Fähigkeiten.

Agentische Workflows
Hier hat sich Qwen3.5 gegenüber der Qwen3-Familie am deutlichsten verbessert.
- Agentic Terminal Coding: Den größten Sprung gab es im Terminal-Bench 2.0: Qwen3.5 erreicht 52,5 gegenüber nur 22,5 bei Qwen3-Max-Thinking und kann mit Gemini 3 Pro (54,2) mithalten. Allerdings liegt es noch deutlich hinter dem aktuellen Spitzenreiter, dem kürzlich veröffentlichten GPT-5.3 Codex (77,3).
- Agentische Suche: Das scheint Qwen3.5s größte Stärke zu sein. Im BrowseComp erreicht es beeindruckende 78,6, schlägt Gemini 3 Pro (59,2) deutlich und landet auf Platz zwei – nur Claude Opus 4.6 (84,0) liegt davor.
Multimodalität
Auch hier gibt es deutliche Fortschritte gegenüber der vorherigen Modellfamilie – besonders beim Embodied Reasoning und der Dokumentenerkennung:
- Embodied Reasoning: Qwen3.5 erzielt 67,5 in ERQA – deutlich mehr als Qwen3-VL (52,5) und fast auf Augenhöhe mit Gemini 3 Pro (70,5).
- Dokumentenerkennung: Qwen3.5 durchbricht in OmniDocBench v1.5 die 90%-Marke mit starken 90,8 und übertrifft GPT-5.2 (85,7), Claude Opus 4.5 (87,7) und Gemini 3 Pro (88,5).
- Visuelles Reasoning: Hier liegt Qwen3.5 nur knapp unter Gemini 3 Pro: 79,0 in MMMU-Pro und 87,5 in Video-MME (Gemini 3 Pro: 81,0 bzw. 88,4).
Reasoning, Wissen und Verlässlichkeit
Reasoning und Wissen standen bei diesem Release offenkundig nicht im Mittelpunkt. Dennoch gibt es leichte Verbesserungen – insbesondere bei der Verlässlichkeit.
- Befolgen von Anweisungen: Mit 76,5 im IFBench wirkt Qwen3.5 sehr zuverlässig und belegt einen Platz weit oben. Zum Vergleich: Der aktuelle Spitzenreiter, AWS Nova 2.0 Pro, erreicht 79,0.
- Reasoning auf Master-Niveau: Der GPQA-Diamond-Score von 88,4 ist nur ein kleiner Zugewinn gegenüber Qwen3-Max-Thinking (87,4).
- Mehrsprachiges Wissen: Qwen3.5 erzielt einen MMMLU-Score von 88,5 – unter Gemini 3 Pro (90,6), aber eine deutliche Verbesserung zum Vorgänger (84,4).
So greifst du auf Qwen3.5 zu
Wie bei früheren Modellen sind die Qwen3.5-Modelle Open Source und lassen sich auf verschiedene Arten nutzen: direkt in der Chat-App, über die API, als Download für den lokalen Betrieb oder integriert in eigene Setups.
Chat-Interface
Du kannst Qwen3.5 direkt unter chat.qwen.ai in der gewohnten Chat-Oberfläche nutzen.
Im Modellauswahl-Menü findest du sowohl Qwen3.5-397B-A17B als auch Qwen3.5-Plus sowie einige Vorgängermodelle aus der Qwen3-Familie und Qwen2.5-Max.

API-Zugang
Der API-Zugang für Qwen 3.5 funktioniert wie bei Qwen3: OpenAI-kompatible Endpunkte über ModelScope (Free-Tier mit Tageskontingenten) oder DashScope/Model Studio (kostenpflichtig, inkl. Qwen3.5-Plus). Aktualisiere einfach deine Model-ID auf qwen3.5-397b-a17b oder qwen3.5-plus – und los geht's.
Open Weights und lokaler Betrieb
Wie erwähnt, wurden die Gewichte von Qwen3.5-397B-A17B unter der Apache-2.0-Lizenz veröffentlicht. Du kannst Qwen3.5 lokal mit Tools wie Ollama, LM Studio oder vLLM ausführen.
Die Gewichte kannst du hier herunterladen:
Fazit
Mit neuen visuellen Agenten, mehr Leistung und optimierten Kosten ist Qwen3.5 ein starkes Release, das nicht nur andere chinesische Modelle unter Druck setzt, sondern auch die Konkurrenz von OpenAI und Anthropic herausfordert.
Wie bei anderen Neuerscheinungen in diesem Jahr – etwa GPT-5.3-Codex und Claude Opus 4.6 – verlagert sich der Fokus klar auf agentische KI. Der rasche Erfolg von OpenClaw zeigt, wie groß der Bedarf an praktischen KI-Anwendungen ist, und Modelle wie Qwen3.5, Seedance 2.0 und das gemunkelte nächste Release von DeepSeek belegen, dass China bei KI-Modellen schnell zur führenden Kraft aufsteigt.
Qwen3.5 FAQs
Was ist der Unterschied zwischen Qwen3.5 und Qwen3.5-Plus?
Qwen3.5-397B-A17B ist das Open-Weight-Modell, das du selbst herunterladen und ausführen kannst. Es bietet ein 256k-Kontextfenster und unterstützt die Modi "Thinking" (tiefes Reasoning) und "Fast". Qwen3.5-Plus ist die gehostete API-Version. Sie basiert auf derselben Architektur, ergänzt aber ein riesiges Kontextfenster mit 1 Million Tokens und einen exklusiven "Auto"-Modus, der adaptiv Tools wie Websuche und Code-Interpreter ohne manuelles Prompting einsetzen kann.
Kann ich Qwen3.5 lokal ausführen und welche Hardware brauche ich?
Ja, aber du brauchst dafür erhebliche Hardware. Auch wenn Qwen3.5 pro Token nur 17B Parameter aktiviert (was es schnell macht), müssen trotzdem die insgesamt 397B Parameter in den Speicher geladen werden.
- Vollmodell (FP16/BF16): Benötigt ca. 800 GB VRAM (Cluster auf Enterprise-Niveau erforderlich).
- Quantisiert (4-Bit): Benötigt ca. 220 GB gemeinsamen Speicher. Das lässt sich z. B. auf einem Mac Studio/Pro mit M‑Series Ultra Chip (256 GB RAM) oder einem Multi‑GPU‑Rig betreiben (z. B. 3× A100 80 GB oder 10× RTX 3090/4090).
Ist Qwen3.5 für die kommerzielle Nutzung kostenlos?
Ja. Anders als viele Spitzenmodelle mit restriktiven Community-Lizenzen ist Qwen3.5 unter der Apache-2.0-Lizenz veröffentlicht. Sie erlaubt uneingeschränkte kommerzielle Nutzung, Modifikation und Weitergabe – besonders attraktiv für Enterprise-Anwendungen.
Was bedeutet „Native Multimodalität“ genau?
Die meisten multimodalen Modelle (wie das vorherige Qwen3-VL) setzen auf einen „angestückelten“ Ansatz: Ein separates Vision-Modul verarbeitet Bilder und übersetzt sie in Textfeatures für das Sprachmodell. Native Multimodalität bedeutet, dass Qwen3.5 von Anfang an trainiert wurde, „zu sehen“ und „zu lesen“ – in einem einzigen Modell. Das führt zu schnellerer Verarbeitung und deutlich höherer Genauigkeit bei Aufgaben mit tiefem visuellem Grounding, z. B. beim Verstehen komplexer UI-Oberflächen.
Wie schneidet Qwen3.5 im Vergleich zu Qwen3-Max ab?
Qwen3.5 ist als effizienterer Nachfolger konzipiert. Während Qwen3-Max ein riesiges Modell mit >1 Billion Parametern ist, erreicht Qwen3.5 auf wichtigen Reasoning- und Coding-Benchmarks eine vergleichbare Leistung, ist dabei aber 19× schneller bei der Textgenerierung. Stell dir Qwen3.5 vor wie die gleiche „Gehirnleistung“ wie Max – nur deutlich schneller und günstiger.

Datenwissenschaftsredakteur bei DataCamp | Prognosen erstellen und mit APIs arbeiten ist genau mein Ding.

Autorin und Redakteurin im Bereich der Bildungstechnologie. Engagiert bei der Erforschung von Datentrends und begeistert davon, Data Science zu lernen.
