Qwen3.5: Features, Zugang und Benchmarks

Erfahre alles über die neue Qwen3.5-Modellreihe: wichtigste Features, Kosten, Zugangsmöglichkeiten und wie sie im Vergleich zu ähnlichen Modellen abschneidet.

Aktualisiert 17. Apr. 2026 · 8 Min. lesen

Alibaba hat soeben sein neuestes großes Sprachmodell vorgestellt: Qwen3.5. Das Modell erscheint als Antwort auf neue Releases wie GPT-5.3 Codex und Claude Opus 4.6, die beide überzeugt haben.

Laut Alibaba ist Qwen 3.5 „für das Zeitalter agentischer KI gebaut“. Das Vision-Language-Modell soll günstiger und effizienter sein als sein Vorgänger und zeigt in mehreren Benchmarks beeindruckende Werte auf Spitzenniveau.

Außerdem bringt Alibaba Qwen3.5-Plus heraus, eine Premium-Variante mit einem Kontextfenster von 1 Million Tokens – klar mit Gemini 3 im Visier.

In diesem Artikel führe ich dich durch die wichtigsten Neuerungen von Qwen3.5 und Qwen3.5-Plus, vergleiche sie mit Wettbewerbern, schaue auf die Benchmarks und erkläre, wie du die neuen Modelle nutzen kannst.

Schau dir dazu auch unsere Guides zu den neuesten Konkurrenzmodellen an, etwa Claude Sonnet 4.6 oder GPT-5.3 Instant.

Was ist Qwen3.5?

Qwen3.5 ist die neueste Generation in Alibabas Reihe großer Sprachmodelle (LLM), Qwen3.5-397B-A17B. Im Gegensatz zur vorherigen Qwen3-Modellfamilie vereint Qwen3.5 spezialisierte Modelle in einem nativen Vision-Language-Modell. Wie frühere Qwen-Modelle ist es Open Source unter der Apache-2.0-Lizenz.

Es ist als vielseitiges Foundation Model für Consumer- wie Enterprise-Use-Cases positioniert und für native multimodale und agentische Workflows ausgelegt. Qwen3.5-397B-A17B bietet zwei Modi:

„Thinking“ für Aufgaben mit höherem Anspruch an Logik und Schlussfolgern
„Fast“ für schnelle Inferenz bei Routineaufgaben

Qwen3.5 vs. Qwen3.5-Plus

Qwen3.5-Plus ist ein gehosteter, nur per API nutzbarer Dienst, der dem Qwen3.5-397B-A17B entspricht, selbst aber kein Open-Weight-Modell ist. Die Release Note war diesbezüglich etwas missverständlich: Die Erwähnung von Qwen3.5-Plus könnte wie ein separates Modell klingen, tatsächlich ist es aber Alibabas proprietärer Dienst auf Basis desselben Modells.

Obwohl Qwen3.5-Plus auf dem Modell Qwen3.5-397B-A17B basiert, gibt es Unterschiede: Der Zugang erfolgt ausschließlich über das Alibaba Cloud Model Studio im Pay-per-Token-Modell sowie über die Qwen Chat UI mit eingeschränktem Zugriff.

Qwen3.5-Plus nutzt ein erweitertes Kontextfenster von 1 Million Tokens, gegenüber 256K bei der Standardversion von Qwen3.5. Zusätzlich zu „Thinking“ und „Fast“ gibt es bei Qwen3.5-Plus einen „Auto“-Modus mit adaptivem Denken, der neben Reasoning auch Tools wie Suche und einen Code-Interpreter einsetzen kann.

Die wichtigsten Features von Qwen3.5

Werfen wir einen Blick auf die neuen Funktionen von Qwen3.5:

Native Multimodalität

Ähnlich wie OpenAI in der jüngsten GPT-5.3-Codex-Version Text- und Codex-Modelle vereint hat, kombiniert Alibaba Text, Vision und UI-Interaktion in einem einzigen Modell.

Qwen3.5 wurde gemeinsam auf Text, Bildern, UI-Screenshots und strukturierten Inhalten trainiert. Es unterstützt visuelles Frage-Antworten, Dokumentenverständnis sowie die Interpretation von Diagrammen/Tabellen und beherrscht Pixel-Level-Grounding, um Elemente auf dem Bildschirm zu identifizieren und mit ihnen zu interagieren.

Visuelle agentische Fähigkeiten

Damit kommen wir zum nächsten Schwerpunkt des neuen Qwen3.5. Durch das umfassende Training auf UI-Screenshots erkennt und bedient das Modell mobile wie Desktop-Oberflächen. So kann es mehrstufige Workflows ausführen, etwa:

Formulare ausfüllen
Apps navigieren
Systemeinstellungen ändern
Dateien organisieren

Das macht Qwen3.5 ideal für Produktivitätsautomatisierung. Mit Anweisungen in natürlicher Sprache kann der visuelle Qwen-Agent über mehrere Apps hinweg handeln und komplexe Workflows abschließen. Er hält dabei sogar über lange Interaktionsfolgen hinweg den Zustand aufrecht und ermöglicht so eine robuste Orchestrierung von Tools und Apps.

Mehr Leistung bei höherer Effizienz

Qwen3.5 ist ein sehr großes Modell mit insgesamt 397 Milliarden Parametern, von denen dank der Mixture-of-Experts-Architektur jedoch pro Token nur 17 Milliarden aktiviert werden. Kurz: die Intelligenz eines Riesenmodells mit der Geschwindigkeit und Kosteneffizienz eines deutlich kleineren.

Konkret heißt das: Im Vergleich zu Qwen3-Max ist Qwen3.5 397B-A17B beim Decoding von Long-Context-Aufgaben (256k Tokens) 19-mal schneller und bei Standardworkflows 8,6-mal schneller. Wichtig: Die Geschwindigkeit geht nicht zulasten der Intelligenz. Beim Reasoning und Coden hält es mit Qwen3-Max mit und übertrifft dank früher Fusion von Text und Video Qwen3-VL.

Bessere Kosteneffizienz

Mit der höheren Leistung kommen auch Kostenvorteile.

Eine native FP8-Pipeline (Verarbeitung in 8-Bit statt üblichen 16-Bit) halbiert den Speicherbedarf für den Betrieb. Dadurch lassen sich Berechnungen schneller durchführen, was im Billionen-Token-Maßstab über 10% mehr Geschwindigkeit bringt.

Qwen3.5 verfügt außerdem über einen beeindruckenden Wortschatz von 250.000 Tokens und kann komplexe Inhalte mit weniger Tokens ausdrücken. Zusammen mit Multi-Token-Vorhersagen kann das Modell mehrere kommende Wörter in einem Schritt „erraten“ und so die Tokenkosten in 201 Sprachen um 10–60% senken.

So wurde Qwen3.5 entwickelt

Für Qwen3.5 kam eine maßgeschneiderte Infrastruktur zum Einsatz, die das Training multimodaler und agentischer Modelle (fast) so schnell und günstig macht wie bei reinen Textmodellen. Der besondere Trainingsansatz beruht auf drei Kernelementen:

Datenqualität
Heterogene Infrastruktur
Asynchrones Reinforcement Learning (RL)

Datenqualität

Das Alibaba-Team hat deutlich mehr visuell-textuelle Daten als für die Qwen3-Familie gesammelt, diese aber sehr streng gefiltert, um hohe Qualität sicherzustellen. Das resultierende High-Quality-Dataset ermöglicht es dem 397B-Parameter-Modell, die Intelligenz deutlich größerer 1T-Parameter-Modelle wie Qwen3-Max zu erreichen.

Heterogene Infrastruktur

Vision- und Sprachkomponenten wurden getrennt, aber gleichzeitig trainiert. Da keine der beiden warten muss, während die andere rechnet, ergibt sich nahezu 100% Trainingsdurchsatz im Vergleich zu reinen Textmodellen.

Asynchrones Reinforcement Learning

Mit FP8-Kompression (Zahlen werden mit halb so vielen Bits gespeichert) und spekulativem Decoding (vorausschauendes „Raten“) führen Agenten tausende Aufgaben gleichzeitig aus, während das Training im Hintergrund weiterläuft. So ließ sich das Training ohne nennenswerte Qualitätsverluste beschleunigen – Qwen3.5 erlernte komplexe Agentenfähigkeiten wie UI-Klicks oder mehrstufige Aufgaben 3–5-mal schneller.

Qwen3.5-Benchmarks

Die Leistung von Alibabas neuem Modell wurde bereits in vielen Aufgabenbereichen validiert. Wir konzentrieren uns auf Ergebnisse in den Schwerpunkten agentische und multimodale Workflows sowie allgemeine Reasoning-Fähigkeiten.

Agentische Workflows

Hier hat sich Qwen3.5 gegenüber der Qwen3-Familie am deutlichsten verbessert.

Agentic Terminal Coding: Den größten Sprung gab es im Terminal-Bench 2.0: Qwen3.5 erreicht 52,5 gegenüber nur 22,5 bei Qwen3-Max-Thinking und kann mit Gemini 3 Pro (54,2) mithalten. Allerdings liegt es noch deutlich hinter dem aktuellen Spitzenreiter, dem kürzlich veröffentlichten GPT-5.3 Codex (77,3).
Agentische Suche: Das scheint Qwen3.5s größte Stärke zu sein. Im BrowseComp erreicht es beeindruckende 78,6, schlägt Gemini 3 Pro (59,2) deutlich und landet auf Platz zwei – nur Claude Opus 4.6 (84,0) liegt davor.

Multimodalität

Auch hier gibt es deutliche Fortschritte gegenüber der vorherigen Modellfamilie – besonders beim Embodied Reasoning und der Dokumentenerkennung:

Embodied Reasoning: Qwen3.5 erzielt 67,5 in ERQA – deutlich mehr als Qwen3-VL (52,5) und fast auf Augenhöhe mit Gemini 3 Pro (70,5).
Dokumentenerkennung: Qwen3.5 durchbricht in OmniDocBench v1.5 die 90%-Marke mit starken 90,8 und übertrifft GPT-5.2 (85,7), Claude Opus 4.5 (87,7) und Gemini 3 Pro (88,5).
Visuelles Reasoning: Hier liegt Qwen3.5 nur knapp unter Gemini 3 Pro: 79,0 in MMMU-Pro und 87,5 in Video-MME (Gemini 3 Pro: 81,0 bzw. 88,4).

Reasoning, Wissen und Verlässlichkeit

Reasoning und Wissen standen bei diesem Release offenkundig nicht im Mittelpunkt. Dennoch gibt es leichte Verbesserungen – insbesondere bei der Verlässlichkeit.

Befolgen von Anweisungen: Mit 76,5 im IFBench wirkt Qwen3.5 sehr zuverlässig und belegt einen Platz weit oben. Zum Vergleich: Der aktuelle Spitzenreiter, AWS Nova 2.0 Pro, erreicht 79,0.
Reasoning auf Master-Niveau: Der GPQA-Diamond-Score von 88,4 ist nur ein kleiner Zugewinn gegenüber Qwen3-Max-Thinking (87,4).
Mehrsprachiges Wissen: Qwen3.5 erzielt einen MMMLU-Score von 88,5 – unter Gemini 3 Pro (90,6), aber eine deutliche Verbesserung zum Vorgänger (84,4).

So greifst du auf Qwen3.5 zu

Wie bei früheren Modellen sind die Qwen3.5-Modelle Open Source und lassen sich auf verschiedene Arten nutzen: direkt in der Chat-App, über die API, als Download für den lokalen Betrieb oder integriert in eigene Setups.

Chat-Interface

Du kannst Qwen3.5 direkt unter chat.qwen.ai in der gewohnten Chat-Oberfläche nutzen.

Im Modellauswahl-Menü findest du sowohl Qwen3.5-397B-A17B als auch Qwen3.5-Plus sowie einige Vorgängermodelle aus der Qwen3-Familie und Qwen2.5-Max.

API-Zugang

Der API-Zugang für Qwen 3.5 funktioniert wie bei Qwen3: OpenAI-kompatible Endpunkte über ModelScope (Free-Tier mit Tageskontingenten) oder DashScope/Model Studio (kostenpflichtig, inkl. Qwen3.5-Plus). Aktualisiere einfach deine Model-ID auf qwen3.5-397b-a17b oder qwen3.5-plus – und los geht's.

Open Weights und lokaler Betrieb

Wie erwähnt, wurden die Gewichte von Qwen3.5-397B-A17B unter der Apache-2.0-Lizenz veröffentlicht. Du kannst Qwen3.5 lokal mit Tools wie Ollama, LM Studio oder vLLM ausführen.

Die Gewichte kannst du hier herunterladen:

Fazit

Mit neuen visuellen Agenten, mehr Leistung und optimierten Kosten ist Qwen3.5 ein starkes Release, das nicht nur andere chinesische Modelle unter Druck setzt, sondern auch die Konkurrenz von OpenAI und Anthropic herausfordert.

Wie bei anderen Neuerscheinungen in diesem Jahr – etwa GPT-5.3-Codex und Claude Opus 4.6 – verlagert sich der Fokus klar auf agentische KI. Der rasche Erfolg von OpenClaw zeigt, wie groß der Bedarf an praktischen KI-Anwendungen ist, und Modelle wie Qwen3.5, Seedance 2.0 und das gemunkelte nächste Release von DeepSeek belegen, dass China bei KI-Modellen schnell zur führenden Kraft aufsteigt.

Was ist der Unterschied zwischen Qwen3.5 und Qwen3.5-Plus?

Kann ich Qwen3.5 lokal ausführen und welche Hardware brauche ich?

Ja, aber du brauchst dafür erhebliche Hardware. Auch wenn Qwen3.5 pro Token nur 17B Parameter aktiviert (was es schnell macht), müssen trotzdem die insgesamt 397B Parameter in den Speicher geladen werden.

Vollmodell (FP16/BF16): Benötigt ca. 800 GB VRAM (Cluster auf Enterprise-Niveau erforderlich).
Quantisiert (4-Bit): Benötigt ca. 220 GB gemeinsamen Speicher. Das lässt sich z. B. auf einem Mac Studio/Pro mit M‑Series Ultra Chip (256 GB RAM) oder einem Multi‑GPU‑Rig betreiben (z. B. 3× A100 80 GB oder 10× RTX 3090/4090).

Ist Qwen3.5 für die kommerzielle Nutzung kostenlos?

Was bedeutet „Native Multimodalität“ genau?

Die meisten multimodalen Modelle (wie das vorherige Qwen3-VL) setzen auf einen „angestückelten“ Ansatz: Ein separates Vision-Modul verarbeitet Bilder und übersetzt sie in Textfeatures für das Sprachmodell. Native Multimodalität bedeutet, dass Qwen3.5 von Anfang an trainiert wurde, „zu sehen“ und „zu lesen“ – in einem einzigen Modell. Das führt zu schnellerer Verarbeitung und deutlich höherer Genauigkeit bei Aufgaben mit tiefem visuellem Grounding, z. B. beim Verstehen komplexer UI-Oberflächen.

Wie schneidet Qwen3.5 im Vergleich zu Qwen3-Max ab?

Author

Tom Farnschläder

Author

Matt Crabtree

Themen

Künstliche Intelligenz

KI-Agenten

Top-Kurse zu KI

Lernpfad

KI-Agent-Grundlagen

6 Std.

Entdecke, wie KI-Agenten deine Arbeitsweise verändern und Mehrwert für dein Unternehmen schaffen können!

Details anzeigen

Kurs starten

Kurs

Agentische Systeme mit LangChain entwerfen

3 Std.

12.3K

Lerne die grundlegenden Komponenten von LangChain-Agenten kennen und entwickle eigene Chat-Agenten.

Details anzeigen

Kurs starten

Kurs

AI-Agents mit Hugging Face smolagents

3 Std.

2.4K

Lerne, wie du mit Python intelligente Agenten entwickelst, die denken, handeln und echte Aufgaben lösen können.

Details anzeigen

Kurs starten

Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.

Hesam Sheikh Hassani

15 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Finde raus, wie viel du als Business Analyst verdienen kannst und wie du dein jetziges Gehalt aufbessern kannst.

Matt Crabtree

14 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree

Mehr anzeigen Mehr anzeigen

Was ist Qwen3.5?

Qwen3.5 vs. Qwen3.5-Plus

Die wichtigsten Features von Qwen3.5

Native Multimodalität

Visuelle agentische Fähigkeiten

Mehr Leistung bei höherer Effizienz

Bessere Kosteneffizienz

So wurde Qwen3.5 entwickelt

Datenqualität

Heterogene Infrastruktur

Asynchrones Reinforcement Learning

Qwen3.5-Benchmarks

Agentische Workflows

Multimodalität

Reasoning, Wissen und Verlässlichkeit

So greifst du auf Qwen3.5 zu

Chat-Interface

API-Zugang

Open Weights und lokaler Betrieb

Fazit

Qwen3.5 FAQs

Ist Qwen3.5 für die kommerzielle Nutzung kostenlos?

Was bedeutet „Native Multimodalität“ genau?

Wie schneidet Qwen3.5 im Vergleich zu Qwen3-Max ab?

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}KI-Agent-Grundlagen

Agentische Systeme mit LangChain entwerfen

AI-Agents mit Hugging Face smolagents

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

KI-Agent-Grundlagen