Direkt zum Inhalt

Qwen 3: Funktionen, DeepSeek-R1 Vergleich, Zugang und mehr

Erfahre mehr über die Qwen3-Suite, einschließlich ihrer Architektur, der Bereitstellung und Benchmarks im Vergleich zu DeepSeek-R1 und Gemini 2.5 Pro.
Aktualisierte 29. Apr. 2025  · 8 Min. Lesezeit

Qwen3 ist eine der vollständigsten Modellsuiten mit offenem Gewicht, die bisher veröffentlicht wurden.

Es stammt vom Qwen-Team von Alibaba und umfasst Modelle, die auf Forschungsniveau skalieren, sowie kleinere Versionen, die lokal auf bescheidenerer Hardware laufen können.

In diesem Blog gebe ich dir einen kurzen Überblick über die gesamte Qwen3-Suite, erkläre, wie die Modelle entwickelt wurden, gehe auf die Benchmark-Ergebnisse ein und zeige dir, wie du auf sie zugreifen und sie nutzen kannst.

Unser Team arbeitet auch an Tutorials, die zeigen, wie man Qwen3 lokal betreibt und wie man Qwen3-Modelle fein abstimmt. Ich werde diesen Artikel aktualisieren, sobald sie fertig sind. Wenn du also in den nächsten 2-3 Tagen hierher zurückkommst, wirst du die Links zu diesen Ressourcen in dieser Einleitung finden.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Was ist Qwen 3?

Qwen3 ist die neueste Familie von großen Sprachmodellen des Qwen-Teams von Alibaba. Alle Modelle der Reihe stehen unter der Apache 2.0-Lizenz zur freien Verfügung.

Was mir sofort ins Auge fiel, war die Einführung eines Denkbudgets, das die Nutzer direkt in der Qwen-App kontrollieren können. Dies gibt normalen Nutzern eine genaue Kontrolle über den Argumentationsprozess, was bisher nur programmatisch möglich war.

qwen 3 thinking budget

Wie wir in den Grafiken unten sehen können, verbessert eine Erhöhung der Denkbudgets die Leistungen deutlich, vor allem in Mathematik, Codierung und Naturwissenschaften.

qwen 3 thinking budget verbessert die Leistung

Quelle: Qwen

In Benchmark-Tests schneidet das Flaggschiff Qwen3-235B-A22B im Vergleich zu anderen Spitzenmodellen gut ab und zeigt bessere Ergebnisse als DeepSeek-R1 in den Bereichen Kodierung, Mathematik und allgemeines Denken. Schauen wir uns jedes Modell kurz an und verstehen, wofür es gedacht ist.

Qwen3-235B-A22B

Dies ist das größte Modell der Qwen3-Reihe. Sie verwendet eine Mixture-of-Experts (MoE) Architektur mit 235 Milliarden Gesamtparametern und 22 Milliarden aktiven Parametern pro Generierungsschritt.

In einem MoE-Modell wird bei jedem Schritt nur eine kleine Teilmenge von Parametern aktiviert, wodurch es schneller und kostengünstiger ist als dichte Modelle (wie GPT-4o), bei denen immer alle Parameter verwendet werden.

Das Modell schneidet bei Mathematik-, Denk- und Codieraufgaben gut ab und übertrifft in Benchmark-Vergleichen Modelle wie DeepSeek-R1.

Qwen3-30B-A3B

Qwen3-30B-A3B ist ein kleineres MoE-Modell mit 30 Milliarden Gesamtparametern und nur 3 Milliarden aktiven Parametern bei jedem Schritt. Trotz der geringen Anzahl an Aktiven ist die Leistung vergleichbar mit der von wesentlich größeren, dichten Modellen wie dem QwQ-32B. Es ist eine praktische Wahl für Nutzer, die eine Mischung aus Argumentationsfähigkeit und geringeren Inferenzkosten wünschen. Wie das 235B-Modell unterstützt es ein 128K-Kontextfenster und ist unter Apache 2.0 verfügbar.

Dichte Modelle: 32B, 14B, 8B, 4B, 1.7B, 0.6B

Die sechs dichten Modelle in Qwen3 folgen einer eher traditionellen Architektur, bei der alle Parameter bei jedem Schritt aktiv sind. Sie decken eine breite Palette von Anwendungsfällen ab:

Qwen3-32B, 14B, 8B unterstützen 128K Kontextfenster, während Qwen3-4B, 1.7B, 0.6B 32K unterstützen. Alle sind offen gewichtet und unter Apache 2.0 lizenziert. Die kleineren Modelle dieser Gruppe eignen sich gut für leichtgewichtige Einsätze, während die größeren Modelle eher zu den Allzweck-LLMs gehören.

Welches Modell solltest du wählen?

Qwen3 bietet verschiedene Modelle an, je nachdem, wie viel Argumentationstiefe, Geschwindigkeit und Rechenaufwand du brauchst. Hier ist eine kurze Übersicht :

Modell

Typ

Kontext Länge

Am besten für

Qwen3-235B-A22B

MoE

128K

Forschungsaufgaben, Agenten-Workflows, lange Argumentationsketten

Qwen3-30B-A3B

MoE

128K

Ausgewogene Argumentation bei geringeren Kosten für Schlussfolgerungen

Qwen3-32B

Dichtes

128K

High-End-Einsätze für allgemeine Zwecke

Qwen3-14B

Dichtes

128K

Mittelklasse-Apps, die eine starke Argumentation erfordern

Qwen3-8B

Dichtes

128K

Leichte Argumentationsaufgaben

Qwen3-4B

Dichtes

32K

Kleinere Anwendungen, schnellere Schlussfolgerungen

Qwen3-1.7B

Dichtes

32K

Mobile und eingebettete Anwendungsfälle

Qwen3-0.6B

Dichtes

32K

Sehr leichte oder eingeschränkte Einstellungen

Wenn duan Aufgaben arbeitest, die tiefergehende Überlegungen, die Verwendung von Agentenwerkzeugen oder eine lange Kontextverarbeitung erfordern, bietet dir Qwen3-235B-A22B die größte Flexibilität.

Für Fälle, in denen du die Inferenz schneller und billiger halten und trotzdem mäßig komplexe Aufgaben bewältigen willst, ist Qwen3-30B-A3B eine gute Wahl.

Die Dense-Modelle bieten eine einfachere Bereitstellung und vorhersehbare Latenzzeiten, wodurch sie sich besser für kleinere Anwendungen eignen.

Wie Qwen3 entwickelt wurde

Die Qwen3-Modelle wurden in einer dreistufigen Pre-Trainingsphase erstellt, gefolgt von einer vierstufigen Post-Trainingspipeline.

Beim Pretraining lernt das Modell allgemeine Muster aus großen Datenmengen (Sprache, Logik, Mathematik, Code), ohne dass ihm genau gesagt wird, was es tun soll. Beim Post-Training wird das Modell so eingestellt, dass es sich auf bestimmte Weise verhält, z. B. sorgfältig denkt oder Anweisungen befolgt.

Ich werde beide Teile in einfachen Worten erklären, ohne zu sehr in die technischen Details zu gehen.

Vorschulung

Im Vergleich zu Qwen2.5 wurde der Pretraining-Datensatz für Qwen3 deutlich erweitert. Rund 36 Billionen Token wurden verwendet, doppelt so viele wie in der vorherigen Generation. Die Daten umfassten Webinhalte, extrahierte Texte aus Dokumenten und synthetische Mathematik- und Codebeispiele, die von Qwen2.5-Modellen generiert wurden.

Die Vorschulung erfolgte in drei Stufen:

  • Stufe 1: Grundlegende Sprach- und Wissensfertigkeiten wurden mit über 30 Billionen Token und einer Kontextlänge von 4K gelernt.
  • Stufe 2: Der Datensatz wurde verfeinert, um den Anteil der MINT-, Kodierungs- und Argumentationsdaten zu erhöhen, gefolgt von weiteren 5 Billionen Token.
  • Stufe 3: Hochwertige Long-Context-Daten wurden verwendet, um die Modelle auf 32K Kontextfenster zu erweitern.

qwen 3 Stufen der Vorbildung

Das Ergebnis ist, dass die dichten Qwen3-Basismodelle mit den größeren Qwen2.5-Basismodellen mithalten oder sie sogar übertreffen, während sie weniger Parameter benötigen, insbesondere bei MINT- und logischen Aufgaben.

Post-Training

Die Post-Training-Pipeline von Qwen3 konzentrierte sich auf die Integration von Deep Reasoning und Quick-Response-Fähigkeiten in einem einzigen Modell. Schauen wir uns zuerst das Diagramm unten an, und dann erkläre ich es Schritt für Schritt:

qwen 3 Pipeline nach der Ausbildung

Qwen 3 Post-Trainings-Pipeline. Quelle: Qwen

Oben (in orange) siehst du den Entwicklungspfad für die größeren "Frontier Models", wie Qwen3-235B-A22B und Qwen3-32B. Es beginnt mit einer langen Chain-of-Thought Kaltstart (Stufe 1), bei dem das Modell lernt, bei schwierigeren Aufgaben Schritt für Schritt zu denken.

Darauf folgt Reasoning Verstärkendes Lernen (RL) (Stufe 2), um bessere Problemlösungsstrategien zu fördern. In Stufe 3, die Thinking Mode Fusion genannt wird, lernt Qwen3 , langsames, sorgfältiges Denken mit schnellen Reaktionen auszugleichen. Schließlich verbessert eineallgemeine RL-Stufe( ) das Verhalten bei einer Vielzahl von Aufgaben, z. B. beim Befolgen von Anweisungen und bei agenturischen Anwendungsfällen.

Darunter (in hellblau) siehst du den Pfad für die "Leichtgewichtigen Modelle", wie Qwen3-30B-A3B und die kleineren dichten Modelle. Diese Modelle werden mithilfe von stark-schwach DestillationEin Prozess, bei dem das Wissen aus den größeren Modellen in kleinere, schnellere Modelle komprimiert wird, ohne dabei zu viel Denkvermögen zu verlieren.

Einfach ausgedrückt: Zuerst wurden die großen Modelle trainiert, und dann wurden die leichten Modelle daraus destilliert. Auf diese Weise hat die gesamte Qwen3-Familie einen ähnlichen Denkstil, selbst bei sehr unterschiedlichen Modellgrößen.

Qwen 3 Benchmarks

Die Qwen3-Modelle wurden anhand einer Reihe von Benchmarks für logisches Denken, Kodierung und Allgemeinwissen bewertet. Die Ergebnisse zeigen, dass der Qwen3-235B-A22B bei den meisten Aufgaben die Nase vorn hat, aber auch die kleineren Modelle Qwen3-30B-A3B und Qwen3-4B liefern gute Leistungen.

Qwen3-235B-A22B und Qwen3-32B

Bei den meisten Benchmarks gehört der Qwen3-235B-A22B zu den leistungsstärksten Modellen, auch wenn er nicht immer an der Spitze liegt.

Quelle: Qwen

Schauen wir uns die obigen Ergebnisse kurz an:

  • ArenaHard (Gesamtbegründung): Gemini 2.5 Pro führt mit 96,4. Qwen3-235B liegt mit 95,6 knapp dahinter, vor o1 und DeepSeek-R1.
  • AIME'24 / AIME'25 (math): Die Noten 85,7 und 81,4. Gemini 2.5 Pro rangiert wieder höher, aber Qwen3-235B übertrifft DeepSeek-R1, Grok 3 und o3-mini noch immer.
  • LiveCodeBench (code generation): 70,7 für das Modell 235B - besser als die meisten Modelle außer Gemini.
  • CodeForces Elo (Wettbewerbsprogrammierung): 2056, höher als alle anderen aufgeführten Modelle, einschließlich DeepSeek-R1 und Gemini 2.5 Pro.
  • LiveBench (allgemeine Aufgaben aus der realen Welt): 77,1, was wiederum nur von Gemini 2.5 Pro übertroffen wird.
  • MultiIF (mehrsprachige Argumentation): Der kleinere Qwen3-32B schneidet hier besser ab (73,0), aber er liegt immer noch hinter Gemini (77,8).

Qwen3-30B-A3B und Qwen3-4B

Qwen3-30B-A3B (das kleinere MoE-Modell) schneidet bei fast allen Benchmarks gut ab und übertrifft ähnlich große, dichte Modelle regelmäßig.

  • ArenaHard: 91,0-über QwQ-32B (89,5), DeepSeek-V3 (85,5) und GPT-4o (85,3).
  • AIME'24 / AIME'25: 80,4 - leicht vor dem QwQ-32B, aber meilenweit vor den anderen Modellen.
  • CodeForces Elo: 1974 - genau unter QwQ-32B (1982).
  • GPQA (graduate-level QA): 65,8 - ungefähr gleichauf mit QwQ-32B.
  • MultiIF: 72,2 - höher als QwQ-32B (68,3).

Quelle: Qwen

Qwen3-4B zeigt eine solide Leistung für seine Größe:

  • ArenaHard: 76.6
  • AIME'24 / AIME'25: 73,8 und 65,6 - deutlich stärker als die früheren und viel größeren Qwen2.5-Modelle und Modelle wie Gemma-27B-IT.
  • CodeForces Elo: 1671 - nicht konkurrenzfähig mit den größeren Modellen, aber ebenbürtig in seiner Gewichtsklasse.
  • MultiIF: 66,3 - beachtlich für ein Modell mit einer Dichte von 4B und ein deutlicher Vorsprung vor vielen ähnlich großen Basismodellen.

Wie man auf Qwen3 zugreift

Qwen3-Modelle sind öffentlich verfügbar und können in der Chat-App oder über die API verwendet, für den lokalen Einsatz heruntergeladen oder in benutzerdefinierte Setups integriert werden.

Chat-Schnittstelle

Du kannst Qwen3 direkt ausprobieren unter chat.qwen.ai.

In der Chat-App kannst du nur auf drei Modelle aus der Qwen 3 Familie zugreifen: Qwen3-235B, Qwen3-30B, und Qwen3-32B:

qwen 3 Modelle in der Chat-App verfügbar

Qwen 3 API Zugang

Qwen3 arbeitet mit OpenAI-kompatiblen API-Formaten über Anbieter wie ModelScope oder DashScope. Tools wie vLLM und SGLang bieten effiziente Dienste für die lokale oder selbst gehostete Bereitstellung. Der offizielle Qwen 3 Blog hat mehr Details dazu.

Offene Gewichte

Alle Qwen3-Modelle - sowohl die MoE- als auch die Dense-Modelle - sind unter der Apache 2.0-Lizenz veröffentlicht. Sie sind erhältlich auf:

Lokaler Einsatz

Du kannst Qwen3 auch lokal ausführen:

  • Ollama
  • LM Studio
  • llama.cpp
  • KTransformers

Fazit

Qwen3 ist eine der vollständigsten Modellsuiten mit offenem Gewicht, die bisher veröffentlicht wurden.

Das Flaggschiff-Modell 235B MoE zeigt gute Leistungen bei Denk-, Mathematik- und Codieraufgaben, während die Versionen 30B und 4B praktische Alternativen für kleinere oder budgetbewusste Einsätze sind. Die Möglichkeit, das Denkbudget des Modells anzupassen, sorgt für zusätzliche Flexibilität für regelmäßige Nutzer.

Qwen3 ist eine gut abgerundete Version, die eine Vielzahl von Anwendungsfällen abdeckt und sowohl in der Forschung als auch in der Produktion eingesetzt werden kann.

FAQs

Kann ich Qwen3 in kommerziellen Produkten verwenden?

Ja. Die Apache 2.0-Lizenz erlaubt die kommerzielle Nutzung, Veränderung und Verbreitung mit Quellenangabe.

Kann ich die Qwen3-Modelle feinabstimmen?

Ja, die Qwen3-Modelle haben ein offenes Gewicht und du kannst sie feinjustieren.

Unterstützt Qwen3 den Aufruf von Funktionen oder die Verwendung von Tools?

Ja. Qwen3 kann Funktionsaufrufe durchführen, wenn es in ein Reasoning Framework wie Qwen-Agent integriert wird. Sie unterstützt benutzerdefinierte Werkzeugparser, die Konfiguration der Werkzeugnutzung über MCP und OpenAI-kompatible Schnittstellen.

Bietet Qwen3 von Haus aus mehrsprachige Unterstützung?

Ja. Qwen3 wurde mit Daten aus 119 Sprachen und Dialekten trainiert und eignet sich daher für Aufgaben wie Übersetzung, mehrsprachige Qualitätssicherung und globale LLM-Einsätze.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Ich bin Redakteurin und Autorin für KI-Blogs, Tutorials und Nachrichten und sorge dafür, dass alles zu einer starken Content-Strategie und SEO-Best Practices passt. Ich habe Data-Science-Kurse über Python, Statistik, Wahrscheinlichkeit und Datenvisualisierung geschrieben. Außerdem habe ich einen preisgekrönten Roman veröffentlicht und verbringe meine Freizeit mit Drehbuchschreiben und Filmregie.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

KI-Grundlagen

10Std. hr
Entdecke die Grundlagen der KI, lerne Modelle wie chatGPT kennen und entschlüssele die Geheimnisse der generativen KI, um dich in der dynamischen KI-Landschaft zurechtzufinden.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen