Wie man Qwen 3 lokal mit Ollama einrichtet und betreibt

Lerne, wie du Qwen3 installierst, einrichtest und lokal mit Ollama ausführst und eine einfache Gradio-basierte Anwendung erstellst.

Aktualisierte 30. Apr. 2025 · 12 Min. Lesezeit

Qwen3 ist die neueste Generation von Alibabas großen Sprachmodellen mit offenem Gewicht. Mit der Unterstützung von mehr als 100 Sprachen und einer starken Leistung bei Argumentations-, Kodierungs- und Übersetzungsaufgaben konkurriert Qwen3 mit vielen heute verfügbaren Spitzenmodellen, darunter DeepSeek-R1, o3-mini und Gemini 2.5.

In diesem Tutorial erkläre ich Schritt für Schritt wie man Qwen3 lokal ausführt mit Ollama ausführt.

Wir werden auch eine lokale, leichtgewichtige Anwendung mit Qwen 3 erstellen. Mit der App kannst du zwischen den Argumentationsmodi von Qwen3 wechseln und zwischen verschiedenen Sprachen übersetzen.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Warum Qwen3 vor Ort betreiben?

Der lokale Betrieb von Qwen3 bietet mehrere wichtige Vorteile:

Datenschutz: Deine Daten verlassen nie deinen Rechner.
Latenz: Lokale Inferenzen sind ohne API-Roundtrips schneller.
Kosteneffizienz: Keine Token-Gebühren oder Cloud-Rechnungen.
Kontrolle: Du kannst deine Prompts anpassen, Modelle auswählen und Denkmodi konfigurieren.
Offline-Zugang: Nach dem Herunterladen des Modells kannst du auch ohne Internetverbindung arbeiten.

Qwen3 ist sowohl für tiefes Denken (Denkmodus) als auch für schnelle Antworten (Nicht-Denkmodus) optimiert und unterstützt über 100 Sprachen. Lass uns das lokal einrichten.

Qwen3 lokal mit Ollama einrichten

Ollama ist ein Tool, mit dem du Sprachmodelle wie Llama oder Qwen lokal auf deinem Computer über eine einfache Befehlszeilenschnittstelle ausführen kannst.

Schritt 1: Ollama installieren

Lade Ollama für macOS, Windows oder Linux herunter unter: https://ollama.com/download.

Befolge die Anweisungen des Installationsprogramms und überprüfe nach der Installation, indem du dies im Terminal ausführst:

ollama --version

Schritt 2: Qwen3 herunterladen und ausführen

Ollama bietet eine wachsende Auswahl an Qwen3-Modellen an, die für eine Vielzahl von Hardwarekonfigurationen geeignet sind, von leichten Laptops bis hin zu High-End-Servern.

ollama run qwen3

Wenn du den obigen Befehl ausführst, wird das Standardmodell von Qwen3 in Ollama gestartet, das derzeit auf qwen3:8b voreingestellt ist. Wenn du mit begrenzten Ressourcen arbeitest oder schnellere Startzeiten haben willst, kannst du explizit kleinere Varianten wie das 4B-Modell einsetzen:

ollama run qwen3:4b

Qwen3 ist derzeit in mehreren Varianten erhältlich, angefangen von der kleinsten 0,6b(523MB) bis hin zur größten 235b(142GB) Parametervariante. Diese kleineren Varianten bieten eine beeindruckende Leistung beim Reasoning, der Übersetzung und der Codegenerierung, vor allem wenn sie im Denkmodus verwendet werden.

Die MoE-Modelle (30b-a3b, 235b-a22b) sind besonders interessant, da sie nur eine Teilmenge von Experten pro Inferenzschritt aktivieren, was eine große Anzahl von Parametern ermöglicht und gleichzeitig die Laufzeitkosten niedrig hält.

Generell solltest du das größte Modell verwenden, das deine Hardware verarbeiten kann, und für reaktionsschnelle lokale Experimente auf Consumer-Rechnern auf das 8B- oder 4B-Modell zurückgreifen.

Hier ist eine kurze Übersicht über alle Qwen3-Modelle, die du einsetzen kannst :

Modell	Ollama Kommando	Am besten für
Qwen3-0.6B	`ollama run qwen3:0.6b`	Leichte Aufgaben, mobile Anwendungen und Endgeräte
Qwen3-1.7B	`ollama run qwen3:1.7b`	Chatbots, Assistenten und Anwendungen mit niedriger Latenzzeit
Qwen3-4B	`ollama run qwen3:4b`	Allzweckaufgaben mit ausgewogener Leistung und Ressourcennutzung
Qwen3-8B	`ollama run qwen3:8b`	Mehrsprachige Unterstützung und moderate Argumentationsfähigkeiten
Qwen3-14B	`ollama run qwen3:14b`	Fortgeschrittenes logisches Denken, Erstellen von Inhalten und Lösen von komplexen Problemen
Qwen3-32B	`ollama run qwen3:32b`	Anspruchsvolle Aufgaben, die ein starkes logisches Denken und eine umfangreiche Kontextverarbeitung erfordern
Qwen3-30B-A3B (MoE)	`ollama run qwen3:30b-a3b`	Effiziente Leistung mit 3B aktiven Parametern, geeignet für Codieraufgaben
Qwen3-235B-A22B (MoE)	`ollama run qwen3:235b-a22b`	Massive Anwendungen, tiefgreifende Schlussfolgerungen und Lösungen auf Unternehmensebene

Schritt 3: Qwen3 im Hintergrund ausführen (optional)

Um das Modell über die API zu bedienen, führe diesen Befehl im Terminal aus:

ollama serve

Dadurch wird das Modell für die Integration in andere Anwendungen verfügbar unter http://localhost:11434.

Qwen3 lokal verwenden

In diesem Abschnitt zeige ich dir verschiedene Möglichkeiten, wie du Qwen3 lokal nutzen kannst, von der einfachen CLI-Interaktion bis zur Integration des Modells in Python.

Option 1: Inferenz über CLI ausführen

Sobald das Modell heruntergeladen ist, kannst du direkt im Terminal mit Qwen3 interagieren. Führe den folgenden Befehl in deinem Terminal aus:

echo "What is the capital of Brazil? /think" | ollama run qwen3:8b

Dies ist nützlich für schnelle Tests oder leichte Interaktionen, ohne dass du Code schreiben musst. Der /think Tag am Ende der Aufforderung weist das Modell an, Schritt für Schritt tiefer zu argumentieren. Du kannst dies durch /no_think ersetzen, um eine schnellere, flachere Reaktion zu erhalten, oder es ganz weglassen, um den Standard-Denkmodus des Modells zu verwenden.

Option 2: Zugriff auf Qwen3 über die API

Sobald ollama serve im Hintergrund läuft, kannst du über eine HTTP-API programmatisch mit Qwen3 interagieren, was sich perfekt für Backend-Integration, Automatisierung oder das Testen von REST-Clients eignet.

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:8b",
  "messages": [{ "role": "user", "content": "Define entropy in physics. /think" }],
  "stream": false
}'

So funktioniert es:

curl stellt eine POST Anfrage (wie wir die API aufrufen) an den lokalen Ollama-Server, der unter localhost:11434 läuft.
Die Nutzlast ist ein JSON-Objekt mit:

"model": Gibt das zu verwendende Modell an (hier ist es: qwen3:8b).
"messages": Eine Liste von Chat-Nachrichten, die role und content enthält.
"stream": false: Stellt sicher, dass die Antwort auf einmal zurückgegeben wird, nicht Token für Token.

Option 3: Zugriff auf Qwen3 über Python

Wenn du in einer Python-Umgebung (wie Jupyter, VSCode oder einem Skript) arbeitest, ist der einfachste Weg, mit Qwen3 zu interagieren, über das Ollama Python SDK. Beginne mit der Installation von ollama:

pip install ollama

Dann führst du dein Qwen3-Modell mit diesem Skript aus (wir verwenden qwen3:8b ):

import ollama
response = ollama.chat(
    model="qwen3:8b",
    messages=[
        {"role": "user", "content": "Summarize the theory of evolution. /think"}
    ]
)
print(response["message"]["content"])

Im obigen Code:

ollama.chat(...) sendet eine Anfrage im Chat-Stil an den lokalen Ollama-Server.
Du gibst das Modell (qwen3:8b) und eine Liste von Nachrichten in einem Format an, das der API von OpenAI ähnelt.
Der /think Tag sagt dem Modell, dass es Schritt für Schritt denken soll.
Schließlich wird die Antwort als Wörterbuch zurückgegeben, und du kannst mit ["message"]["content"] auf die Antwort des Modells zugreifen.

Dieser Ansatz ist ideal für lokale Experimente, Prototyping oder den Aufbau von LLM-gestützten Apps, ohne auf Cloud-APIs angewiesen zu sein.

Eine App für lokales Reasoning mit Qwen3

Qwen3 unterstützt hybrides Inferenzverhalten mit /think (Deep Reasoning) und /no_think (Fast Response) Tags. In diesem Abschnitt werden wir Gradio verwenden, um eine interaktive lokale Web-App mit zwei separaten Registerkarten zu erstellen:

Eine Denkschnittstelle, um zwischen den Denkmodi zu wechseln.
Eine mehrsprachige Schnittstelle, um Text in verschiedenen Sprachen zu übersetzen oder zu bearbeiten.

Schritt 1: Demo zum hybriden Denken

In diesem Schritt bauen wir unsere hybride Argumentationskarte mit den Tags /think und /no_think auf.

import gradio as gr
import subprocess
def reasoning_qwen3(prompt, mode):
    prompt_with_mode = f"{prompt} /{mode}"
    result = subprocess.run(
        ["ollama", "run", "qwen3:8b"],
        input=prompt_with_mode.encode(),
        stdout=subprocess.PIPE
    )
    return result.stdout.decode()
reasoning_ui = gr.Interface(
    fn=reasoning_qwen3,
    inputs=[
        gr.Textbox(label="Enter your prompt"),
        gr.Radio(["think", "no_think"], label="Reasoning Mode", value="think")
    ],
    outputs="text",
    title="Qwen3 Reasoning Mode Demo",
    description="Switch between /think and /no_think to control response depth."
)

Im obigen Code:

Die Funktion reasoning_qwen3() benötigt eine Eingabeaufforderung und einen Argumentationsmodus ("think" oder "no_think").
Sie hängt den ausgewählten Modus als Suffix an die Eingabeaufforderung an.
Dann führt die Methode subprocess.run() den Befehl ollama run qwen3:8b aus und gibt die Eingabeaufforderung als Standardeingabe ein.
Schließlich wird die Ausgabe (die Antwort von Qwen3) erfasst und als dekodierter String zurückgegeben.

Sobald die ausgabeerzeugende Funktion definiert ist, wird sie mit der Funktion gr.Interface() in eine interaktive Web-UI verpackt, indem Eingabekomponenten festgelegt werden - Textbox für die Eingabeaufforderung und eine Schaltfläche Radio für die Auswahl des Argumentationsmodus - und diese den Eingaben der Funktion zugeordnet werden.

Schritt 2: Demo einer mehrsprachigen Anwendung

Richten wir nun die Registerkarte für unsere mehrsprachige Anwendung ein.

import gradio as gr
import subprocess
def multilingual_qwen3(prompt, lang):
    if lang != "English":
        prompt = f"Translate to {lang}: {prompt}"
    result = subprocess.run(
        ["ollama", "run", "qwen3:8b"],
        input=prompt.encode(),
        stdout=subprocess.PIPE
    )
    return result.stdout.decode()
multilingual_ui = gr.Interface(
    fn=multilingual_qwen3,
    inputs=[
        gr.Textbox(label="Enter your prompt"),
        gr.Dropdown(["English", "French", "Hindi", "Chinese"], label="Target Language", value="English")
    ],
    outputs="text",
    title="Qwen3 Multilingual Translator",
    description="Use Qwen3 locally to translate prompts to different languages."
)

Ähnlich wie im vorherigen Schritt funktioniert dieser Code wie folgt:

Die Funktion multilingual_qwen3() benötigt eine Eingabeaufforderung und eine Zielsprache.
Wenn das Ziel nicht Englisch ist, wird die Anweisung "Translate to {lang}:" vorangestellt, um das Modell anzuleiten.
Auch hier läuft das Modell lokal über einen Unterprozess mit Ollama.
Das Ergebnis wird als reiner Text zurückgegeben.

Schritt 3: Starte beide Tabs in Gradio

Lass uns die beiden Tabs in einer Gradio-Anwendung zusammenführen.

demo = gr.TabbedInterface(
    [reasoning_ui, multilingual_ui],
    tab_names=["Reasoning Mode", "Multilingual"]
)
demo.launch(debug = True)

Das machen wir im obigen Code:

Die Funktion gr.TabbedInterface() erstellt eine Benutzeroberfläche mit zwei Registerkarten:

Eine für die Kontrolle der Argumentationstiefe.
Eine für mehrsprachige Promptübersetzung.

Die Funktion demo.launch(debug=True) führt die App lokal aus und öffnet sie im Browser mit aktiviertem Debugging.

Fazit

Qwen3 bringt mit Ollama fortschrittliches Reasoning, schnelle Dekodierung und mehrsprachige Unterstützung auf deinen lokalen Rechner.

Mit minimaler Einrichtung kannst du:

Lokale LLM-Inferenz ohne Cloud-Abhängigkeit ausführen
Wechsel zwischen schnellen und durchdachten Antworten
Verwende APIs oder Python, um intelligente Anwendungen zu entwickeln

Wenn du dir einen Überblick über die Möglichkeiten von Qwen3 verschaffen willst, empfehle ich dir, diesen Einführungsblog zu lesen Qwen3.

Author

Aashi Dutt

Themen

Künstliche Intelligenz

Große Sprachmodelle

Lerne KI mit diesen Kursen!

Lernpfad

Entwicklung von KI-Anwendungen

0 Min.

Lerne, KI-gestützte Anwendungen mit den neuesten KI-Entwicklungstools zu erstellen, darunter die OpenAI API, Hugging Face und LangChain.

Siehe Details

Kurs starten

Lernpfad

Llama-Grundlagen

0 Min.

Experimentiere mit Llama 3, um Inferenzen auf vortrainierten Modellen durchzuführen, sie auf benutzerdefinierten Datensätzen abzustimmen und die Leistung zu optimieren.

Siehe Details

Kurs starten

Kurs

KI mit FastAPI in die Produktion bringen

4 Std.

2.4K

Lerne, wie du mit FastAPI APIs entwickelst, die KI-Modelle unterstützen und auf die Anforderungen der echten Welt zugeschnitten sind.

Siehe Details

Kurs starten

Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Warum Qwen3 vor Ort betreiben?

Qwen3 lokal mit Ollama einrichten

Schritt 1: Ollama installieren

Schritt 2: Qwen3 herunterladen und ausführen

Schritt 3: Qwen3 im Hintergrund ausführen (optional)

Qwen3 lokal verwenden

Option 1: Inferenz über CLI ausführen

Option 2: Zugriff auf Qwen3 über die API

Option 3: Zugriff auf Qwen3 über Python

Eine App für lokales Reasoning mit Qwen3

Schritt 1: Demo zum hybriden Denken

Schritt 2: Demo einer mehrsprachigen Anwendung

Schritt 3: Starte beide Tabs in Gradio

Fazit

Top 30 Generative KI Interview Fragen und Antworten für 2024

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Entwicklung von KI-Anwendungen

Llama-Grundlagen

KI mit FastAPI in die Produktion bringen

Top 30 Generative KI Interview Fragen und Antworten für 2024

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

Entwicklung von KI-Anwendungen