Weiter zum Inhalt

Claude Fable 5 vs. Gemini 3.5 Flash: Benchmarks, Preise und mehr

Claude Fable 5 dominiert bei reiner Leistungsfähigkeit, während Gemini 3.5 Flash nahezu Frontier-Performance zu einem Bruchteil der Kosten und mit deutlich höherem Tempo liefert. Lies weiter für Details.
Aktualisiert 11. Juni 2026  · 9 Min. lesen

Wenn du zwischen Claude Fable 5 (Achtung: erst vor zwei Tagen erschienen) und Gemini 3.5 Flash wählst, entscheidest du im Kern zwischen zwei unterschiedlichen Vorstellungen davon, was ein Frontier-Modell sein sollte.

Claude Fable 5 ist Anthropics Leistungsobergrenze: das stärkste öffentlich verfügbare Modell in den meisten Benchmarks, entsprechend bepreist mit $10/$50 pro Million Tokens, und abgesichert durch ein Klassifikatorsystem, das sensible Anfragen während einer Session zu einem anderen Modell umleiten kann.

Gemini 3.5 Flash ist Googles Wette auf das Sweet Spot aus Tempo, Kosten und Intelligenz: ein „Flash“-Modell, das Googles eigenes größeres Gemini 3.1 Pro in Coding- und Agentik-Benchmarks übertrifft. Es läuft etwa viermal so schnell wie vergleichbare Frontier-Modelle und kostet $1,50/$9 pro Million Tokens – also deutlich günstiger.

In diesem Artikel vergleiche ich die beiden Modelle entlang von fünf Dimensionen:

  • Leistung in Coding und Agentik
  • Tempo und Latenz
  • Long-Context-Arbeit
  • Preisgestaltung

Wenn du Fable 5 stattdessen gegen OpenAIs Flaggschiff abwägst: Dafür haben wir einen eigenen Artikel: Claude Fable 5 vs GPT-5.5.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden – unserem kostenlosen Freitags-Newsletter, der die wichtigsten KI-News der Woche kompakt einordnet. Klicke oben auf den Link, abonniere, und bleib mit ein paar Minuten pro Woche up to date.

Was ist Claude Fable 5?

Claude Fable 5 ist Anthropics erstes Mythos-Klasse-Modell für die breite Nutzung. Fable 5 teilt sich das zugrunde liegende Modell mit Claude Mythos 5, wird aber mit aktiven Sicherheitsklassifikatoren ausgeliefert: Eine Probe überwacht interne Aktivierungen über den gesamten Traffic, markierte Anfragen werden an einen trainierten LLM-Klassifikator eskaliert. Blockierte Anfragen werden zu Claude Opus 4.8 umgeleitet.

Fable 5 ist in nahezu jedem getesteten Benchmark State of the Art und enorm stark in Softwareentwicklung, Wissensarbeit, Vision und langlaufenden agentischen Aufgaben. Je länger und komplexer die Aufgabe, desto größer wird der Vorsprung gegenüber früheren Claude-Modellen.

Was ist Gemini 3.5 Flash?

Gemini 3.5 Flash ist Google DeepMinds Mai-Release, angekündigt auf der Google I/O 2026 als erstes Modell der neuen Gemini-3.5-Familie. Trotz „Flash“-Branding ist es kein klassisches Budget-Modell: Es übertrifft Googles größeres Gemini 3.1 Pro in der Coding- und Agentik-Suite und läuft etwa 4× schneller als vergleichbare Frontier-Modelle.

Gemini 3.5 Flash ist ein Reasoning-Modell mit konfigurierbarem Denkaufwand (minimal, low, medium, high). (Standard ist medium, falls du dich fragst.) Das Modell unterstützt ein Kontextfenster von 1 Million Tokens, multimodale Eingaben (Text, Bild, Audio, Video, PDF) und schreibt mit rund 280+ Tokens pro Sekunde. Google hat es am Launch-Tag zum Standardmodell in der Gemini-App und im AI Mode in der Suche gemacht. Wir rechnen jeden Tag mit Gemini 3.5 Pro als Nachzügler.

Ein Hinweis zur Einordnung: 3.5 Flash ist etwa dreimal so teuer pro Token wie sein Vorgänger, Gemini 3 Flash ($0,50/$3,00). Es ist also günstig relativ zu Flaggschiffen, nicht relativ zur eigenen Linie. Und da Denk-Tokens zum Ausgaberate-Tarif abgerechnet werden, können reasoning-lastige Workloads mit hohem Aufwand mehr kosten, als der Listenpreis vermuten lässt. Das sollte man im Blick behalten.

Claude Fable 5 vs. Gemini 3.5 Flash: Direktvergleich

Hier ist eine kurze Zusammenfassung, bevor wir in die Details gehen. Ich habe zwei Tabellen erstellt: eine für die Benchmark-Ergebnisse und eine für praktische Aspekte wie Preis, Tempo und Zugang.

Benchmark-Ergebnisse

Benchmark Claude Fable 5 Gemini 3.5 Flash
SWE-Bench Pro 80,3% 55,1% (Public)
Terminal-Bench 2.1 88,0%* 76,2%
Humanity's Last Exam (mit Tools) 64,5% Hinter Gemini 3.1 Pro (nicht direkt vergleichbar)
OSWorld-Verified 85,0% Nicht veröffentlicht
MCP Atlas (Multi-Tool-Koordination) Nicht veröffentlicht 83,6%

Wie du siehst, gewinnt Claude Fable 5 in allen direkten Benchmark-Vergleichen, für die belastbare Vergleichsdaten vorliegen.

Preise, Tempo und Zugang

Wie schon erwähnt: Die Preisgestaltung ist bei Gemini 3.5 Flash klar im Vorteil (und zwar deutlich).

Funktion Claude Fable 5 Gemini 3.5 Flash
API-Input-Preis (pro 1 Mio. Tokens) $10 $1,50
API-Output-Preis (pro 1 Mio. Tokens) $50 $9,00
Gecachter Input-Preis $0,15 pro 1 Mio. (90% Rabatt)
Ausgabe-Tempo Standard-Latenz von Frontier-Modellen ~280+ Tokens/Sek., ~4× schneller als Frontier-Peers
Kontextfenster Langlaufende agentische Aufgaben mit mehreren Millionen Tokens angegeben; kein veröffentlichter MRCR bei 512K+ 1 Mio. Tokens (1.048.576 Input-Grenze)
Allgemeine Verfügbarkeit Begrenzt (ab 22. Juni sind Nutzungsguthaben erforderlich) Ja (Gemini-App, AI Studio, Antigravity, API, AI Mode in der Suche)

Leistung in Coding und Agentik

Die Leistung bei Coding und agentischer Arbeit lohnt eine eigene Betrachtung, denn hier ist die Fähigkeitslücke am größten.

Bei SWE-Bench Pro, siehe erste Tabelle, erzielt Fable 5 80,3% gegenüber 55,1% von Gemini 3.5 Flash auf dem Public-Set. Das ist eine Lücke von 25 Punkten. Für Repository-Level-Engineering auf komplexen Codebasen ist das ein echter Unterschied. Vermutlich kann Fable 5 die meisten realen GitHub-Issues eigenständig lösen – bei Gemini 3.5 Flash wäre ich mir da weniger sicher.

Gemini 3.5 Flash kontert beim agentischen Durchsatz, nicht bei der agentischen Tiefe. Flash ist explizit für parallele Ausführungsschleifen, Sub-Agent-Deployments und schnelle Iteration optimiert. Die 83,6% auf MCP Atlas — ein Benchmark für Multi-Tool-Koordination, bei dem es GPT-5.5 mit 75,3% schlägt — deuten auf ein Modell hin, das darauf ausgelegt ist, viele schnelle Tool-Calls zu orchestrieren statt eine einzige lange, tiefe Reasoning-Kette zu verfolgen. Google berichtet zudem über deutliche Token-Effizienzgewinne in realen agentischen Szenarien gegenüber früheren Flash-Versionen.

Die richtige Einordnung: Muss dein Agent wenige, aber sehr schwierige Schritte gründlich durchdenken (komplexe Refactors, Architekturänderungen, hartnäckiges Debugging), gewinnt Fable 5. Muss dein Agent viele schnelle, mittelkomplexe Schritte parallel ausführen (Scraping-und-Summarizing-Pipelines, Multi-Tool-Orchestrierung, hohes Volumen beim Triage), sind Flashs Tempo und Kostenprofil sinnvoll.

Tempo und Latenz

Gemini 3.5 Flash liefert rund 280+ Tokens pro Sekunde — mehrfach schneller als typische Frontier-Flaggschiffe.

Fable 5 hingegen ist nicht als schnelles Modell positioniert. Es ist das Modell für Aufgaben, die so anspruchsvoll sind, dass sich Warten auf die Antwort lohnt.

Long-Context-Performance

Gemini 3.5 Flash unterstützt etwa 1 Mio. Tokens Input-Kontext, und die Gemini-Reihe war historisch stark bei Long-Context-Retrieval. Allerdings liegt Flash Berichten zufolge hinter Googles eigenem Gemini 3.1 Pro auf MRCR v2 zurück.

Anthropic behauptet, Fable 5 bleibe über Millionen Tokens in langlaufenden Aufgaben fokussiert und verbessere Ausgaben mithilfe eigener Notizen. MRCR-ähnliche Scores im Bereich 512K–1M hat Anthropic jedoch nicht veröffentlicht, sodass ein Vergleich auf Augenhöhe nicht möglich ist.

Für Dokumentenprüfungen mit einer Million Tokens hat keines der beiden Modelle hier einen klar veröffentlichten Vorsprung. Wenn Long-Context-Zuverlässigkeit deine wichtigste Variable ist, fällt GPT-5.5 mit veröffentlichten 74,0% MRCR v2 bei 512K–1M auf.

Preise und Verfügbarkeit

Es gibt eine deutliche Preisdifferenz. Fable 5 kostet $10 pro Million Input-Tokens und $50 pro Million Output-Tokens. Gemini 3.5 Flash kostet $1,50 bzw. $9,00 und bietet zudem gecachten Input für $0,15 pro Million, also 90% Rabatt. Damit ist Gemini 3.5 Flash beim Input rund sechs- bis siebenmal günstiger und beim Output fünf- bis sechsmal günstiger.

Allerdings ist Preis nie die ganze Wahrheit: Erstens ist Flash ein Reasoning-Modell, dessen Denk-Tokens zum Output-Tarif abgerechnet werden, sodass anspruchsvolle Reasoning-Workloads spürbar mehr Output-Tokens verbrauchen können als der Prompt vermuten lässt. Teste deinen eigenen Workload, bevor du annimmst, dass Flash für deinen Use Case günstig ist. Zweitens: Wenn Fable-5-Klassifikatoren eine Anfrage umleiten, wird zum Opus-4.8-Tarif ($5/$25) abgerechnet, nicht zum Fable-5-Tarif. Das ist vermutlich nur ein kleiner dämpfender Kostenfaktor.

Verfügbarkeit ist die zweite Asymmetrie. Gemini 3.5 Flash war ab Tag eins allgemein verfügbar: in der Gemini-App, Google AI Studio, Antigravity, der Gemini API und im AI Mode der Suche. Bei Fable 5 gibt es eine Zäsur beim Abozugang: Pro-, Max-, Team- und Enterprise-Abonnenten hatten nur bis zum 22. Juni 2026 kostenlosen Zugang, der schnell näher rückt; danach sind zusätzlich Nutzungsguthaben erforderlich.

Wann Claude Fable 5 und wann Gemini 3.5 Flash?

Die Entscheidung hängt im Wesentlichen von zwei Variablen ab:

  • Sind deine Aufgaben so anspruchsvoll, dass du Fable 5 als Obergrenze brauchst?
  • Dominiert Tempo und Kosten-pro-Call deine Wirtschaftlichkeit?
Use Case Empfehlung Warum
Repository-Level-Softwareentwicklung auf komplexen Codebasen Claude Fable 5 80,3% vs. 55,1% auf SWE-Bench Pro sind 25 Punkte Unterschied und spiegeln echte Fähigkeitsdifferenzen
Hochvolumige, latenzkritische agentische Pipelines Gemini 3.5 Flash ~280+ Tok./Sek. Output, parallele Sub-Agent-Ausführung und 5–7× niedrigere Tokenkosten summieren sich über Tausende Calls
Interaktive Consumer-Produkte und Chat-UX Gemini 3.5 Flash 4× Geschwindigkeitsvorteil ist ein Produktmerkmal; Fable 5 passt mit Latenz und Preis nicht zu hochfrequenten Consumer-Use-Cases
Komplexe Finanz- und Wissensarbeit Claude Fable 5 Führt Hebbias Finance Benchmark und Humanity's Last Exam mit Tools (64,5%) an
Multi-Tool-Orchestrierung über viele Services Gemini 3.5 Flash 83,6% auf MCP Atlas sind der stärkste veröffentlichte Score für Multi-Tool-Koordination unter Frontier-Modellen
Multimodale Pipelines (Video-, Audio-, PDF-Input) Gemini 3.5 Flash Native multimodale Eingabe über Text, Bild, Audio, Video und PDF
Regulierte Branchen mit Zero-Data-Retention-Anforderungen Gemini 3.5 Flash Fable 5s verpflichtende 30-Tage-Aufbewahrung ist für manche Unternehmen ein K.-o.-Kriterium

Wähle Claude Fable 5, wenn ...

  • Dein Haupt-Use-Case Repository-Level-Softwareentwicklung ist
  • Du die höchstmögliche Obergrenze für komplexe Analysearbeit brauchst — Finance, multidisziplinäres Reasoning, langlaufende agentische Aufgaben — und Latenz zweitrangig ist.
  • Deine Arbeit nicht an Cybersecurity, Biologie oder Chemie grenzt, sodass Klassifikator-Umlenkungen unwahrscheinlich sind.

Wähle Gemini 3.5 Flash, wenn ...

  • Deine Ökonomie vom Volumen getrieben ist: Tausende Calls pro Tag, bei denen sich der Kostenvorteil potenziert.
  • Tempo ein Produktkriterium ist — interaktive UX, Echtzeit-Agenten oder Pipelines, bei denen die Gesamtzeit über viele Tool-Calls wichtiger ist als Tiefe pro Schritt.
  • Du breite multimodale Eingaben (Video, Audio, PDF) in einem einzigen Modell brauchst.
  • Deine Enterprise-Datenrichtlinie Fable 5s verpflichtende 30-Tage-Aufbewahrung nicht zulässt oder du ein Modell brauchst, das nicht stillschweigend mitten in der Pipeline wechselt.

Fazit

Das ist kein Vergleich Eins-zu-eins. Fable 5 und Gemini 3.5 Flash besetzen unterschiedliche Positionen im Markt: Das eine ist die Leistungsobergrenze mit ein wenig Reibung, das andere die Effizienzfront mit niedrigerer Decke.

Wenn pure Leistungsfähigkeit bei harten Aufgaben dein einziges Kriterium ist, gewinnt Fable 5 klar. Aber der Wert von Flash ist nicht „fast so gut für weniger“. Ich will es nicht kleinreden: Es ist nahezu Frontier-Intelligenz, schnell und günstig genug geliefert, um in Bereichen eingesetzt zu werden, in denen Fable 5 wirtschaftlich nie infrage kam.


Josef Waples's photo
Author
Josef Waples
Themen

Mit DataCamp lernen

Kurs

Konzepte großer Sprachmodelle (LLMs)

2 Std.
99.1K
Entdecken Sie das volle Potenzial von LLMs mit unserem Kurs zu Anwendungen, Training, Ethik und Forschung.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Blog

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Guide mit grundlegenden, fortgeschrittenen und szenariobasierten AWS-Interviewfragen – mit Beispielen aus der Praxis.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Tutorial

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

Finde raus, wie die Fibonacci-Folge funktioniert. Schau dir die mathematischen Eigenschaften und die Anwendungen in der echten Welt an.
Laiba Siddiqui's photo

Laiba Siddiqui

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Mehr anzeigenMehr anzeigen