Claude Fable 5 vs GPT-5.5: Benchmarks, Preise und welche Wahl passt

Claude Fable 5 führt bei den reinen Fähigkeitsbenchmarks, während GPT-5.5 bei Zugang, Preisen und weniger Klassifizierer-Unterbrechungen punktet. So triffst du die richtige Wahl.

Aktualisiert 10. Juni 2026 · 11 Min. lesen

Mit KI erkunden

In ChatGPT öffnen In Claude öffnen In Perplexity öffnen

Wenn du zwischen Claude Fable 5 und GPT-5.5 für produktive Workflows entscheiden musst, erzählen die Benchmarks eine klare Geschichte. Auf dem Papier ist Fable 5 beim Coden und beim Reasoning deutlich stärker. Es kostet jedoch doppelt so viel pro Output-Token, nutzt Klassifizierer, die Anfragen still auf ein schwächeres Modell umleiten können, und erzwingt eine 30-tägige Datenaufbewahrung, die manche Enterprise-Kundschaft komplett ausschließt.

In diesem Artikel vergleiche ich Fable 5 und GPT-5.5 entlang von fünf Dimensionen: Coding- und Agenten-Performance, Arbeit mit sehr langen Kontexten, Safety-Klassifizierer und Zugangshürden, Wissensarbeit und Reasoning sowie Preise. Für eine tiefere Einzelbetrachtung findest du auch unsere separaten Guides zu Claude Fable 5 und GPT-5.5.

Bleib bei KI-Themen auf dem Laufenden. Abonniere The Median, unseren kostenlosen Freitags-Newsletter, der die wichtigsten News der Woche einordnet. In wenigen Minuten pro Woche bist du up to date.

Was ist Claude Fable 5?

Claude Fable 5 ist Anthropics erstes Mythos-Klassenmodell für die allgemeine Nutzung, erschienen am 9. Juni 2026. Mythos ist eine neue Fähigkeitsstufe oberhalb von Opus in Anthropics Modellhierarchie. Fable 5 basiert auf demselben Grundmodell wie Claude Mythos 5, hat jedoch aktive Safety-Klassifizierer, die bestimmte sensible Anfragen stattdessen an Claude Opus 4.8 weiterleiten. Die Unterscheidung ist wichtig: Fable ist die öffentlich zugängliche Version; Mythos ist die unbeschränkte Variante, die nur Partnern von Project Glasswing offensteht.

Anthropic positioniert Fable 5 als State of the Art auf nahezu allen getesteten Benchmarks, mit besonderer Stärke in Software Engineering, Wissensarbeit, Vision und langlaufenden agentischen Aufgaben. Je länger und komplexer die Aufgabe, desto größer der Vorsprung gegenüber früheren Claude-Modellen. Stripe berichtete, dass Fable 5 monatelange Engineering-Arbeit auf eine Migration eines Ruby-Codebases mit 50 Millionen Zeilen in wenige Tage komprimierte.

Mehr zu Fable 5s Fähigkeiten und Benchmarks findest du in unserem Claude Fable 5 Guide. Die eingeschränkte Mythos-5-Variante behandeln wir in unserem Claude Mythos 5 Artikel.

Was ist GPT-5.5?

GPT-5.5 ist OpenAIs Modell-Release vom April 2026 und wird als stärkstes agentisches Coding-Modell des Unternehmens beschrieben. Zusätzlich erschien eine Variante GPT-5.5 Pro für Arbeiten mit höherer Genauigkeit. Das Modell wurde für NVIDIA GB200- und GB300-NVL72-Systeme mitentwickelt und darauf bereitgestellt. OpenAI sagt, es erreiche in der Praxis die Token-Latenz von GPT-5.4 bei spürbar höherem Intelligenzniveau.

Das wichtigste architektonische Merkmal von GPT-5.5 ist die Zuverlässigkeit bei langen Kontexten. GPT-5.4 brach auf dem MRCR-Benchmark jenseits von etwa 128K Tokens ein; GPT-5.5 hält bis 512K–1M Tokens durch (74,0% auf MRCR v2 in diesem Bereich, gegenüber 36,6% bei GPT-5.4). Das ist ein qualitativer Sprung in den Einsatzmöglichkeiten, kein marginaler Benchmark-Gewinn.

Eine vollständige Aufschlüsselung der GPT-5.5-Benchmarks und unserer Hands-on-Ergebnisse findest du im GPT-5.5 Guide. Außerdem haben wir es direkt gegen Claude Opus 4.8 verglichen: Claude Opus 4.8 vs GPT-5.5.

Claude Fable 5 vs GPT-5.5: Direktvergleich

Hier ist eine kurze Zusammenfassung, bevor wir in die Details gehen.

Feature	Claude Fable 5	GPT-5.5
SWE-Bench Pro	80,3%	58,6%
Terminal-Bench 2.1	88,0%*	83,4% (Codex CLI)
Humanity's Last Exam (mit Tools)	64,5%	52,2%
MRCR v2 bei 512K–1M Tokens	Nicht veröffentlicht	74,0%
OSWorld-Verified	85,0%	78,7%
API-Preise Input (pro 1 Mio. Tokens)	$10	$5
API-Preise Output (pro 1 Mio. Tokens)	$50	$30
Safety-Classifier-Fallback	Ja (leitet zu Opus 4.8 um)	Kein stiller Fallback
Datenaufbewahrung	30 Tage verpflichtend	Standardrichtlinie
Allgemeine Verfügbarkeit	Eingeschränkt (nach dem 22. Juni zusätzliche Credits nötig)	Ja (ChatGPT + API)

Coding- und agentische Performance

Hier ist der Abstand am größten und für die Entscheidung am relevantesten. Auf SWE-Bench Pro, dem Benchmark für das Lösen realer GitHub-Issues, erzielt Fable 5 80,3% gegenüber 58,6% bei GPT-5.5. Das sind 22 Punkte Unterschied. Zum Kontext: Claude Opus 4.7 lag auf diesem Benchmark bereits vor GPT-5.5 mit 64,3%, also hinkte GPT-5.5 bei Repository-Level-Coding schon vor Fable 5 hinterher.

Auf Cognitions FrontierCode-Evaluation, die prüft, ob Modelle schwierige Coding-Aufgaben unter Produktionsstandards bestehen, erzielt Fable 5 selbst bei mittlerem Aufwand Bestwerte unter den Frontier-Modellen. Der Cursor-CEO Michael Truell beschrieb es als höchstplatziertes Modell auf FrontierBench, stark bei langfristigem Reasoning und sofortiger Generalisierung auf unbekannte Tools.

Fable 5 scheint auch bei Terminal-Bench 2.1 mit gemeldeten 88,0%* vor GPT-5.5 mit 83,4% zu liegen. Das Sternchen weist darauf hin, dass die Zahl wegen einer Diskrepanz zwischen Fable 5 und Mythos 5 mit Vorsicht zu genießen ist. Wo das vorkommt, ist Fable die schwächere der beiden Varianten. Ich würde daher annehmen, dass Fable 5 mit GPT-5.5 gleichzieht oder knapp vorne liegt.

GPT-5.5 ist weiterhin die beste Wahl für terminallastige DevOps- und Shell-Automatisierung, aber der SWE-Bench-Pro-Abstand ist ein echtes Signal. Wenn dein Hauptanwendungsfall Repository-Level-Engineering ist, ist Fable 5 rein nach Fähigkeit die klar bessere Wahl. Die Frage ist, ob sich die doppelten Output-Token-Kosten und die Klassifizierer-Reibung für deinen Workload lohnen.

Leistung bei langen Kontexten

Das ist GPT-5.5s echtes Unterscheidungsmerkmal und sollte ernst genommen werden. GPT-5.4 brach jenseits von rund 128K Tokens auf MRCR v2 ein. GPT-5.5 nicht. Bei 512K–1M Tokens erzielt GPT-5.5 74,0% auf MRCR v2, verglichen mit 36,6% bei GPT-5.4 im selben Bereich. Das ist kein inkrementelles Plus, sondern eine andere Fähigkeitsklasse.

Anthropic behauptet, Fable 5 bleibe über Millionen Tokens in Langläufern fokussiert und verbessere seine Outputs mithilfe eigener Notizen. Der Slay-the-Spire-Memory-Test zeigte, dass dateibasierte persistente Memory Fable 5 dreimal so stark half wie Opus 4.8. Allerdings hat Anthropic keine MRCR-ähnlichen Werte für Fable 5 im Bereich 512K–1M veröffentlicht, sodass kein direkter 1:1-Vergleich möglich ist.

Für Nutzerinnen und Nutzer mit Millionentoken-Kontexten, etwa Juradokumentenprüfung, Analyse großer Codebasen oder Synthesen wissenschaftlicher Literatur, sind GPT-5.5s veröffentlichte Long-Context-Ergebnisse die solidere Evidenz. In unseren eigenen Tests bestand GPT-5.5 einen 300K-Token-Needle-Test und hielt MRCR-Scores über 256K, wo GPT-5.4 kollabierte. Fable 5 mag hier ähnlich stark sein, doch vergleichbare Daten fehlen bislang.

Safety-Klassifizierer und Zugangshürden

Das ist das am meisten unterschätzte Praxisproblem bei Fable 5 und verdient mehr als eine Fußnote. Fable 5 nutzt ein zweistufiges Klassifiziersystem: Eine Sonde überwacht interne Aktivierungen über den gesamten Traffic, und markierte Anfragen werden an einen separat trainierten LLM-Klassifizierer eskaliert, der die endgültige Entscheidung trifft. Wenn eine Anfrage blockiert wird, wird sie an Claude Opus 4.8 umgeleitet, und die Nutzer werden darüber informiert, welches Modell geantwortet hat.

Anthropic sagt, die Klassifizierer griffen im Schnitt in weniger als 5% der Sessions. Drei Domänen sind abgedeckt:

Cybersicherheit: Exploit-Entwicklung, offensive Cyber-Aufgaben und agentische Hacking-Workflows werden blockiert. Fable 5 erzielte mit aktivierten Klassifizierern 0,0% über alle vier Cyber-Benchmarks, während das zugrundeliegende Mythos-Modell 88,4% bei Firefox-Exploit-Entwicklung erreichte.
Biologie und Chemie: Die meisten Anfragen in diesem Bereich fallen auf Opus 4.8 zurück. Laut Anthropics eigenen Evaluierungen näherte sich das zugrundeliegende Modell Expertenniveau bei Aufgaben zum Design adenoassoziierter Viren, weshalb die Abdeckung breit ist.
Distillation: Anfragen, die als Versuche gewertet werden, Claudes Fähigkeiten für das Training konkurrierender Modelle zu extrahieren, werden umgeleitet.

Der Fallback ist nicht nur ein Fähigkeits-, sondern auch ein Zuverlässigkeitsthema für agentische Pipelines. Wenn Fable 5 zu Opus 4.8 umleitet, zahlst du Opus-4.8-Preise, arbeitest aber mitten im Task mit einem anderen (immer noch sehr guten!) Modell. Für Pipelines, die durchgängig mit Fable 5s Reasoning-Tiefe rechnen, kann ein stiller Mid-Session-Wechsel Annahmen über die Outputqualität aufbrechen.

GPT-5.5 hat eigene Cyber-Schutzmechanismen, beschrieben als strengere Klassifizierer für potenzielles Cyberrisiko. Es gibt jedoch keinen stillen Fallback auf ein schwächeres Modell. OpenAIs Ansatz ist gestuftes Trusted Access: Verifizierte Defender können unter chatgpt.com/cyber erweiterten Zugriff mit weniger Einschränkungen beantragen. Dieser Weg ist zugänglicher als Anthropics Project Glasswing, das weiterhin einer kleinen Zahl genehmigter Partner vorbehalten ist.

Es gibt noch einen weiteren klaren Blocker. Fable 5 und Mythos 5 gelten als Covered Models. Das bedeutet, Anthropic verlangt für sämtlichen Traffic eine 30-tägige Datenaufbewahrung – auch für Enterprise-Kunden, die zuvor Null-Aufbewahrung hatten. Anthropic gibt an, die Daten nicht fürs Training zu nutzen, aber die bloße Aufbewahrungspflicht ist für regulierte Branchen ein harter Ausschlussgrund. Manche Enterprise-Kunden können Fable 5 aufgrund dieser Richtlinie gar nicht einsetzen.

Wissensarbeit und Reasoning

Beide Modelle sind hier stark, und die Unterschiede sind kleiner als beim Coding. Fable 5 führt auf Hebbias Finance Benchmark für Senior-Reasoning und erzielt Bestwerte bei dokumentbasiertem Schlussfolgern, Diagramminterpretation und Problemlösung. IMC berichtete, dass Fable 5 ihre Trading-Analyse-Evaluierungen durchweg übertraf, einschließlich Root-Cause- und Expected-Value-Analysen.

GPT-5.5 führt auf FrontierMath Tier 4 mit 35,4% vor Fable 5s veröffentlichten Ergebnissen. Auf GDPval, das Agenten über 44 Berufe testet, erzielt GPT-5.5 84,9%. Bei Humanity's Last Exam mit Tools liegt Fable 5 vorn: 64,5% versus 52,2% bei GPT-5.5 – ein spürbarer Vorsprung für multidisziplinäres Reasoning.

Preise und Verfügbarkeit

Die Preisdifferenz ist real und skaliert mit dem Volumen. Fable 5 kostet $10 pro Million Input-Tokens und $50 pro Million Output-Tokens. GPT-5.5 liegt bei $5 pro Million Input-Tokens und $30 pro Million Output-Tokens. Bei hohem Volumen summiert sich der Anstieg von 100%/67% schnell.

Beim Abozugang gibt es für Fable 5 eine zusätzliche Besonderheit. Pro-, Max-, Team- und Enterprise-Abos hatten bis zum 22. Juni freien Zugriff. Danach erfordert die Nutzung von Fable 5 zusätzliche Usage-Credits obendrauf. Anthropic sagt, man wolle Fable 5 bei verfügbarer Kapazität wieder als Standard-Abo-Feature bereitstellen, aber es gibt keinen festen Zeitplan. GPT-5.5 wurde am ersten Tag für Plus-, Pro-, Business- und Enterprise-User in ChatGPT und Codex ausgerollt, mit bald folgendem API-Zugang.

Ein wichtiges Preisdetail: Wenn eine Fable-5-Anfrage aufgrund der Klassifizierer auf Opus 4.8 zurückfällt, wirst du zu Opus-4.8-Preisen abgerechnet ($5 Input / $25 Output), nicht zu Fable-5-Preisen.

Wann Claude Fable 5 vs GPT-5.5 wählen

Die Entscheidung hängt von drei Variablen ab: Wie stark die SWE-Bench-Pro-Lücke für deine Arbeit zählt, ob deine Domäne Fable 5s Klassifizierer triggert und ob du verlässliche Performance jenseits von 256K Tokens brauchst.

Anwendungsfall	Empfehlung	Begründung
Repository-Level Software Engineering	Claude Fable 5	80,3% vs 58,6% auf SWE-Bench Pro sind 22 Punkte Unterschied und spiegeln echte Fähigkeitsdifferenzen auf komplexen Codebasen
Security-Tooling, Penetrationstests oder Offensive-Security-Forschung	GPT-5.5	Fable 5s Klassifizierer blockieren oder leiten den Großteil dieser Arbeit um; GPT-5.5s gestufter Trusted-Access-Pfad ist zugänglicher
Juristische Reviews oder Synthesen wissenschaftlicher Literatur bei 500K+ Tokens	Beide	Veröffentlichte MRCR-Werte bei 512K–1M Tokens (74,0%) zeigen, dass GPT-5.5 hält, wo GPT-5.4 kollabierte; Fable 5 hat keine vergleichbaren publizierten Daten, verspricht aber bessere Performance
Finanz- und Wissensarbeit mit komplexen Dokumenten	Claude Fable 5	Führt auf Hebbias Finance Benchmark und Humanity's Last Exam mit Tools (64,5% vs 52,2%)
Hochvolumige API-Workloads mit Kostendruck	GPT-5.5	$30 vs $50 pro Million Output-Tokens; der Abstand skaliert mit dem Volumen
Biomedizinische Forschungspipelines	GPT-5.5 (oder auf Fable-5-Trusted-Access warten)	Fable 5s Biologie-Klassifizierer leiten die meisten biomedizinischen Anfragen an Opus 4.8 um, bis das Trusted-Access-Programm öffnet
Regulierte Branchen mit Null-Datenaufbewahrung	GPT-5.5	Fable 5s verpflichtende 30-tägige Aufbewahrung ist ein harter Blocker für manche Enterprise-Kunden

Wähle Claude Fable 5, wenn ...

Dein Hauptanwendungsfall Repository-Level-Softwareengineering ist und die 22-Punkte-SWE-Bench-Pro-Lücke die doppelten Output-Token-Kosten rechtfertigt.
Deine Arbeit nicht in der Nähe von Cybersecurity, Biologie oder Chemie stattfindet, sodass die Klassifizierer in deinen Sessions voraussichtlich nicht auslösen.
Du die höchste Decke für komplexe Analysen brauchst, einschließlich Finanzbenchmarks und multidisziplinärem Reasoning, wo Fable 5 zweistellig führt.
Du über die API gehst und $50 pro Million Output-Tokens für den Fähigkeitsgewinn einplanen kannst.

Wähle GPT-5.5, wenn ...

Du in sicherheitsnahen Domänen baust und ein Modell brauchst, das Anfragen nicht mitten in der Pipeline still umleitet.
Deine Enterprise-Datenrichtlinie Null-Aufbewahrung verlangt, was Fable 5s Covered-Model-Status ausschließt.
Du planbaren API-Zugang ohne Abo-Klippe oder zusätzliches Usage-Credit-System brauchst.
Kosteneffizienz zählt und der Abstand $30 vs $50 pro Million Output-Tokens bei deinem Volumen ins Gewicht fällt.

Fazit

Fable 5 ist auf den entscheidenden Benchmarks das fähigere Modell. Die SWE-Bench-Pro-Lücke (80,3% vs 58,6%) ist kein Rauschen, und der Vorsprung bei Humanity's Last Exam (64,5% vs 52,2% mit Tools) spiegelt einen echten Unterschied in der Reasoning-Tiefe wider. Wenn reine Fähigkeit das einzige Kriterium ist, gewinnt Fable 5.

Aber das Sternchen bei Fable 5s Scores ist real. Diese Zahlen spiegeln das zugrundeliegende Mythos-Modell wider. Fable 5 ist Mythos mit aufgesetzten Klassifizierern, und bei Cybersecurity-, biomedizinischen und bestimmten Dual-Use-Anfragen bekommst du stattdessen Opus 4.8. Für agentische Pipelines ist das nicht nur ein Fähigkeits-, sondern ein Zuverlässigkeitsthema. Eine Pipeline, die durchgängig mit Fable 5s Reasoning-Tiefe rechnet, kann brechen, wenn das Modell mitten im Task still wechselt. Zusammen mit der verpflichtenden 30-tägigen Datenaufbewahrung ist Fable 5 für manche Enterprise-Kunden derzeit schlicht keine Option.

Es gibt noch eine dritte Option. Wenn Fable 5s Preis zu hoch ist und GPT-5.5s Long-Context-Vorteile für deinen Use Case keine Rolle spielen, ist Claude Opus 4.8 kein Trostpreis. Es schlägt GPT-5.5 auf SWE-Bench Pro bereits mit 69,2% vs 58,6%, kostet $5/$25 pro Million Tokens und hat nicht die Klassifizierer-Reibung von Fable 5. Die Entscheidung Opus 4.8 vs GPT-5.5 beleuchten wir ausführlich in unserem Claude Opus 4.8 Artikel.

Wenn du dich schnell in die Arbeit mit Frontier-Modellen in der Produktion einlernen willst, starte am besten mit unserem AI Fundamentals Skill Track.

Author

Tom Farnschläder

Themen

Künstliche Intelligenz

Große Sprachmodelle

Lerne KI mit DataCamp!

Lernpfad

ChatGPT-Grundlagen

3 Std.

Dieser Lernpfad führt dich in die Grundlagen von ChatGPT und Prompt Engineering ein – inklusive Techniken zur Erstellung wirkungsvoller Prompts für optimale Ergebnisse.

Details anzeigen

Kurs Starten

Kurs

Einführung in die Claude-Modelle

3 Std.

12.3K

Lerne, wie du mit Claude über die Anthropic API echt coole Aufgaben lösen und KI-basierte Apps entwickeln kannst.

Details anzeigen

Kurs Starten

Kurs

Claude 101

2 Std.

10.9K

Learn how to use Claude for everyday work tasks, understand core features, and explore resources for more advanced learning on other topics.

Details anzeigen

Kurs Starten

Verwandt

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.

Hesam Sheikh Hassani

15 Min.

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Guide mit grundlegenden, fortgeschrittenen und szenariobasierten AWS-Interviewfragen – mit Beispielen aus der Praxis.

Zoumana Keita

15 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree

Tutorial

Python-Anweisungen IF, ELIF und ELSE

In diesem Tutorial lernst du ausschließlich Python if else-Anweisungen kennen.

Sejal Jaiswal

Mehr Anzeigen Mehr Anzeigen

Was ist Claude Fable 5?

Was ist GPT-5.5?

Claude Fable 5 vs GPT-5.5: Direktvergleich

Coding- und agentische Performance

Leistung bei langen Kontexten

Safety-Klassifizierer und Zugangshürden

Wissensarbeit und Reasoning

Preise und Verfügbarkeit

Wann Claude Fable 5 vs GPT-5.5 wählen

Wähle Claude Fable 5, wenn ...

Wähle GPT-5.5, wenn ...

Fazit

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Top 50+ AWS-Interviewfragen und Antworten für 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

Python-Anweisungen IF, ELIF und ELSE

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}ChatGPT-Grundlagen

Einführung in die Claude-Modelle

Claude 101

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Top 50+ AWS-Interviewfragen und Antworten für 2026

Python Switch Case Statement: Ein Leitfaden für Anfänger

Python-Anweisungen IF, ELIF und ELSE

ChatGPT-Grundlagen