Track
Jeśli wybierasz między Claude Fable 5 a GPT-5.5 do pracy produkcyjnej, tabele benchmarków opowiedzą ci jasną historię. Na papierze Fable 5 jest znacznie mocniejszym modelem w kodowaniu i rozumowaniu. Ale kosztuje też dwa razy więcej za token wyjściowy, ma system klasyfikatorów, który może po cichu przekierować twoją prośbę do słabszego modelu, oraz narzuca 30-dniowe przechowywanie danych, co całkowicie blokuje część klientów korporacyjnych.
W tym artykule porównam Fable 5 i GPT-5.5 w pięciu wymiarach: wydajność w kodowaniu i pracy agentowej, praca na długim kontekście, klasyfikatory bezpieczeństwa i tarcia w dostępie, prace wiedzowe i rozumowanie oraz ceny. Możesz też sprawdzić nasze osobne przewodniki: Claude Fable 5 i GPT-5.5, aby głębiej poznać każdy model z osobna.
Bądź na bieżąco ze światem AI. Zapisz się do The Median — naszego darmowego newslettera w każdy piątek, który rozkłada na czynniki najważniejsze wydarzenia tygodnia. Wystarczy kilka minut tygodniowo.
Czym jest Claude Fable 5?
Claude Fable 5 to pierwszy model Anthropic klasy Mythos dostępny do ogólnego użytku, uruchomiony 9 czerwca 2026 r. Mythos to nowy poziom możliwości, wyżej niż Opus w hierarchii modeli Anthropic. Fable 5 to ten sam bazowy model co Claude Mythos 5, ale z aktywnymi klasyfikatorami bezpieczeństwa, które przekierowują niektóre wrażliwe zapytania do Claude Opus 4.8. Różnica w nazwie ma znaczenie: Fable to publicznie dostępna wersja; Mythos to wersja bez ograniczeń dostępna tylko dla partnerów Project Glasswing.
Anthropic pozycjonuje Fable 5 jako stan sztuki na niemal wszystkich testowanych benchmarkach, ze szczególną siłą w inżynierii oprogramowania, pracach wiedzowych, wizji i długotrwałych zadaniach agentowych. Im dłuższe i bardziej złożone zadanie, tym większa przewaga nad poprzednimi modelami Claude. Stripe raportował, że Fable 5 skompresował miesiące pracy inżynieryjnej do dni przy migracji 50‑milionowej bazy kodu w Ruby.
Aby dowiedzieć się więcej o możliwościach Fable 5 i rozbiciu benchmarków, zobacz nasz przewodnik po Claude Fable 5. Omawiamy też ograniczony wariant Mythos 5 w artykule Claude Mythos 5.
Czym jest GPT-5.5?
GPT-5.5 to wydanie modelu OpenAI z kwietnia 2026 r., opisane jako najsilniejszy dotąd agentowy model do kodowania w ofercie firmy. OpenAI udostępniło także wariant GPT-5.5 Pro do pracy wymagającej wyższej dokładności. Model współprojektowano pod kątem systemów NVIDIA GB200 i GB300 NVL72, a OpenAI twierdzi, że dorównuje on opóźnieniom per-token GPT-5.4 w serwowaniu produkcyjnym, osiągając przy tym istotnie wyższy poziom inteligencji.
Kluczową historią architektoniczną GPT-5.5 jest niezawodność przy długim kontekście. GPT-5.4 załamywał się powyżej ok. 128K tokenów w benchmarku MRCR; GPT-5.5 utrzymuje 512K–1M tokenów (74,0% na MRCR v2 w tym zakresie, wobec 36,6% GPT-5.4). To jakościowa zmiana w zastosowaniach modelu, nie marginalny wzrost w benchmarkach.
Pełne zestawienie benchmarków GPT-5.5 i nasze wnioski z testów znajdziesz w przewodniku po GPT-5.5. Porównaliśmy go też bezpośrednio z Claude Opus 4.8 w materiale Claude Opus 4.8 vs GPT-5.5.
Claude Fable 5 vs GPT-5.5: porównanie bezpośrednie
Oto szybkie podsumowanie pozycji każdego modelu, zanim przejdziemy do szczegółów.
| Funkcja | Claude Fable 5 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 80,3% | 58,6% |
| Terminal-Bench 2.1 | 88,0%* | 83,4% (Codex CLI) |
| Humanity's Last Exam (z narzędziami) | 64,5% | 52,2% |
| MRCR v2 przy 512K–1M tokenów | Brak publikacji | 74,0% |
| OSWorld-Verified | 85,0% | 78,7% |
| Cena wejścia API (na 1M tokenów) | $10 | $5 |
| Cena wyjścia API (na 1M tokenów) | $50 | $30 |
| Fallback klasyfikatora bezpieczeństwa | Tak (przekierowuje do Opus 4.8) | Brak cichego fallbacku |
| Wymóg przechowywania danych | Obowiązkowe 30 dni | Standardowa polityka |
| Dostępność ogólna | Ograniczona (po 22 czerwca potrzebne dodatkowe kredyty) | Tak (ChatGPT + API) |
Kodowanie i wydajność agentowa
Tu różnica między modelami jest największa i najbardziej istotna decyzyjnie. W SWE-Bench Pro, benchmarku rozwiązywania rzeczywistych zgłoszeń z GitHuba, Fable 5 uzyskuje 80,3% wobec 58,6% GPT-5.5. To 22 punkty przewagi. Dla kontekstu: Claude Opus 4.7 już wcześniej wyprzedzał GPT-5.5 w tym benchmarku z wynikiem 64,3%, więc GPT-5.5 był w tyle w kodowaniu na poziomie repozytorium, zanim pojawił się Fable 5.
W ocenie FrontierCode od Cognition, która sprawdza, czy modele potrafią zaliczać trudne zadania programistyczne przy zachowaniu standardów produkcyjnych baz kodu, Fable 5 wypada najlepiej wśród modeli granicznych nawet przy średnim nakładzie pracy. CEO Cursor, Michael Truell, opisał go jako model z najwyższym wynikiem w FrontierBench, wyróżniający się rozumowaniem długohoryzontalnym i uogólnianiem do nieznanych narzędzi prosto z pudełka.
Fable 5 zdaje się też prowadzić w Terminal-Bench 2.1 z raportowanym wynikiem 88,0%*, przed GPT-5.5 z 83,4%. Gwiazdka oznacza, że na liczbę trzeba patrzeć z rezerwą z powodu rozbieżności między Fable 5 a Mythos 5. Tam, gdzie to występuje, Fable jest słabszym z dwóch, więc zakładałbym remis Fable 5 z GPT-5.5 lub niewielką przewagę Fable.
GPT-5.5 wciąż jest najlepszym wyborem do zadań DevOps z ciężkim użyciem terminala i automatyzacji shellowej, ale różnica w SWE-Bench Pro to realny sygnał. Jeśli twoim głównym przypadkiem użycia jest inżynieria na poziomie repozytorium, Fable 5 jest oczywistym wyborem pod kątem możliwości. Pytanie, czy 2x koszt tokena wyjściowego i tarcie przez klasyfikatory są warte tego w twoim scenariuszu.
Wydajność na długim kontekście
To prawdziwy wyróżnik GPT-5.5 i warto potraktować go poważnie. GPT-5.4 rozsypywał się powyżej ok. 128K tokenów w benchmarku MRCR v2. GPT-5.5 — nie. Przy 512K–1M tokenów GPT-5.5 uzyskuje 74,0% na MRCR v2, wobec 36,6% GPT-5.4 w tym samym zakresie. To nie marginalna poprawa, tylko inna klasa możliwości.
Anthropic twierdzi, że Fable 5 utrzymuje koncentrację przez miliony tokenów w długotrwałych zadaniach i poprawia swoje wyniki, korzystając z własnych notatek. Test pamięci w Slay the Spire pokazał, że trwała pamięć plikowa trzykrotnie bardziej poprawiła wyniki Fable 5 niż Opus 4.8. Jednak Anthropic nie opublikował wyników w stylu MRCR dla Fable 5 w zakresie 512K–1M, więc bezpośrednie porównanie 1:1 nie jest tu możliwe.
Dla użytkowników operujących na kontekstach rzędu milionów tokenów, jak przegląd dokumentów prawnych, analiza dużych baz kodu czy synteza literatury naukowej, opublikowane wyniki długiego kontekstu GPT-5.5 stanowią mocniejszą bazę dowodową. W naszych testach GPT-5.5 zaliczył needle test na 300K tokenów, a wyniki MRCR utrzymywały się powyżej 256K, gdzie GPT-5.4 się załamywał. Fable 5 może być tu równie mocny, ale dane nie są opublikowane w porównywalnym formacie.
Klasyfikatory bezpieczeństwa i tarcia w dostępie
To najbardziej niedorelowany problem praktyków z Fable 5 i zasługuje na coś więcej niż przypis. Fable 5 działa w oparciu o dwustopniowy system klasyfikatorów: sonda monitoruje wewnętrzne aktywacje w całym ruchu, a oflagowane prośby są eskalowane do osobnego wytrenowanego klasyfikatora LLM, który wydaje ostateczną decyzję. Gdy prośba zostanie zablokowana, jest przekierowywana do Claude Opus 4.8, a użytkownik otrzymuje informację, który model obsłużył zapytanie.
Anthropic podaje, że klasyfikatory uruchamiają się średnio w mniej niż 5% sesji. Obejmują trzy dziedziny:
- Cyberbezpieczeństwo: Rozwój exploitów, ofensywne zadania cyber i agentowe workflowy hakerskie są blokowane. Fable 5 uzyskał 0,0% we wszystkich czterech benchmarkach cyber przy aktywnych klasyfikatorach, względem 88,4% bazowego modelu Mythos w rozwoju exploita dla Firefoksa.
- Biologia i chemia: Większość próśb z tej dziedziny trafia do Opus 4.8. Własne ewaluacje Anthropic pokazały, że bazowy model zbliża się do poziomu eksperckiego w zadaniach projektowania wirusa AAV, stąd szerokie pokrycie.
- Destylacja: Prośby oflagowane jako próby wyciągania możliwości Claude’a do trenowania konkurencyjnych modeli są przekierowywane.
Mechanizm fallbacku to nie tylko kwestia możliwości; to kwestia niezawodności dla pipeline’ów agentowych. Gdy Fable 5 przełącza się na Opus 4.8, płacisz stawką Opus 4.8, ale dostajesz też inny (wciąż bardzo dobry!) model w środku zadania. Dla pipeline’u, który zakłada głębokość rozumowania Fable 5 przez cały czas, cicha zamiana w trakcie sesji na Opus 4.8 może rozbić założenia o jakości wyjścia.
GPT-5.5 ma własne zabezpieczenia cyber, opisane jako ostrzejsze klasyfikatory potencjalnego ryzyka cyber. Ale nie ma cichego fallbacku do słabszego modelu. Podejście OpenAI to warstwowy zaufany dostęp: zweryfikowani obrońcy mogą aplikować na chatgpt.com/cyber o poszerzony dostęp z mniejszymi ograniczeniami. Ta ścieżka jest bardziej dostępna niż Project Glasswing Anthropic, który nadal jest ograniczony do niewielkiego grona zatwierdzonych partnerów.
Jest jeszcze jedna bariera, którą warto nazwać wprost. Fable 5 i Mythos 5 są sklasyfikowane jako Covered Models, co oznacza, że Anthropic wymaga 30-dniowego przechowywania danych dla całego ruchu, nawet dla klientów korporacyjnych wcześniej mających plany z zerową retencją. Anthropic stwierdza, że dane nie są używane do treningu, ale sam wymóg retencji jest twardą przeszkodą w regulowanych branżach. Część klientów korporacyjnych nie może w ogóle używać Fable 5 z powodu tej polityki.
Prace wiedzowe i rozumowanie
Oba modele są tu mocne, a różnice są mniejsze niż w kodowaniu. Fable 5 prowadzi w Hebbia’s Finance Benchmark dla rozumowania na poziomie senior, osiągając najwyższy wynik spośród wszystkich modeli w rozumowaniu na podstawie dokumentów, interpretacji wykresów i rozwiązywaniu problemów. IMC raportowało, że Fable 5 przewyższył ich ewaluacje analizy tradingowej we wszystkich obszarach, w tym analizie przyczyn źródłowych i analizie wartości oczekiwanej.
GPT-5.5 prowadzi w FrontierMath Tier 4 z wynikiem 35,4%, przed opublikowanymi wynikami Fable 5. W GDPval, który testuje agentów w 44 zawodach, GPT-5.5 uzyskuje 84,9%. W Humanity's Last Exam z narzędziami Fable 5 prowadzi 64,5% do 52,2% GPT-5.5 — to istotna różnica w zadaniach wymagających multidyscyplinarnego rozumowania.
Ceny i dostępność
Różnica cen jest realna i narasta w skali. Fable 5 kosztuje $10 za milion tokenów wejściowych i $50 za milion tokenów wyjściowych. GPT-5.5 to $5 za milion tokenów wejściowych i $30 za milion tokenów wyjściowych. Przy dużych wolumenach wzrost o 100%/67% szybko się kumuluje.
Dostęp w subskrypcji to kolejny zgrzyt w przypadku Fable 5. Subskrybenci Pro, Max, Team i Enterprise mieli darmowy dostęp do 22 czerwca. Po tej dacie korzystanie z Fable 5 wymaga kredytów zużycia ponad istniejącą subskrypcję. Anthropic deklaruje, że zamierza przywrócić Fable 5 jako standardową funkcję subskrypcji, gdy pozwoli na to przepustowość, ale nie ma twardej osi czasu. GPT-5.5 trafił do użytkowników Plus, Pro, Business i Enterprise w ChatGPT i Codex pierwszego dnia, a niedługo potem do API.
Warto znać jedną cenową subtelność: gdy zapytanie Fable 5 spada do Opus 4.8 z powodu klasyfikatorów, rozliczane jest według stawek Opus 4.8 ($5 wejście / $25 wyjście), a nie Fable 5.
Kiedy wybrać Claude Fable 5, a kiedy GPT-5.5
Droga wyboru sprowadza się do trzech zmiennych: na ile luka w SWE-Bench Pro ma znaczenie dla twojej pracy, czy twoja dziedzina wyzwala klasyfikatory Fable 5 oraz czy potrzebujesz niezawodnej pracy powyżej 256K tokenów.
| Przypadek użycia | Zalecane | Dlaczego |
|---|---|---|
| Inżynieria oprogramowania na poziomie repozytorium | Claude Fable 5 | 80,3% vs 58,6% w SWE-Bench Pro to 22 punkty różnicy, odzwierciedlające realne różnice możliwości na złożonych bazach kodu |
| Narzędzia security, testy penetracyjne lub ofensywne badania bezpieczeństwa | GPT-5.5 | Klasyfikatory Fable 5 zablokują lub przekierują większość tej pracy; warstwowy zaufany dostęp GPT-5.5 jest bardziej dostępny |
| Przegląd dokumentów prawnych lub synteza literatury naukowej przy 500K+ tokenów | Dowolny | Opublikowane wyniki MRCR przy 512K–1M tokenów (74,0%) pokazują, że GPT-5.5 trzyma, gdzie GPT-5.4 się załamywał; Fable 5 nie ma porównywalnie opublikowanych danych, ale obiecuje lepszą wydajność |
| Finanse i prace wiedzowe na złożonych dokumentach | Claude Fable 5 | Prowadzi w Hebbia’s Finance Benchmark i Humanity's Last Exam z narzędziami (64,5% vs 52,2%) |
| Wysokowolumenowe workloady API, gdzie liczy się koszt | GPT-5.5 | $30 vs $50 za milion tokenów wyjściowych; różnica rośnie wraz ze skalą |
| Pipeline’y badań biomedycznych | GPT-5.5 (lub poczekaj na zaufany dostęp Fable 5) | Klasyfikatory biologii w Fable 5 przekierują większość zapytań biomedycznych do Opus 4.8, dopóki program zaufanego dostępu się nie otworzy |
| Branże regulowane wymagające zerowej retencji danych | GPT-5.5 | Obowiązkowa 30-dniowa retencja w Fable 5 to twarda bariera dla części klientów korporacyjnych |
Wybierz Claude Fable 5, jeśli…
- Twoim głównym przypadkiem jest inżynieria na poziomie repozytorium, a 22‑punktowa luka w SWE-Bench Pro uzasadnia 2x koszt tokena wyjściowego.
- Twoja praca nie zahacza o domeny cyberbezpieczeństwa, biologii ani chemii, więc klasyfikatory raczej nie zadziałają w twoich sesjach.
- Potrzebujesz najwyższego sufitu w złożonych zadaniach analitycznych, w tym benchmarkach finansowych i rozumowaniu multidyscyplinarnym, gdzie Fable 5 prowadzi dwucyfrowo.
- Korzystasz z API i możesz wchłonąć $50 za milion tokenów wyjściowych w zamian za wzrost możliwości.
Wybierz GPT-5.5, jeśli…
- Budujesz w domenach bliskich security i potrzebujesz modelu, który nie przekieruje ci po cichu próśb w środku pipeline’u.
- Polityka danych w twojej firmie wymaga zerowej retencji, co status Covered Model Fable 5 uniemożliwia.
- Potrzebujesz przewidywalnego dostępu do API bez uskoku subskrypcyjnego ani systemu kredytów ponad planem.
- Liczy się efektywność kosztowa, a różnica $30 vs $50 za tokeny wyjściowe ma znaczenie przy twoim wolumenie.
Wnioski końcowe
Fable 5 jest bardziej zdolnym modelem w benchmarkach, które liczą się najbardziej. Różnica w SWE-Bench Pro (80,3% vs 58,6%) to nie szum, a przewaga w Humanity's Last Exam (64,5% vs 52,2% z narzędziami) odzwierciedla realną różnicę w głębokości rozumowania. Jeśli liczą się wyłącznie surowe możliwości, wygrywa Fable 5.
Ale gwiazdka przy wynikach Fable 5 jest realna. Te liczby odzwierciedlają bazowy model Mythos. Fable 5 to Mythos z nałożonymi klasyfikatorami, a w przypadku zapytań z cyberbezpieczeństwa, biomedycyny i pewnych zastosowań podwójnego użytku dostajesz zamiast niego Opus 4.8. Dla pipeline’ów agentowych to nie tylko kwestia możliwości; to kwestia niezawodności. Pipeline, który oczekuje głębokości rozumowania Fable 5 przez cały czas, może się posypać, gdy model po cichu przełączy się w trakcie zadania. Dodaj obowiązkowe 30 dni retencji danych i Fable 5 po prostu (jeszcze) nie jest opcją dla części klientów korporacyjnych.
Jest jeszcze trzecia opcja warta wspomnienia. Jeśli cena Fable 5 jest zaporowa, a zyski GPT-5.5 w długim kontekście nie mają znaczenia dla twojego przypadku, Claude Opus 4.8 nie jest nagrodą pocieszenia. Już teraz przewyższa GPT-5.5 w SWE-Bench Pro 69,2% do 58,6%, kosztuje $5/$25 za milion tokenów i nie ma tarć z klasyfikatorami jak Fable 5. Szczegóły decyzji Opus 4.8 vs GPT-5.5 omawiamy w artykule o Claude Opus 4.8.
Jeśli chcesz szybko wdrożyć się w pracę z modelami czołowymi w produkcji, zacznij od naszego skillu AI Fundamentals.