Перейти к основному содержимому

Claude Fable 5 vs GPT-5.5: бенчмарки, цены и как выбрать

Claude Fable 5 лидирует по «сырым» бенчмаркам способностей, но GPT-5.5 выигрывает по доступности, цене и меньшему числу прерываний из-за классификаторов. Вот как выбрать.
Обновлено 10 июн. 2026 г.  · 11 мин читать

Если вы выбираете между Claude Fable 5 и GPT-5.5 для продакшен-процессов, сводные таблицы бенчмарков дадут однозначную картину. На бумаге Fable 5 заметно сильнее в программировании и рассуждении. Но он также стоит вдвое дороже по выходным токенам, использует систему классификаторов, которая может незаметно перенаправить ваш запрос на более слабую модель, и накладывает обязательное 30-дневное хранение данных, что полностью блокирует часть корпоративных клиентов.

В этой статье я сравню Fable 5 и GPT-5.5 по пяти направлениям: производительность в кодинге и агентных задачах, работа с длинным контекстом, классификаторы безопасности и барьеры доступа, задачи знаний и рассуждение, а также цены. За более подробным разбором каждого из моделей отдельно смотрите наши материалы: Claude Fable 5 и GPT-5.5.

Будьте в курсе всего, что происходит в мире ИИ. Подпишитесь на The Median — нашу бесплатную пятничную рассылку с разбором ключевых новостей недели. Поддерживайте форму, уделяя всего несколько минут в неделю.

Что такое Claude Fable 5?

Claude Fable 5 — первая доступная широкой аудитории модель класса Mythos от Anthropic, запущенная 9 июня 2026 года. Mythos — это новый уровень возможностей, стоящий выше Opus в иерархии моделей Anthropic. Fable 5 — это та же базовая модель, что и Claude Mythos 5, но с активными классификаторами безопасности, которые для некоторых чувствительных запросов перенаправляют на Claude Opus 4.8. Различие в названии важно: Fable — это публично доступная версия; Mythos — неограниченная версия, доступная только партнерам Project Glasswing.

Anthropic позиционирует Fable 5 как модель, задающую уровень практически на всех протестированных бенчмарках, с особой силой в разработке ПО, аналитике знаний, компьютерном зрении и длительных агентных задачах. Чем длиннее и сложнее задача, тем больше отрыв от предыдущих моделей Claude. В Stripe сообщили, что Fable 5 сократил месяцы инженерной работы до нескольких дней при миграции кодовой базы на 50 миллионов строк Ruby.

Подробнее о возможностях Fable 5 и разборе бенчмарков см. в нашем руководстве по Claude Fable 5. Ограниченный вариант Mythos 5 мы рассматриваем в статье Claude Mythos 5.

Что такое GPT-5.5?

GPT-5.5 — релиз OpenAI апреля 2026 года, описанный как самая сильная на сегодня агентная модель для программирования у компании. OpenAI также выпустила вариант GPT-5.5 Pro для задач, требующих более высокой точности. Модель совместно проектировалась под и работает на системах NVIDIA GB200 и GB300 NVL72; по словам OpenAI, она обеспечивает задержку на токен на уровне GPT-5.4 в реальной среде, демонстрируя при этом существенно более высокий уровень интеллекта.

Ключевой архитектурный акцент GPT-5.5 — надежность в длинном контексте. GPT-5.4 «сыпалась» после примерно 128K токенов на бенчмарке MRCR; GPT-5.5 держится до 512K–1M токенов (74,0% на MRCR v2 в этом диапазоне против 36,6% у GPT-5.4). Это качественное изменение области применимости модели, а не маргинальный прирост на бенчмарке.

Полный разбор бенчмарков GPT-5.5 и наши практические наблюдения — в руководстве по GPT-5.5. Мы также сравнивали его напрямую с Claude Opus 4.8 в материале Claude Opus 4.8 vs GPT-5.5.

Claude Fable 5 vs GPT-5.5: очное сравнение

Краткое резюме позиций каждой модели перед детальным разбором.

Характеристика Claude Fable 5 GPT-5.5
SWE-Bench Pro 80,3% 58,6%
Terminal-Bench 2.1 88,0%* 83,4% (Codex CLI)
Humanity's Last Exam (с инструментами) 64,5% 52,2%
MRCR v2 при 512K–1M токенов Не опубликовано 74,0%
OSWorld-Verified 85,0% 78,7%
Цена API ввода (за 1M токенов) $10 $5
Цена API вывода (за 1M токенов) $50 $30
Фолбэк по классификатору безопасности Да (маршрутизирует на Opus 4.8) Без тихого фолбэка
Требование хранения данных Обязательные 30 дней Стандартная политика
Доступность Ограниченная (после 22 июня требуются доп. кредиты) Да (ChatGPT + API)

Производительность в кодинге и агентных задачах

Здесь разрыв между моделями максимальный и наиболее важный для выбора. На SWE-Bench Pro, бенчмарке по решению реальных GitHub-issues, Fable 5 набирает 80,3% против 58,6% у GPT-5.5. Разница — 22 пункта. Для контекста, Claude Opus 4.7 уже опережал GPT-5.5 на этом бенчмарке с 64,3%, так что GPT-5.5 уже отставал на уровне репозитория до появления Fable 5.

В оценке FrontierCode от Cognition, которая проверяет, могут ли модели решать сложные задачи программирования с соблюдением стандартов продакшен-кодовой базы, Fable 5 показывает лучший результат среди передовых моделей даже при среднем уровне усилий. По словам CEO Cursor Майкла Труэлла, это модель с наивысшим баллом на FrontierBench: она отлично справляется с долгосрочным рассуждением и из коробки обобщает на незнакомые инструменты.

Похоже, Fable 5 также лидирует на Terminal-Bench 2.1 с заявленным результатом 88,0%*, опережая GPT-5.5 с 83,4%. Звездочка указывает, что число следует воспринимать с осторожностью из-за расхождения между Fable 5 и Mythos 5. Там, где это так, Fable — более слабый из двух, поэтому я бы предположил паритет с GPT-5.5 или небольшое преимущество.

GPT-5.5 по-прежнему лучший выбор для DevOps с упором на терминал и автоматизацию shell, но разрыв на SWE-Bench Pro — серьезный сигнал. Если ваш основной сценарий — инженерия на уровне репозитория, Fable 5 — очевидный выбор по чистым возможностям. Вопрос лишь в том, оправдывают ли для вас конкретно 2-кратная стоимость выходных токенов и трения из-за классификаторов.

Производительность на длинном контексте

Это реальное отличительное свойство GPT-5.5, и к нему стоит относиться серьезно. GPT-5.4 «рассыпался» после примерно 128K токенов на MRCR v2. GPT-5.5 — нет. При 512K–1M токенов GPT-5.5 набирает 74,0% на MRCR v2, против 36,6% у GPT-5.4 в том же диапазоне. Это не маргинальный прирост — это другой класс возможностей.

Anthropic утверждает, что Fable 5 сохраняет фокус на протяжении миллионов токенов в длительных задачах и улучшает ответы, используя собственные заметки. Тест памяти Slay the Spire показал, что файловая постоянная память улучшила показатели Fable 5 в три раза сильнее, чем у Opus 4.8. Но Anthropic не публиковал результаты в формате MRCR для Fable 5 в диапазоне 512K–1M, поэтому прямое сопоставление здесь невозможно.

Для пользователей, работающих с миллионными контекстами — юридическая экспертиза документов, анализ больших кодовых баз или синтез научной литературы — опубликованные показатели долгого контекста у GPT-5.5 — более убедительная база. В наших собственных тестах GPT-5.5 прошел «иголочный» тест на 300K токенов, и баллы MRCR держались за пределами 256K, где GPT-5.4 «падал». Fable 5 может быть столь же силен, но сопоставимых данных не опубликовано.

Классификаторы безопасности и барьеры доступа

Это самый недооцененный практический вопрос с Fable 5, заслуживающий большего, чем сноска. Fable 5 использует двухступенчатую систему классификаторов: зонд отслеживает внутренние активации по всему трафику, а помеченные запросы передаются отдельно обученному LLM-классификатору, который принимает окончательное решение. Когда запрос блокируется, он перенаправляется на Claude Opus 4.8, и пользователю сообщается, какая модель обработала запрос.

По словам Anthropic, классификаторы срабатывают менее чем в 5% сессий в среднем. Покрываются три области:

  • Кибербезопасность: Разработка эксплойтов, наступательные киберзадачи и агентные процессы взлома блокируются. При активных классификаторах Fable 5 показал 0,0% на всех четырех кибер-бенчмарках, тогда как базовая модель Mythos набирала 88,4% на разработке эксплойтов Firefox.
  • Биология и химия: Большинство запросов в этой области откатываются на Opus 4.8. По собственным оценкам Anthropic, базовая модель приближалась к экспертному уровню в задачах по проектированию адено-ассоциированного вируса, поэтому покрытие широкое.
  • Дистилляция: Запросы, помеченные как попытки извлечь возможности Claude для обучения конкурирующих моделей, перенаправляются.

Механика фолбэка — это не только вопрос возможностей; это вопрос надежности для агентных конвейеров. Когда Fable 5 маршрутизирует на Opus 4.8, тарификация идет по ставкам Opus 4.8, но вы получаете другую (все еще очень хорошую!) модель посреди задачи. Для конвейера, который рассчитывает на глубину рассуждения Fable 5 на всем протяжении, тихая смена на Opus 4.8 может разрушить предположения о качестве результата.

У GPT-5.5 также есть кибер-механизмы защиты, описанные как более строгие классификаторы потенциальных киберрисков. Но нет тихого фолбэка на более слабую модель. Подход OpenAI — многоуровневый доверенный доступ: проверенные специалисты по защите могут подать заявку на chatgpt.com/cyber для расширенного доступа с меньшими ограничениями. Этот путь доступнее, чем Project Glasswing у Anthropic, который по-прежнему ограничен узким кругом партнеров.

Есть еще один барьер, который стоит назвать прямо. Fable 5 и Mythos 5 классифицированы как Covered Models, что означает обязательное хранение данных в течение 30 дней для всего трафика, даже для корпоративных клиентов, ранее работавших по схемам без хранения. Anthropic заявляет, что данные не используются для обучения, но само требование хранения — жесткий стоп-фактор для регулируемых отраслей. Некоторые корпоративные клиенты вообще не могут использовать Fable 5 из-за этой политики.

Задачи знаний и рассуждение

Обе модели сильны, и различия здесь меньше, чем в кодинге. Fable 5 лидирует на Hebbia's Finance Benchmark для рассуждения на уровне сеньора, показывая лучший результат по документному анализу, интерпретации графиков и решению задач. IMC сообщила, что Fable 5 превзошел их оценки торговой аналитики по всем пунктам, включая анализ первопричин и анализ ожидаемой ценности.

GPT-5.5 лидирует на FrontierMath Tier 4 с 35,4%, опережая опубликованные показатели Fable 5. На GDPval, где агенты тестируются по 44 профессиям, GPT-5.5 набирает 84,9%. На Humanity's Last Exam с инструментами Fable 5 лидирует с 64,5% против 52,2% у GPT-5.5 — значимый разрыв для мультидисциплинарных задач на рассуждение.

Цены и доступность

Ценовой разрыв реален и сильно сказывается при масштабах. Fable 5 стоит $10 за миллион входных токенов и $50 за миллион выходных. GPT-5.5 — $5 за миллион входных и $30 за миллион выходных. Для больших объемов рост на 100%/67% быстро накапливается.

Подписка добавляет еще один нюанс у Fable 5. Подписчики Pro, Max, Team и Enterprise имели бесплатный доступ до 22 июня. После этой даты для использования Fable 5 требуются кредитные лимиты сверх существующей подписки. Anthropic заявляет, что намерен вернуть Fable 5 в стандартный набор подписки при наличии мощностей, но четких сроков нет. GPT-5.5 с первого дня стал доступен пользователям Plus, Pro, Business и Enterprise в ChatGPT и Codex, с последующим быстрым открытием доступа к API.

Еще один нюанс ценообразования: когда запрос к Fable 5 откатывается на Opus 4.8 из-за классификаторов, тарификация идет по ставкам Opus 4.8 ($5 ввод / $25 вывод), а не Fable 5.

Когда выбирать Claude Fable 5 vs GPT-5.5

Выбор сводится к трем переменным: насколько для вашей работы критичен разрыв на SWE-Bench Pro, вызывает ли ваша предметная область срабатывание классификаторов Fable 5, и нужна ли вам надежная работа за пределами 256K токенов.

Сценарий Рекомендация Почему
Инженерия ПО на уровне репозитория Claude Fable 5 80,3% против 58,6% на SWE-Bench Pro — разрыв в 22 пункта, отражающий реальные различия возможностей на сложных кодовых базах
Инструменты безопасности, пентест или наступительные исследования в безопасности GPT-5.5 Классификаторы Fable 5 будут блокировать или перенаправлять большую часть таких работ; у GPT-5.5 путь доверенного доступа более доступен
Юридическая экспертиза документов или синтез научной литературы на 500K+ токенов Любая из двух Опубликованные баллы MRCR при 512K–1M токенов (74,0%) показывают, что GPT-5.5 держится там, где GPT-5.4 «падал»; у Fable 5 нет сопоставимых опубликованных данных, но заявляется лучшая производительность
Финансы и задачи знаний со сложными документами Claude Fable 5 Лидирует на Hebbia's Finance Benchmark и Humanity's Last Exam с инструментами (64,5% против 52,2%)
Высоконагруженные API-сценарии, где важна стоимость GPT-5.5 $30 против $50 за миллион выходных токенов; разница растет с масштабом
Биомедицинские исследовательские конвейеры GPT-5.5 (или дождаться доверенного доступа для Fable 5) Классификаторы по биологии в Fable 5 будут перенаправлять большинство биомедицинских запросов на Opus 4.8 до открытия программы доверенного доступа
Регулируемые отрасли, требующие нулевого хранения данных GPT-5.5 Обязательная 30-дневная политика хранения у Fable 5 — жесткий стоп-фактор для части корпоративных клиентов

Выбирайте Claude Fable 5, если…

  • Ваш основной сценарий — инженерия на уровне репозитория, и разрыв в 22 пункта на SWE-Bench Pro оправдывает двукратную стоимость выходных токенов.
  • Ваша работа не соприкасается с кибербезопасностью, биологией или химией, поэтому классификаторы с низкой вероятностью сработают в ваших сессиях.
  • Вам нужен максимальный потолок в сложных аналитических задачах, включая финансовые бенчмарки и мультидисциплинарное рассуждение, где Fable 5 лидирует на двузначные значения.
  • Вы используете API и готовы платить $50 за миллион выходных токенов ради прироста возможностей.

Выбирайте GPT-5.5, если…

  • Вы работаете в смежных с безопасностью областях и вам нужна модель, которая не будет тихо перенаправлять запросы в середине конвейера.
  • Политика вашей компании требует нулевого хранения данных, что невозможно из-за статуса Covered Model у Fable 5.
  • Вам нужен предсказуемый доступ к API без «обрыва» подписки или системы кредитов сверх вашего плана.
  • Важна эффективность затрат, и разница $30 против $50 за миллион выходных токенов значима при ваших объемах.

Итоги

Fable 5 — более способная модель на ключевых бенчмарках. Разрыв на SWE-Bench Pro (80,3% против 58,6%) — не шум, а лидерство на Humanity's Last Exam (64,5% против 52,2% с инструментами) отражает реальную глубину рассуждения. Если единственный критерий — «сырая» способность, побеждает Fable 5.

Но звездочка у результатов Fable 5 реальна. Эти цифры отражают базовую модель Mythos. Fable 5 — это Mythos с надстроенными классификаторами, и для кибербезопасности, биомедицины и ряда «двойного назначения» запросов вы фактически получаете Opus 4.8. Для агентных конвейеров это не только про возможности, но и про надежность. Конвейер, рассчитывающий на глубину рассуждения Fable 5 от начала до конца, может «сломаться», когда модель тихо меняется посреди задачи. Добавьте обязательное 30-дневное хранение данных — и Fable 5 просто пока не вариант для части корпоративных клиентов.

Есть и третий путь. Если цена Fable 5 слишком высока, а преимущества GPT-5.5 на длинном контексте не важны для вашего кейса, Claude Opus 4.8 — не утешительный приз. Он уже обходит GPT-5.5 на SWE-Bench Pro с 69,2% против 58,6%, стоит $5/$25 за миллион токенов и не имеет «трения» из-за классификаторов Fable 5. Подробно о выборе между Opus 4.8 и GPT-5.5 — в нашей статье про Claude Opus 4.8.

Если вы хотите быстро освоить работу с передовыми моделями в продакшене, рекомендуем начать с нашего трекa навыков AI Fundamentals.

Темы

Изучайте ИИ с DataCamp!

Track

Основы ChatGPT

3 ч
Изучите основы ChatGPT и инженерии промптов. Освойте создание промптов, чтобы максимально раскрыть возможности ChatGPT.
ПодробнееRight Arrow
Начать курс
Смотрите большеRight Arrow