Track
Sakana позиционирует Fugu как сопоставимый с Fable 5, но при этом исключает Fable 5 из своей таблицы бенчмарков. Поэтому мы сравним эти две модели напрямую настолько, насколько это вообще возможно.
Немного предыстории. Правительство США закрыло публичный доступ к Claude Fable 5 всего через три дня после запуска Anthropic. А Fable 5 подавался как самая способная модель компании. Спустя две недели токийская Sakana AI выпустила Fugu с громкими заявлениями. Одно из них разошлось по сети: Sakana AI утверждает, что Fugu Ultra «стоит плечом к плечу с ведущими моделями вроде Fable 5 и Mythos Preview» на самых сложных отраслевых бенчмарках по инженерии, науке и рассуждению — и при этом без рисков, связанных с экспортным контролем. Генеральный директор Дэвид Ха написал в X, что Fugu доказывает: взаимозаменяемый пул скоординированных агентов может соперничать с ограниченными передовыми моделями наподобие Fable.
Проверить эти заявления непросто, потому что Fable 5 вообще отсутствует в таблице бенчмарков Fugu. Sakana исключает его на том основании, что он не является публично доступным. Мы делаем всё, что можем: проверяем несколько бенчмарков, которые присутствуют в опубликованных таблицах обеих лабораторий с совпадающими базовыми значениями. И напоследок обсудим цены и ситуацию с доступом.
Если вам нужен бэкграунд по каждой системе отдельно, у нас есть материалы: прочитайте нашу обзорную статью о Claude Fable 5 и разбор Sakana Fugu.
Что такое Sakana Fugu?
Sakana Fugu — это не одна обученная модель в привычном смысле. Это оркестратор: модель, которая получает ваш запрос, решает, отвечать ли напрямую или делегировать специалистам из пула, управляет проверкой и синтезом и возвращает единый ответ через совместимый с OpenAI API. Снаружи вы обращаетесь к одной конечной точке; внутри работу выполняет скоординированный набор передовых моделей.
Есть два варианта. Fugu сочетает качество с низкой задержкой и позиционируется как повседневный выбор для кодирования, ревью и интерактивных сервисов. Fugu Ultra координирует более глубокий пул экспертных агентов и нацелен на максимальное качество ответов в сложных многошаговых задачах — воспроизведение научных статей, анализ кибербезопасности, дата-сайенс в стиле Kaggle, патентные исследования.
Идея на самом деле состоит из двух идей.
- Во-первых, обучаемая оркестрация: координатор обучен решать, когда делегировать и как объединять результаты, а не запускать жёстко прописанный конвейер.
- Во-вторых, взаимозаменяемый пул агентов: когда становится публично доступна новая передовая модель, Sakana рассчитывает примерно за две недели интегрировать её. (Важное для остальной статьи: Fable 5 не входит в этот пул, потому что он не является публично доступным.)
Что такое Claude Fable 5?
Claude Fable 5 — это модель класса Mythos, то есть уровня, который Anthropic позиционирует выше класса Opus, сделанная безопасной для широкого применения с помощью набора классификаторов. Это та же базовая модель, что и Claude Mythos 5; разница в том, что Fable 5 работал (работал) с активными классификаторами безопасности, а у Mythos 5 часть из них снята, и он доступен только партнёрам Project Glasswing и отдельным исследователям в области биологии.
Anthropic заявляла, что Fable 5 демонстрирует state-of-the-art почти во всех бенчмарках, которые отслеживает компания, причём преимущество растёт на более длинных и сложных задачах. Ключевая практическая деталь: если запрос затрагивает кибербезопасность, биологию/химию или дистилляцию моделей, двухступенчатый классификатор перенаправляет ответ в Claude Opus 4.8 и сообщает пользователю об этом.
Sakana Fugu vs. Claude Fable 5: бенчмарки
Опубликованная Sakana сравнительная таблица исключает Fable 5 и Mythos Preview на том основании, что они не являются публично доступными и потому не могут входить в пул Fugu. Поэтому официальные показатели Fugu сравниваются с Opus 4.8, GPT-5.5 и Gemini 3.1 Pro, все они приведены в таблице ниже. Там Fugu выигрывает в 10 из 11 бенчмарков.
| Бенчмарк | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* мини-swe-agent scaffolding. † базовые значения, указанные провайдерами. Все результаты Fugu сообщены Sakana и ещё не воспроизведены независимо.
Чтобы включить Fable 5 в сравнение, я сопоставил бенчмарки, которые одновременно присутствуют в таблицах Anthropic и Sakana, и проверил, что общие базовые значения совпадают. По SWE-Bench Pro и Humanity's Last Exam (без инструментов) показатели Opus 4.8, GPT-5.5 и Gemini 3.1 Pro идентичны в обоих источниках — так что эти два сравнения чистые. Если оставить только две системы, очное противостояние выглядит так:
| Бенчмарк | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Лидер |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (без инструментов) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ Две лаборатории указывают разные базовые значения и используют разные «лесá» для TerminalBench, так что условия не идентичны.
Это единственные три бенчмарка, которые одновременно присутствуют в опубликованных таблицах обеих лабораторий с совпадающими базовыми значениями, поэтому остальная часть сравнения остаётся качественной. Fable 5 лидирует во всех трёх.
Итак, во всех бенчмарках, где вообще возможно сравнение «лицом к лицу», Fable 5 опережает Fugu Ultra примерно на 6–9 пунктов. Это соотносится с тем, где Fable 5 должен выигрывать: в задачах с длинным горизонтом и итоговой оценкой, где одна более сильная модель накапливает меньше каскадных ошибок.
В итоге:
- Все показатели Fugu — саморепорт и пока не появились на независимых лидербордах.
- Sakana описывает Fugu как «плечом к плечу» с Fable 5 и Mythos Preview. Учитывая разрывы выше, это защитимая, но щедрая формулировка. «Близко, но позади» — точнее.
- Наборы для сравнения перекрываются частично. Fable 5 лидирует по зрению (он может восстановить исходники веб‑приложения по скриншотам), чего Fugu вовсе не акцентирует; Fugu публикует бенчмарки на длинный контекст и для банковской сферы, которых нет в таблице Anthropic. То есть они оптимизированы под несколько разные типы задач.
Sakana Fugu vs. Claude Fable 5: доступность и доступ
Доступ к Claude Fable 5 сейчас приостановлен. Anthropic отключила доступ к Fable 5 и Mythos 5 12 июня после директивы США об экспортном контроле и заявляет, что работает над скорейшим восстановлением доступа. Другие модели Anthropic, например Opus 4.8, остаются доступными.
Sakana Fugu доступен уже сейчас через console.sakana.ai с совместимым с OpenAI API — кроме ЕС и ЕЭЗ, где Sakana приостановила доступ, пока приводит сервис в соответствие с GDPR. Точных сроков мне узнать не удалось.
Сейчас европейская команда может не иметь возможности использовать ни одну из моделей.
Итоги
На бумаге это честное, близкое соревнование между двумя философиями.
Anthropic делает ставку на масштаб — одна модель класса Mythos столь мощная, что ей требуется параллельная система классификаторов.
Sakana ставит на координацию — что обученный оркестратор поверх взаимозаменяемого пула сможет оставаться на расстоянии удара от любой передовой одиночной модели, будучи при этом дешевле, устойчивее и независимее от провайдеров.
Если воспринимать бенчмарки буквально, ставка Anthropic даёт более сильный артефакт на сопоставимых тестах, тогда как ставка Sakana — более доступный и дешёвый.
Sakana Fugu и Claude Fable: часто задаваемые вопросы
Sakana Fugu лучше, чем Claude Fable 5?
В бенчмарках, где возможно сравнение «лицом к лицу» (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 опережает Fugu Ultra примерно на 6–9 пунктов.
Почему Fable 5 нет в таблице бенчмарков Fugu?
Sakana исключает Fable 5 и Mythos Preview, потому что они не являются публично доступными и, следовательно, не могут быть частью пула агентов Fugu. Его официальное сравнение — с Opus 4.8, GPT-5.5 и Gemini 3.1 Pro, и Fugu Ultra обходит их в 10 из 11 бенчмарков.
Что дешевле?
Fugu Ultra, по $5/М входа и $30/М выхода, стоит примерно вдвое дешевле, чем $10/М входа и $50/М выхода у Fable 5. Обе системы предлагают месячные тарифы $20/$100/$200.
Вернётся ли Fable 5?
Anthropic сообщает, что работает над как можно более быстрым восстановлением доступа к Fable 5 и Mythos 5, но не публиковала график. Остальные модели, включая Opus 4.8, остаются доступными.
Действительно ли Fugu обходит приостановку Fable 5?
Напрямую — нет: Fable 5 никогда не входил в пул Fugu, поэтому Fugu не может «восстановить» его конкретные возможности.