Cursus
Sakana présente Fugu comme l’égal de Fable 5, mais exclut Fable 5 de son propre tableau de benchmarks. Nous allons donc comparer les deux modèles en vis-à-vis autant que possible.
\nVoici le contexte. Le gouvernement américain a suspendu l’accès public à Claude Fable 5 à peine trois jours après son lancement par Anthropic. Or Fable 5 était présenté comme son modèle le plus performant. Deux semaines plus tard, Sakana AI (Tokyo) lance Fugu avec de grandes ambitions. L’une d’elles a particulièrement circulé : Sakana AI affirme que Fugu Ultra \"se hisse au niveau des modèles leaders comme Fable 5 et Mythos Preview\" sur les benchmarks les plus exigeants en ingénierie, sciences et raisonnement, sans le risque lié aux contrôles à l’exportation. Sur X, le CEO David Ha a déclaré que Fugu prouve qu’un pool échangeable d’agents orchestrés peut rivaliser avec des modèles de pointe restreints comme Fable.
\nCes affirmations sont délicates à vérifier car Fable 5 n’apparaît tout simplement pas dans la table de benchmarks de Fugu. Sakana l’exclut au motif qu’il n’est pas accessible publiquement. Nous faisons le maximum : nous vérifions la poignée de benchmarks présents à la fois dans les tableaux publiés par les deux laboratoires avec des lignes de base identiques. Enfin, nous aborderons les prix et la question de l’accès.
\nSi vous voulez un aperçu séparé des deux systèmes, nous avons des articles dédiés : consultez notre analyse de Claude Fable 5 et notre présentation de Sakana Fugu.
\nQu’est-ce que Sakana Fugu ?
\nSakana Fugu n’est pas un modèle unique entraîné au sens classique. C’est un orchestrateur : un modèle qui reçoit votre requête, décide de répondre directement ou de déléguer à des modèles spécialistes au sein d’un pool, gère la vérification et la synthèse, puis renvoie une réponse via une API compatible OpenAI. De l’extérieur, vous appelez un seul endpoint ; à l’intérieur, un ensemble coordonné de modèles de pointe effectue le travail.
\nDeux variantes sont proposées. Fugu équilibre qualité et faible latence et se positionne comme le choix quotidien pour le code, la relecture et les services interactifs. Fugu Ultra coordonne un pool plus profond d’agents experts et est optimisé pour la qualité maximale de réponse sur des problèmes difficiles et multi-étapes — reproduction d’articles, analyse cybersécurité, data science type Kaggle, recherches de brevets.
\nL’idée tient en réalité en deux points.
\n- \n
- Premier point : une orchestration apprise — le coordinateur est entraîné à décider quand déléguer et comment combiner les sorties, plutôt que d’exécuter un pipeline codé à la main. \n
- Deuxième point : un pool d’agents échangeable — lorsqu’un nouveau modèle de pointe devient publiquement disponible, Sakana estime pouvoir l’intégrer en environ deux semaines. (Important pour la suite : Fable 5 ne fait pas partie de ce pool car il n’est pas accessible publiquement.) \n
Qu’est-ce que Claude Fable 5 ?
\nClaude Fable 5 est un modèle de classe Mythos, un niveau qu’Anthropic positionne au-dessus de sa classe Opus, rendu sûr pour un usage général via un ensemble de classifieurs. C’est le même modèle sous-jacent que Claude Mythos 5 ; la différence, c’est que Fable 5 fonctionne (fonctionnait) avec des classifieurs de sécurité actifs, tandis que Mythos 5 en lève certains et est réservé aux partenaires Project Glasswing et à des chercheurs sélectionnés en biologie.
\nAnthropic affirme que Fable 5 était à l’état de l’art sur quasiment tous les benchmarks qu’il suit, avec un avantage croissant sur les tâches longues et complexes. Le point pratique clé : lorsqu’une requête touche à la cybersécurité, à la biologie/chimie ou à la distillation de modèles, un classifieur en deux étapes redirige la réponse vers Claude Opus 4.8 et en informe l’utilisateur.
\nSakana Fugu vs Claude Fable 5 : benchmarks
\nLe tableau comparatif publié par Sakana exclut Fable 5 et Mythos Preview, au motif qu’ils ne sont pas accessibles publiquement et ne peuvent donc pas figurer dans le pool de Fugu. Les chiffres officiels de Fugu sont donc mesurés face à Opus 4.8, GPT-5.5 et Gemini 3.1 Pro, comme dans le tableau ci-dessous. Fugu l’emporte sur 10 benchmarks sur 11.
\n| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent scaffolding. † lignes de base déclarées par les fournisseurs. Tous les scores Fugu sont rapportés par Sakana et n’ont pas encore été reproduits de manière indépendante.
\nPour intégrer Fable 5 à la comparaison, j’ai croisé les benchmarks présents à la fois dans les tableaux d’Anthropic et de Sakana et vérifié l’alignement des lignes de base. Sur SWE-Bench Pro et Humanity’s Last Exam (sans outils), les chiffres d’Opus 4.8, GPT-5.5 et Gemini 3.1 Pro sont identiques entre les deux sources — ces deux comparaisons sont donc nettes. Réduit aux deux systèmes, le face-à-face ressemble à ceci :
\n| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Leader |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (sans outils) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ Les deux laboratoires rapportent des lignes de base différentes et utilisent des échafaudages distincts pour TerminalBench ; les conditions ne sont donc pas identiques.
\nCe sont les trois seuls benchmarks présents dans les deux tableaux avec des lignes de base correspondantes, d’où une comparaison qualitative pour le reste. Fable 5 mène sur les trois.
\nAinsi, sur chaque benchmark où une comparaison directe est possible, Fable 5 devance Fugu Ultra d’environ 6 à 9 points. Cela correspond à son terrain de jeu : des tâches longues évaluées a posteriori, où un modèle plus robuste accumule moins d’erreurs composées.
\nEn résumé :
\n- \n
- Tous les chiffres de Fugu sont auto-déclarés et n’apparaissent pas encore sur des classements tiers. \n
- Sakana présente Fugu comme \"au coude-à-coude\" avec Fable 5 et Mythos Preview. Au vu des écarts ci-dessus, c’est défendable mais généreux. \"Proche, mais derrière\" est plus exact. \n
- Les jeux de comparaison ne se recoupent que partiellement. Fable 5 mène sur la vision (il peut reconstruire le code source d’une application web à partir de captures d’écran), un point que Fugu ne met pas en avant ; Fugu publie des benchmarks de long contexte et bancaires qu’Anthropic ne couvre pas. Ils sont donc optimisés pour des types de travaux un peu différents. \n
Sakana Fugu vs Claude Fable 5 : disponibilité et accès
\nClaude Fable 5 est actuellement suspendu. Anthropic a coupé l’accès à Fable 5 et Mythos 5 le 12 juin suite à une directive américaine sur les contrôles à l’exportation, et indique travailler à un rétablissement rapide. Les autres modèles d’Anthropic, comme Opus 4.8, restent disponibles.
\nSakana Fugu est disponible dès maintenant via console.sakana.ai avec une API compatible OpenAI — sauf dans l’UE et l’EEE, où Sakana a suspendu la disponibilité le temps de se mettre en conformité avec le RGPD. Aucun calendrier précis n’a pu être communiqué.
À l’instant, une équipe européenne pourrait ne pouvoir utiliser ni l’un ni l’autre modèle.
\nDernières réflexions
\nSur le papier, c’est un vrai duel serré entre deux philosophies.
\nAnthropic parie sur l’échelle — un modèle de classe Mythos si performant qu’il nécessite un système de classifieurs parallèle.
\nSakana mise sur la coordination — l’idée qu’un orchestrateur entraîné au-dessus d’un pool échangeable peut rester au contact de n’importe quel modèle de pointe unique tout en étant moins cher, plus résilient et indépendant des fournisseurs.
\nPris au pied de la lettre, les benchmarks indiquent que le pari d’Anthropic produit l’artefact le plus robuste sur les tests comparables, tandis que celui de Sakana produit l’option la plus disponible et la moins coûteuse.

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs !
Sakana Fugu vs Claude Fable : FAQ
Sakana Fugu est-il meilleur que Claude Fable 5 ?
Sur les benchmarks où une comparaison directe est possible (SWE-Bench Pro, Humanity’s Last Exam, Terminal-Bench), Fable 5 devance Fugu Ultra d’environ 6 à 9 points.
Pourquoi Fable 5 n’apparaît-il pas dans le tableau de benchmarks de Fugu ?
Sakana exclut Fable 5 et Mythos Preview car ils ne sont pas accessibles publiquement et ne peuvent donc pas faire partie du pool d’agents de Fugu. Sa comparaison officielle porte sur Opus 4.8, GPT-5.5 et Gemini 3.1 Pro, que Fugu Ultra bat sur 10 benchmarks sur 11.
Lequel est le moins cher ?
Fugu Ultra, à 5 $/M en entrée et 30 $/M en sortie, coûte environ moitié moins que Fable 5 (10 $/M en entrée et 50 $/M en sortie). Les deux proposent des abonnements mensuels à 20/100/200 $.
Fable 5 reviendra-t-il ?
Anthropic indique travailler à rétablir l’accès à Fable 5 et Mythos 5 au plus vite, sans calendrier publié. Ses autres modèles, dont Opus 4.8, restent disponibles entre-temps.
Fugu contourne-t-il réellement la suspension de Fable 5 ?
Pas directement — Fable 5 n’a jamais fait partie du pool de Fugu, donc Fugu ne peut pas reproduire ses capacités spécifiques.

