programa
Sakana presenta Fugu como un rival de Fable 5, pero deja fuera a Fable 5 de su propia tabla de benchmarks. Así que vamos a comparar ambos modelos en paralelo tanto como sea posible.
Un poco de contexto. El gobierno de EE. UU. suspendió el acceso público a Claude Fable 5 apenas tres días después de que Anthropic lo lanzara. Y Fable 5 era su modelo más capaz. Ahora, dos semanas más tarde, la japonesa Sakana AI ha lanzado Fugu con afirmaciones ambiciosas. Una en particular ha corrido como la pólvora: Sakana AI dice que Fugu Ultra «está codo con codo con modelos líderes como Fable 5 y Mythos Preview» en los benchmarks más duros de ingeniería, ciencia y razonamiento del sector, y sin el riesgo de controles de exportación. El CEO David Ha dijo en X que Fugu demuestra que un conjunto intercambiable de agentes orquestados puede igualar a modelos punteros restringidos como Fable.
Es difícil comprobar estas afirmaciones porque Fable 5 ni siquiera aparece en la tabla de benchmarks de Fugu. Sakana lo excluye porque no es de acceso público. Hacemos lo que podemos: estamos revisando los pocos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes. Y para cerrar, hablaremos de precios y de la situación de acceso.
Si quieres más contexto sobre cada sistema por separado, tenemos artículos: lee nuestra cobertura de Claude Fable 5 y el análisis de Sakana Fugu.
¿Qué es Sakana Fugu?
Sakana Fugu no es un único modelo entrenado en el sentido habitual. Es un orquestador: un modelo que recibe tu solicitud, decide si responde directamente o delega en modelos especialistas de un pool, gestiona la verificación y la síntesis, y devuelve una única respuesta a través de una API compatible con OpenAI. Desde fuera llamas a un endpoint; por dentro, un conjunto coordinado de modelos punteros hace el trabajo.
Sale en dos variantes. Fugu equilibra calidad con baja latencia y se posiciona como la opción diaria para programar, revisar y trabajar de forma interactiva. Fugu Ultra coordina un pool más profundo de agentes expertos y está afinado para maximizar la calidad de respuesta en problemas duros y multietapa: reproducción de papers, análisis de ciberseguridad, data science al estilo Kaggle, investigación de patentes.
La idea en realidad son dos ideas.
- Primero, orquestación aprendida: el coordinador se entrena para decidir cuándo delegar y cómo combinar salidas, en lugar de ejecutar un pipeline programado a mano.
- Segundo, un pool de agentes intercambiable: cuando un nuevo modelo puntero pasa a estar disponible públicamente, Sakana espera tardar unas dos semanas en integrarlo. (Importante para el resto del artículo: Fable 5 no está en ese pool porque no es de acceso público).
¿Qué es Claude Fable 5?
Claude Fable 5 es un modelo de clase Mythos, una categoría que Anthropic sitúa por encima de su clase Opus, adaptado para uso general mediante un conjunto de clasificadores. Es el mismo modelo subyacente que Claude Mythos 5; la diferencia es que Fable 5 funciona (funcionaba) con clasificadores de seguridad activos, mientras que en Mythos 5 algunos se desactivan y su acceso está limitado a socios de Project Glasswing y a determinados investigadores en biología.
Anthropic afirmaba que Fable 5 marcaba el estado del arte en casi todos los benchmarks que sigue la compañía, con una ventaja creciente en tareas más largas y complejas. El detalle práctico clave: cuando una consulta toca ciberseguridad, biología/química o destilación de modelos, un clasificador en dos etapas redirige la respuesta a Claude Opus 4.8 y se lo comunica al usuario.
Sakana Fugu vs. Claude Fable 5: benchmarks
La tabla de comparación publicada por Sakana excluye Fable 5 y Mythos Preview, porque no son de acceso público y por tanto no pueden estar en el pool de Fugu. Así que las cifras oficiales de Fugu se miden frente a Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, que puedes ver en la tabla siguiente. Verás que gana en 10 de 11 benchmarks.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* andamiaje mini-swe-agent. † líneas base declaradas por los proveedores. Todas las puntuaciones de Fugu son reportadas por Sakana y aún no han sido reproducidas de forma independiente.
Para meter a Fable 5 en la ecuación, crucé los benchmarks que aparecen tanto en las tablas de Anthropic como en las de Sakana y comprobé que las líneas base compartidas coinciden. En SWE-Bench Pro y en Humanity's Last Exam (sin herramientas), los números de Opus 4.8, GPT-5.5 y Gemini 3.1 Pro son idénticos en ambas fuentes, así que esas dos comparativas son limpias. Resumido solo a los dos sistemas, el cara a cara queda así:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Líder |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (sin herramientas) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ Los dos laboratorios informan de líneas base diferentes y usan andamiajes distintos para TerminalBench, así que las condiciones no son idénticas.
Estos tres son los únicos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes, por lo que el resto de la comparación debe mantenerse cualitativa. Fable 5 lidera los tres.
Así que, en cada benchmark donde una comparación lado a lado es posible, Fable 5 aventaja a Fugu Ultra en torno a 6–9 puntos. Cuadra con el terreno de juego de Fable 5: tareas de largo recorrido evaluadas al final, donde un modelo único y más fuerte acumula menos errores compuestos.
En resumen:
- Todas las cifras de Fugu son auto-reportadas y aún no aparecen en rankings de terceros.
- Sakana describe Fugu como «codo con codo» con Fable 5 y Mythos Preview. Dadas las diferencias anteriores, es una lectura defendible pero generosa. «Cerca, pero por detrás» es más preciso.
- Los conjuntos de comparación solo se solapan parcialmente. Fable 5 lidera en visión (puede reconstruir el código fuente de una web a partir de capturas), algo que Fugu no enfatiza; Fugu publica benchmarks de contexto largo y banca que la tabla de Anthropic no cubre. Están optimizados para tipos de trabajo algo distintos.
Sakana Fugu vs. Claude Fable 5: disponibilidad y acceso
Claude Fable 5 está suspendido por el momento. Anthropic retiró el acceso a Fable 5 y Mythos 5 el 12 de junio tras una directiva de control de exportaciones de EE. UU., y afirma que trabaja para restablecerlo cuanto antes. Sus otros modelos, como Opus 4.8, siguen disponibles.
Sakana Fugu está disponible ya en console.sakana.ai con una API compatible con OpenAI, excepto en la UE y el EEE, donde Sakana ha pausado la disponibilidad mientras resuelve el cumplimiento del RGPD. No he podido obtener un plazo exacto.
A día de hoy, un equipo europeo podría no poder usar ninguno de los dos modelos.
Reflexiones finales
Sobre el papel, es un pulso real y ajustado entre dos filosofías.
Anthropic piensa en escala: un modelo de clase Mythos tan capaz que necesita un sistema paralelo de clasificadores.
Sakana apuesta por la coordinación: que un orquestador entrenado sobre un pool intercambiable pueda mantenerse cerca de cualquier modelo puntero individual siendo a la vez más barato, más resiliente y agnóstico del proveedor.
Los benchmarks, tomados al pie de la letra, dicen que la apuesta de Anthropic produce el artefacto más fuerte en las pruebas comparables, mientras que la de Sakana da el que está más disponible y es más barato.

Preguntas frecuentes sobre Sakana Fugu vs. Claude Fable
¿Es Sakana Fugu mejor que Claude Fable 5?
En los benchmarks donde es posible comparar cara a cara (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 aventaja a Fugu Ultra en torno a 6–9 puntos.
¿Por qué Fable 5 no aparece en la tabla de benchmarks de Fugu?
Sakana excluye Fable 5 y Mythos Preview porque no son de acceso público y por tanto no pueden formar parte del pool de agentes de Fugu. Su comparación oficial es contra Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, a los que Fugu Ultra supera en 10 de 11 benchmarks.
¿Cuál es más barato?
Fugu Ultra, a 5 $/M de entrada y 30 $/M de salida, cuesta aproximadamente la mitad que Fable 5, que cobra 10 $/M de entrada y 50 $/M de salida. Ambos ofrecen planes mensuales de 20/100/200 $.
¿Volverá Fable 5?
Anthropic afirma que trabaja para restablecer el acceso a Fable 5 y Mythos 5 lo antes posible, pero no ha publicado un calendario. Mientras tanto, sus otros modelos, incluido Opus 4.8, siguen disponibles.
¿Fugu realmente sortea la suspensión de Fable 5?
No directamente: Fable 5 nunca estuvo en el pool de Fugu, así que Fugu no puede recuperar sus capacidades específicas.
