Sakana Fugu vs. Claude Fable 5: benchmarks, precios y más

Claude Fable 5 gana en benchmarks pero está suspendido. Sakana Fugu está disponible ahora y cuesta la mitad.

Actualizado 25 jun 2026 · 6 min leer

Sakana presenta Fugu como un rival de Fable 5, pero deja fuera a Fable 5 de su propia tabla de benchmarks. Así que vamos a comparar ambos modelos en paralelo tanto como sea posible.

Un poco de contexto. El gobierno de EE. UU. suspendió el acceso público a Claude Fable 5 apenas tres días después de que Anthropic lo lanzara. Y Fable 5 era su modelo más capaz. Ahora, dos semanas más tarde, la japonesa Sakana AI ha lanzado Fugu con afirmaciones ambiciosas. Una en particular ha corrido como la pólvora: Sakana AI dice que Fugu Ultra «está codo con codo con modelos líderes como Fable 5 y Mythos Preview» en los benchmarks más duros de ingeniería, ciencia y razonamiento del sector, y sin el riesgo de controles de exportación. El CEO David Ha dijo en X que Fugu demuestra que un conjunto intercambiable de agentes orquestados puede igualar a modelos punteros restringidos como Fable.

Es difícil comprobar estas afirmaciones porque Fable 5 ni siquiera aparece en la tabla de benchmarks de Fugu. Sakana lo excluye porque no es de acceso público. Hacemos lo que podemos: estamos revisando los pocos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes. Y para cerrar, hablaremos de precios y de la situación de acceso.

Si quieres más contexto sobre cada sistema por separado, tenemos artículos: lee nuestra cobertura de Claude Fable 5 y el análisis de Sakana Fugu.

¿Qué es Sakana Fugu?

Sakana Fugu no es un único modelo entrenado en el sentido habitual. Es un orquestador: un modelo que recibe tu solicitud, decide si responde directamente o delega en modelos especialistas de un pool, gestiona la verificación y la síntesis, y devuelve una única respuesta a través de una API compatible con OpenAI. Desde fuera llamas a un endpoint; por dentro, un conjunto coordinado de modelos punteros hace el trabajo.

Sale en dos variantes. Fugu equilibra calidad con baja latencia y se posiciona como la opción diaria para programar, revisar y trabajar de forma interactiva. Fugu Ultra coordina un pool más profundo de agentes expertos y está afinado para maximizar la calidad de respuesta en problemas duros y multietapa: reproducción de papers, análisis de ciberseguridad, data science al estilo Kaggle, investigación de patentes.

La idea en realidad son dos ideas.

Primero, orquestación aprendida: el coordinador se entrena para decidir cuándo delegar y cómo combinar salidas, en lugar de ejecutar un pipeline programado a mano.
Segundo, un pool de agentes intercambiable: cuando un nuevo modelo puntero pasa a estar disponible públicamente, Sakana espera tardar unas dos semanas en integrarlo. (Importante para el resto del artículo: Fable 5 no está en ese pool porque no es de acceso público).

¿Qué es Claude Fable 5?

Claude Fable 5 es un modelo de clase Mythos, una categoría que Anthropic sitúa por encima de su clase Opus, adaptado para uso general mediante un conjunto de clasificadores. Es el mismo modelo subyacente que Claude Mythos 5; la diferencia es que Fable 5 funciona (funcionaba) con clasificadores de seguridad activos, mientras que en Mythos 5 algunos se desactivan y su acceso está limitado a socios de Project Glasswing y a determinados investigadores en biología.

Anthropic afirmaba que Fable 5 marcaba el estado del arte en casi todos los benchmarks que sigue la compañía, con una ventaja creciente en tareas más largas y complejas. El detalle práctico clave: cuando una consulta toca ciberseguridad, biología/química o destilación de modelos, un clasificador en dos etapas redirige la respuesta a Claude Opus 4.8 y se lo comunica al usuario.

Sakana Fugu vs. Claude Fable 5: benchmarks

La tabla de comparación publicada por Sakana excluye Fable 5 y Mythos Preview, porque no son de acceso público y por tanto no pueden estar en el pool de Fugu. Así que las cifras oficiales de Fugu se miden frente a Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, que puedes ver en la tabla siguiente. Verás que gana en 10 de 11 benchmarks.

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* andamiaje mini-swe-agent. † líneas base declaradas por los proveedores. Todas las puntuaciones de Fugu son reportadas por Sakana y aún no han sido reproducidas de forma independiente.

Para meter a Fable 5 en la ecuación, crucé los benchmarks que aparecen tanto en las tablas de Anthropic como en las de Sakana y comprobé que las líneas base compartidas coinciden. En SWE-Bench Pro y en Humanity's Last Exam (sin herramientas), los números de Opus 4.8, GPT-5.5 y Gemini 3.1 Pro son idénticos en ambas fuentes, así que esas dos comparativas son limpias. Resumido solo a los dos sistemas, el cara a cara queda así:

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Líder
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (sin herramientas)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ Los dos laboratorios informan de líneas base diferentes y usan andamiajes distintos para TerminalBench, así que las condiciones no son idénticas.

Estos tres son los únicos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes, por lo que el resto de la comparación debe mantenerse cualitativa. Fable 5 lidera los tres.

Así que, en cada benchmark donde una comparación lado a lado es posible, Fable 5 aventaja a Fugu Ultra en torno a 6–9 puntos. Cuadra con el terreno de juego de Fable 5: tareas de largo recorrido evaluadas al final, donde un modelo único y más fuerte acumula menos errores compuestos.

En resumen:

Todas las cifras de Fugu son auto-reportadas y aún no aparecen en rankings de terceros.
Sakana describe Fugu como «codo con codo» con Fable 5 y Mythos Preview. Dadas las diferencias anteriores, es una lectura defendible pero generosa. «Cerca, pero por detrás» es más preciso.
Los conjuntos de comparación solo se solapan parcialmente. Fable 5 lidera en visión (puede reconstruir el código fuente de una web a partir de capturas), algo que Fugu no enfatiza; Fugu publica benchmarks de contexto largo y banca que la tabla de Anthropic no cubre. Están optimizados para tipos de trabajo algo distintos.

Sakana Fugu vs. Claude Fable 5: disponibilidad y acceso

Claude Fable 5 está suspendido por el momento. Anthropic retiró el acceso a Fable 5 y Mythos 5 el 12 de junio tras una directiva de control de exportaciones de EE. UU., y afirma que trabaja para restablecerlo cuanto antes. Sus otros modelos, como Opus 4.8, siguen disponibles.

Sakana Fugu está disponible ya en console.sakana.ai con una API compatible con OpenAI, excepto en la UE y el EEE, donde Sakana ha pausado la disponibilidad mientras resuelve el cumplimiento del RGPD. No he podido obtener un plazo exacto.

A día de hoy, un equipo europeo podría no poder usar ninguno de los dos modelos.

Reflexiones finales

Sobre el papel, es un pulso real y ajustado entre dos filosofías.

Anthropic piensa en escala: un modelo de clase Mythos tan capaz que necesita un sistema paralelo de clasificadores.

Sakana apuesta por la coordinación: que un orquestador entrenado sobre un pool intercambiable pueda mantenerse cerca de cualquier modelo puntero individual siendo a la vez más barato, más resiliente y agnóstico del proveedor.

Los benchmarks, tomados al pie de la letra, dicen que la apuesta de Anthropic produce el artefacto más fuerte en las pruebas comparables, mientras que la de Sakana da el que está más disponible y es más barato.

Author

Josef Waples

¿Es Sakana Fugu mejor que Claude Fable 5?

¿Por qué Fable 5 no aparece en la tabla de benchmarks de Fugu?

¿Cuál es más barato?

¿Volverá Fable 5?

¿Fugu realmente sortea la suspensión de Fable 5?

Temas

Inteligencia Artificial

Aprende IA con DataCamp

programa

IA para ingeniería de software

7 h

Escribe código y crea aplicaciones de software más rápido que nunca con las últimas herramientas de programadores de IA, como GitHub Copilot, Windsurf y Replit.

Ver detalles

Iniciar curso

Curso

Software Development with Claude Code

4 h

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Ver detalles

Iniciar curso

Curso

Introduction to Agent Skills

2 h 30 min

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Ver detalles

Iniciar curso

Relacionado

blog

Los 7 mejores generadores de vídeo con IA para 2026 con vídeos de ejemplo

Descubre los mejores generadores de vídeo con IA disponibles en la actualidad, entre los que se incluyen RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo y los muy esperados Sora y Veo de DeepMind.

Dr Ana Rojo-Echeburúa

9 min

Tutorial

Tutorial FLAN-T5: Guía y puesta a punto

Una guía completa para afinar un modelo FLAN-T5 para una tarea de respuesta a preguntas utilizando la biblioteca de transformadores, y ejecutando la inferencia optmizada en un escenario del mundo real.

Zoumana Keita

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Aprende a crear una aplicación RAG con Llama 3.1 8B utilizando Ollama y Langchain, configurando el entorno, procesando documentos, creando incrustaciones e integrando un recuperador.

Ryan Ong

Tutorial

Cómo ejecutar Stable Diffusion:

Explora la IA generativa con nuestro tutorial introductorio sobre Stable Diffusion. Aprende a ejecutar el modelo de aprendizaje profundo en línea y localmente para generar imágenes detalladas.

Kurtis Pykes

Ver más Ver más

¿Qué es Sakana Fugu?

¿Qué es Claude Fable 5?

Sakana Fugu vs. Claude Fable 5: benchmarks

Sakana Fugu vs. Claude Fable 5: disponibilidad y acceso

Reflexiones finales

Preguntas frecuentes sobre Sakana Fugu vs. Claude Fable

¿Cuál es más barato?

¿Volverá Fable 5?

¿Fugu realmente sortea la suspensión de Fable 5?

Los 7 mejores generadores de vídeo con IA para 2026 con vídeos de ejemplo

Tutorial FLAN-T5: Guía y puesta a punto

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Cómo ejecutar Stable Diffusion:

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}IA para ingeniería de software

Software Development with Claude Code

Introduction to Agent Skills

Los 7 mejores generadores de vídeo con IA para 2026 con vídeos de ejemplo

Tutorial FLAN-T5: Guía y puesta a punto

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Cómo ejecutar Stable Diffusion:

IA para ingeniería de software