Ir al contenido principal

Sakana Fugu vs. Claude Fable 5: benchmarks, precios y más

Claude Fable 5 gana en benchmarks pero está suspendido. Sakana Fugu está disponible ahora y cuesta la mitad.
Actualizado 25 jun 2026  · 6 min leer

Sakana presenta Fugu como un rival de Fable 5, pero deja fuera a Fable 5 de su propia tabla de benchmarks. Así que vamos a comparar ambos modelos en paralelo tanto como sea posible.

Un poco de contexto. El gobierno de EE. UU. suspendió el acceso público a Claude Fable 5 apenas tres días después de que Anthropic lo lanzara. Y Fable 5 era su modelo más capaz. Ahora, dos semanas más tarde, la japonesa Sakana AI ha lanzado Fugu con afirmaciones ambiciosas. Una en particular ha corrido como la pólvora: Sakana AI dice que Fugu Ultra «está codo con codo con modelos líderes como Fable 5 y Mythos Preview» en los benchmarks más duros de ingeniería, ciencia y razonamiento del sector, y sin el riesgo de controles de exportación. El CEO David Ha dijo en X que Fugu demuestra que un conjunto intercambiable de agentes orquestados puede igualar a modelos punteros restringidos como Fable.

Es difícil comprobar estas afirmaciones porque Fable 5 ni siquiera aparece en la tabla de benchmarks de Fugu. Sakana lo excluye porque no es de acceso público. Hacemos lo que podemos: estamos revisando los pocos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes. Y para cerrar, hablaremos de precios y de la situación de acceso.

Si quieres más contexto sobre cada sistema por separado, tenemos artículos: lee nuestra cobertura de Claude Fable 5 y el análisis de Sakana Fugu.

¿Qué es Sakana Fugu?

Sakana Fugu no es un único modelo entrenado en el sentido habitual. Es un orquestador: un modelo que recibe tu solicitud, decide si responde directamente o delega en modelos especialistas de un pool, gestiona la verificación y la síntesis, y devuelve una única respuesta a través de una API compatible con OpenAI. Desde fuera llamas a un endpoint; por dentro, un conjunto coordinado de modelos punteros hace el trabajo.

Sale en dos variantes. Fugu equilibra calidad con baja latencia y se posiciona como la opción diaria para programar, revisar y trabajar de forma interactiva. Fugu Ultra coordina un pool más profundo de agentes expertos y está afinado para maximizar la calidad de respuesta en problemas duros y multietapa: reproducción de papers, análisis de ciberseguridad, data science al estilo Kaggle, investigación de patentes.

La idea en realidad son dos ideas.

  • Primero, orquestación aprendida: el coordinador se entrena para decidir cuándo delegar y cómo combinar salidas, en lugar de ejecutar un pipeline programado a mano.
  • Segundo, un pool de agentes intercambiable: cuando un nuevo modelo puntero pasa a estar disponible públicamente, Sakana espera tardar unas dos semanas en integrarlo. (Importante para el resto del artículo: Fable 5 no está en ese pool porque no es de acceso público).

¿Qué es Claude Fable 5?

Claude Fable 5 es un modelo de clase Mythos, una categoría que Anthropic sitúa por encima de su clase Opus, adaptado para uso general mediante un conjunto de clasificadores. Es el mismo modelo subyacente que Claude Mythos 5; la diferencia es que Fable 5 funciona (funcionaba) con clasificadores de seguridad activos, mientras que en Mythos 5 algunos se desactivan y su acceso está limitado a socios de Project Glasswing y a determinados investigadores en biología.

Anthropic afirmaba que Fable 5 marcaba el estado del arte en casi todos los benchmarks que sigue la compañía, con una ventaja creciente en tareas más largas y complejas. El detalle práctico clave: cuando una consulta toca ciberseguridad, biología/química o destilación de modelos, un clasificador en dos etapas redirige la respuesta a Claude Opus 4.8 y se lo comunica al usuario. 

Sakana Fugu vs. Claude Fable 5: benchmarks

La tabla de comparación publicada por Sakana excluye Fable 5 y Mythos Preview, porque no son de acceso público y por tanto no pueden estar en el pool de Fugu. Así que las cifras oficiales de Fugu se miden frente a Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, que puedes ver en la tabla siguiente. Verás que gana en 10 de 11 benchmarks. 

Benchmark Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* andamiaje mini-swe-agent. † líneas base declaradas por los proveedores. Todas las puntuaciones de Fugu son reportadas por Sakana y aún no han sido reproducidas de forma independiente.

Para meter a Fable 5 en la ecuación, crucé los benchmarks que aparecen tanto en las tablas de Anthropic como en las de Sakana y comprobé que las líneas base compartidas coinciden. En SWE-Bench Pro y en Humanity's Last Exam (sin herramientas), los números de Opus 4.8, GPT-5.5 y Gemini 3.1 Pro son idénticos en ambas fuentes, así que esas dos comparativas son limpias. Resumido solo a los dos sistemas, el cara a cara queda así:

Benchmark Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Líder
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6.6)
Humanity's Last Exam (sin herramientas) 47.2 50.0 59.0 Fable 5 (+9.0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5.9)

‡ Los dos laboratorios informan de líneas base diferentes y usan andamiajes distintos para TerminalBench, así que las condiciones no son idénticas.

Estos tres son los únicos benchmarks que aparecen en las tablas publicadas por ambos laboratorios con líneas base coincidentes, por lo que el resto de la comparación debe mantenerse cualitativa. Fable 5 lidera los tres.

Así que, en cada benchmark donde una comparación lado a lado es posible, Fable 5 aventaja a Fugu Ultra en torno a 6–9 puntos. Cuadra con el terreno de juego de Fable 5: tareas de largo recorrido evaluadas al final, donde un modelo único y más fuerte acumula menos errores compuestos.

En resumen:

  1. Todas las cifras de Fugu son auto-reportadas y aún no aparecen en rankings de terceros.
  2. Sakana describe Fugu como «codo con codo» con Fable 5 y Mythos Preview. Dadas las diferencias anteriores, es una lectura defendible pero generosa. «Cerca, pero por detrás» es más preciso.
  3. Los conjuntos de comparación solo se solapan parcialmente. Fable 5 lidera en visión (puede reconstruir el código fuente de una web a partir de capturas), algo que Fugu no enfatiza; Fugu publica benchmarks de contexto largo y banca que la tabla de Anthropic no cubre. Están optimizados para tipos de trabajo algo distintos.

Sakana Fugu vs. Claude Fable 5: disponibilidad y acceso

Claude Fable 5 está suspendido por el momento. Anthropic retiró el acceso a Fable 5 y Mythos 5 el 12 de junio tras una directiva de control de exportaciones de EE. UU., y afirma que trabaja para restablecerlo cuanto antes. Sus otros modelos, como Opus 4.8, siguen disponibles.

Sakana Fugu está disponible ya en console.sakana.ai con una API compatible con OpenAI, excepto en la UE y el EEE, donde Sakana ha pausado la disponibilidad mientras resuelve el cumplimiento del RGPD. No he podido obtener un plazo exacto.

A día de hoy, un equipo europeo podría no poder usar ninguno de los dos modelos.

Reflexiones finales

Sobre el papel, es un pulso real y ajustado entre dos filosofías.

Anthropic piensa en escala: un modelo de clase Mythos tan capaz que necesita un sistema paralelo de clasificadores.

Sakana apuesta por la coordinación: que un orquestador entrenado sobre un pool intercambiable pueda mantenerse cerca de cualquier modelo puntero individual siendo a la vez más barato, más resiliente y agnóstico del proveedor.

Los benchmarks, tomados al pie de la letra, dicen que la apuesta de Anthropic produce el artefacto más fuerte en las pruebas comparables, mientras que la de Sakana da el que está más disponible y es más barato.


Josef Waples's photo
Author
Josef Waples

Preguntas frecuentes sobre Sakana Fugu vs. Claude Fable

¿Es Sakana Fugu mejor que Claude Fable 5?

En los benchmarks donde es posible comparar cara a cara (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 aventaja a Fugu Ultra en torno a 6–9 puntos. 

¿Por qué Fable 5 no aparece en la tabla de benchmarks de Fugu?

Sakana excluye Fable 5 y Mythos Preview porque no son de acceso público y por tanto no pueden formar parte del pool de agentes de Fugu. Su comparación oficial es contra Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, a los que Fugu Ultra supera en 10 de 11 benchmarks.

¿Cuál es más barato?

Fugu Ultra, a 5 $/M de entrada y 30 $/M de salida, cuesta aproximadamente la mitad que Fable 5, que cobra 10 $/M de entrada y 50 $/M de salida. Ambos ofrecen planes mensuales de 20/100/200 $.

¿Volverá Fable 5?

Anthropic afirma que trabaja para restablecer el acceso a Fable 5 y Mythos 5 lo antes posible, pero no ha publicado un calendario. Mientras tanto, sus otros modelos, incluido Opus 4.8, siguen disponibles.

¿Fugu realmente sortea la suspensión de Fable 5?

No directamente: Fable 5 nunca estuvo en el pool de Fugu, así que Fugu no puede recuperar sus capacidades específicas.

Temas

Aprende IA con DataCamp

programa

IA para ingeniería de software

7 h
Escribe código y crea aplicaciones de software más rápido que nunca con las últimas herramientas de programadores de IA, como GitHub Copilot, Windsurf y Replit.
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado

blog

Los 7 mejores generadores de vídeo con IA para 2026 con vídeos de ejemplo

Descubre los mejores generadores de vídeo con IA disponibles en la actualidad, entre los que se incluyen RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo y los muy esperados Sora y Veo de DeepMind.
Dr Ana Rojo-Echeburúa's photo

Dr Ana Rojo-Echeburúa

9 min

Tutorial

Tutorial FLAN-T5: Guía y puesta a punto

Una guía completa para afinar un modelo FLAN-T5 para una tarea de respuesta a preguntas utilizando la biblioteca de transformadores, y ejecutando la inferencia optmizada en un escenario del mundo real.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

RAG Con Llama 3.1 8B, Ollama y Langchain: Tutorial

Aprende a crear una aplicación RAG con Llama 3.1 8B utilizando Ollama y Langchain, configurando el entorno, procesando documentos, creando incrustaciones e integrando un recuperador.
Ryan Ong's photo

Ryan Ong

Tutorial

Cómo ejecutar Stable Diffusion:

Explora la IA generativa con nuestro tutorial introductorio sobre Stable Diffusion. Aprende a ejecutar el modelo de aprendizaje profundo en línea y localmente para generar imágenes detalladas.
Kurtis Pykes 's photo

Kurtis Pykes

Ver másVer más