Ir al contenido principal

Claude Fable 5 vs GPT-5.5: benchmarks, precios y cuál elegir

Claude Fable 5 lidera en benchmarks de capacidad pura, pero GPT-5.5 gana en acceso, precio y menos interrupciones por clasificadores. Así es como elegir.
Actualizado 10 jun 2026  · 11 min leer

Si estás eligiendo entre Claude Fable 5 y GPT-5.5 para un flujo de trabajo en producción, las tablas de benchmarks cuentan una historia clara. Sobre el papel, Fable 5 es el modelo más potente por un amplio margen en codificación y razonamiento. Pero también cuesta el doble por token de salida, incluye un sistema de clasificadores que puede redirigir silenciosamente tu petición a un modelo más débil y obliga a una retención de datos de 30 días que deja fuera por completo a algunas empresas.

En este artículo, compararé Fable 5 y GPT-5.5 en cinco dimensiones: rendimiento en código y tareas agentivas, trabajo con contextos largos, clasificadores de seguridad y fricción de acceso, trabajo de conocimiento y razonamiento, y precios. También puedes consultar nuestras guías específicas de Claude Fable 5 y GPT-5.5 para una cobertura más a fondo de cada modelo.

Mantente al día de lo último en IA. Suscríbete a The Median, nuestra newsletter gratuita de los viernes que resume las noticias clave de la semana. Mantente al tanto en solo unos minutos.

¿Qué es Claude Fable 5?

Claude Fable 5 es el primer modelo de clase Mythos de Anthropic disponible para uso general, lanzado el 9 de junio de 2026. Mythos es un nuevo nivel de capacidades por encima de Opus en la jerarquía de modelos de Anthropic. Fable 5 es el mismo modelo subyacente que Claude Mythos 5, pero con clasificadores de seguridad activos que redirigen ciertas consultas sensibles a Claude Opus 4.8. La distinción de nombre importa: Fable es la versión accesible al público; Mythos es la versión sin restricciones disponible solo para socios de Project Glasswing.

Anthropic posiciona Fable 5 como el estado del arte en casi todos los benchmarks probados, con especial fortaleza en ingeniería de software, trabajo de conocimiento, visión y tareas agentivas de larga duración. Cuanto más larga y compleja es la tarea, mayor es su ventaja sobre modelos Claude anteriores. Stripe informó de que Fable 5 comprimió meses de trabajo de ingeniería en días al migrar una base de código Ruby de 50 millones de líneas.

Para saber más sobre las capacidades de Fable 5 y el desglose de benchmarks, consulta nuestra guía de Claude Fable 5. También cubrimos la variante restringida Mythos 5 en nuestro artículo sobre Claude Mythos 5.

¿Qué es GPT-5.5?

GPT-5.5 es la versión de abril de 2026 de OpenAI, descrita como su mejor modelo agentivo para programación hasta la fecha. OpenAI también lanzó una variante GPT-5.5 Pro para trabajos que requieren mayor precisión. El modelo se co-diseñó para ejecutarse en sistemas NVIDIA GB200 y GB300 NVL72, y OpenAI afirma que iguala la latencia por token de GPT-5.4 en entornos reales, con un nivel de inteligencia significativamente superior.

La gran novedad arquitectónica de GPT-5.5 es su fiabilidad en contextos largos. GPT-5.4 se venía abajo a partir de ~128K tokens en el benchmark MRCR; GPT-5.5 se mantiene estable hasta 512K-1M tokens (74,0% en MRCR v2 en ese rango, frente al 36,6% de GPT-5.4). No es una mejora marginal, sino un cambio cualitativo en lo que se puede hacer con el modelo.

Para un desglose completo de los benchmarks de GPT-5.5 y nuestras pruebas prácticas, consulta nuestra guía de GPT-5.5. También lo comparamos directamente con Claude Opus 4.8 en nuestro artículo Claude Opus 4.8 vs GPT-5.5.

Claude Fable 5 vs GPT-5.5: comparativa directa

Aquí tienes un resumen rápido de la posición de cada modelo antes de entrar en detalle.

Función Claude Fable 5 GPT-5.5
SWE-Bench Pro 80,3% 58,6%
Terminal-Bench 2.1 88,0%* 83,4% (Codex CLI)
Humanity's Last Exam (con herramientas) 64,5% 52,2%
MRCR v2 a 512K-1M tokens No publicado 74,0%
OSWorld-Verified 85,0% 78,7%
Precio API de entrada (por 1M tokens) $10 $5
Precio API de salida (por 1M tokens) $50 $30
Fallback por clasificador de seguridad Sí (redirige a Opus 4.8) Sin fallback silencioso
Requisito de retención de datos 30 días obligatorios Política estándar
Disponibilidad general Limitada (créditos extra necesarios después del 22 de junio) Sí (ChatGPT + API)

Rendimiento en código y tareas agentivas

Aquí es donde la brecha entre ambos modelos es mayor y más relevante para decidir. En SWE-Bench Pro, el benchmark para resolver incidencias reales en GitHub, Fable 5 logra un 80,3% frente al 58,6% de GPT-5.5. Es una diferencia de 22 puntos. Para contextualizar, Claude Opus 4.7 ya superaba a GPT-5.5 en este benchmark con un 64,3%, así que GPT-5.5 ya iba por detrás en programación a nivel de repositorio antes de la llegada de Fable 5.

En la evaluación FrontierCode de Cognition, que prueba si los modelos superan tareas de programación difíciles cumpliendo estándares de código de producción, Fable 5 obtiene la mejor puntuación entre los modelos frontera incluso con esfuerzo medio. El CEO de Cursor, Michael Truell, lo describió como el modelo con mayor puntuación en FrontierBench, destacando en razonamiento a largo plazo y en generalización a herramientas desconocidas desde el primer momento.

Fable 5 también parece liderar Terminal-Bench 2.1 con una puntuación reportada del 88,0%*, por delante del 83,4% de GPT-5.5. El asterisco indica que hay que coger el dato con cautela por una discrepancia entre Fable 5 y Mythos 5. Cuando ocurre, Fable es el que rinde peor de los dos, así que yo asumiría que Fable 5 empata con GPT-5.5 o lidera por un margen pequeño.

GPT-5.5 sigue siendo la mejor opción para DevOps con mucho trabajo en terminal y automatización de shell, pero la brecha en SWE-Bench Pro es significativa. Si tu caso de uso principal es ingeniería a nivel de repositorio, Fable 5 es la opción clara solo por capacidad. La pregunta es si el coste 2x por token de salida y la fricción de los clasificadores compensan para tu carga de trabajo.

Rendimiento con contextos largos

Este es el diferenciador real de GPT-5.5, y merece atención. GPT-5.4 se venía abajo a partir de ~128K tokens en MRCR v2. GPT-5.5 no. A 512K-1M tokens, GPT-5.5 logra un 74,0% en MRCR v2, frente al 36,6% de GPT-5.4 en el mismo rango. No es una mejora incremental; es otra categoría de capacidades.

Anthropic afirma que Fable 5 se mantiene centrado a lo largo de millones de tokens en tareas de larga duración y mejora sus salidas usando sus propias notas. La prueba de memoria de Slay the Spire mostró que la memoria persistente basada en archivos mejoró el rendimiento de Fable 5 tres veces más que el de Opus 4.8. Pero Anthropic no ha publicado puntuaciones tipo MRCR para Fable 5 en el rango 512K-1M, así que no es posible una comparación directa equivalente.

Para quienes trabajan con contextos de millones de tokens, como revisión legal de documentos, análisis de grandes bases de código o síntesis de literatura científica, las puntuaciones publicadas de GPT-5.5 en contextos largos son la evidencia más sólida. En nuestras propias pruebas de GPT-5.5, vimos que superó un test de aguja de 300K tokens y que las puntuaciones MRCR se mantenían más allá de 256K, donde GPT-5.4 se colapsaba. Fable 5 puede ser igual de sólido aquí, pero no hay datos publicados en un formato comparable.

Clasificadores de seguridad y fricción de acceso

Este es el problema práctico más infravalorado con Fable 5, y merece algo más que una nota a pie de página. Fable 5 ejecuta un sistema de clasificadores en dos etapas: una sonda monitoriza activaciones internas en todo el tráfico, y las peticiones marcadas se escalan a un clasificador LLM entrenado aparte que toma la decisión final. Cuando una petición se bloquea, se redirige a Claude Opus 4.8, y se informa al usuario de qué modelo ha gestionado la consulta.

Anthropic afirma que los clasificadores se activan en menos del 5% de las sesiones de media. Cubren tres ámbitos:

  • Ciberseguridad: Se bloquean el desarrollo de exploits, tareas ofensivas de ciber y flujos agentivos de hacking. Fable 5 obtuvo un 0,0% en los cuatro benchmarks de ciber cuando los clasificadores estaban activos, frente al 88,4% del modelo Mythos subyacente en desarrollo de exploits de Firefox.
  • Biología y química: La mayoría de peticiones en este ámbito hacen fallback a Opus 4.8. Las evaluaciones de la propia Anthropic mostraron que el modelo subyacente se acercaba al nivel experto en tareas de diseño de virus adenoasociados, por lo que la cobertura es amplia.
  • Destilación: Las peticiones marcadas como intentos de extraer las capacidades de Claude para entrenar modelos competidores se redirigen.

El mecanismo de fallback no es solo una cuestión de capacidad; es una cuestión de fiabilidad para los pipelines agentivos. Cuando Fable 5 redirige a Opus 4.8, se te factura a tarifas de Opus 4.8, pero también pasas a otro modelo (¡aun muy bueno!) a mitad de tarea. Para un pipeline que espera la profundidad de razonamiento de Fable 5 de principio a fin, un cambio silencioso a Opus 4.8 en mitad de la sesión puede romper supuestos sobre la calidad de salida.

GPT-5.5 tiene sus propias salvaguardas cibernéticas, descritas como clasificadores más estrictos para riesgos potenciales. Pero no hay un fallback silencioso a un modelo más débil. El enfoque de OpenAI es el acceso de confianza por niveles: los defensores verificados pueden solicitarlo en chatgpt.com/cyber para ampliar el acceso con menos restricciones. Ese camino es más accesible que Project Glasswing de Anthropic, aún limitado a un conjunto pequeño de socios aprobados.

Hay otro bloqueo que conviene mencionar explícitamente. Fable 5 y Mythos 5 están clasificados como Covered Models, lo que implica que Anthropic exige una retención de datos de 30 días para todo el tráfico, incluso para empresas que antes tenían planes de retención cero. Anthropic afirma que los datos no se usan para entrenamiento, pero el requisito de retención en sí es un bloqueo insalvable para sectores regulados. Algunas empresas no pueden usar Fable 5 en absoluto por esta política.

Trabajo de conocimiento y razonamiento

Ambos modelos son muy fuertes aquí, y las diferencias son menores que en programación. Fable 5 lidera en el Finance Benchmark de Hebbia para razonamiento de nivel senior, logrando la mejor puntuación en razonamiento basado en documentos, interpretación de gráficos y resolución de problemas. IMC informó de que Fable 5 superó sus evaluaciones de análisis de trading en todos los aspectos, incluido el análisis de causa raíz y el análisis de valor esperado.

GPT-5.5 lidera en FrontierMath Tier 4 con un 35,4%, por delante de las puntuaciones publicadas de Fable 5. En GDPval, que prueba agentes en 44 ocupaciones, GPT-5.5 alcanza el 84,9%. En Humanity's Last Exam con herramientas, Fable 5 lidera con un 64,5% frente al 52,2% de GPT-5.5, una diferencia significativa para tareas de razonamiento multidisciplinar.

Precios y disponibilidad

La diferencia de precio es real y se multiplica a escala. Fable 5 cuesta $10 por millón de tokens de entrada y $50 por millón de tokens de salida. GPT-5.5 cuesta $5 por millón de tokens de entrada y $30 por millón de tokens de salida. Para cargas de alto volumen, ese aumento del 100%/67% se acumula rápido.

El acceso por suscripción añade otra complicación para Fable 5. Los suscriptores Pro, Max, Team y Enterprise tuvieron acceso gratuito hasta el 22 de junio. A partir de esa fecha, usar Fable 5 requiere créditos de uso además de la suscripción. Anthropic dice que pretende volver a incluir Fable 5 como función estándar de suscripción cuando haya capacidad, pero no hay un plazo firme. GPT-5.5 llegó desde el día uno a usuarios Plus, Pro, Business y Enterprise en ChatGPT y Codex, con acceso por API poco después.

Un matiz de precios a tener en cuenta: cuando una consulta de Fable 5 hace fallback a Opus 4.8 por los clasificadores, se te factura a tarifas de Opus 4.8 ($5 entrada / $25 salida), no a tarifas de Fable 5.

Cuándo elegir Claude Fable 5 vs GPT-5.5

La decisión depende de tres variables: cuánto pesa para tu trabajo la brecha en SWE-Bench Pro, si tu dominio activa los clasificadores de Fable 5 y si necesitas rendimiento fiable más allá de 256K tokens.

Uso Recomendado Por qué
Ingeniería de software a nivel de repositorio Claude Fable 5 80,3% vs 58,6% en SWE-Bench Pro es una brecha de 22 puntos que refleja diferencias reales de capacidad en bases de código complejas
Herramientas de seguridad, pentesting o investigación de seguridad ofensiva GPT-5.5 Los clasificadores de Fable 5 bloquearán o redirigirán la mayor parte de este trabajo; la vía de acceso confiable por niveles de GPT-5.5 es más accesible
Revisión legal de documentos o síntesis de literatura científica a 500K+ tokens Cualquiera Las puntuaciones MRCR publicadas a 512K-1M tokens (74,0%) muestran que GPT-5.5 se mantiene donde GPT-5.4 caía; Fable 5 no tiene datos comparables publicados, pero promete mejor rendimiento
Finanzas y trabajo de conocimiento con documentos complejos Claude Fable 5 Lidera en el Finance Benchmark de Hebbia y en Humanity's Last Exam con herramientas (64,5% vs 52,2%)
Cargas de trabajo API de alto volumen donde el coste importa GPT-5.5 $30 vs $50 por millón de tokens de salida; la diferencia se multiplica a escala
Flujos de investigación biomédica GPT-5.5 (o espera acceso confiable a Fable 5) Los clasificadores de biología de Fable 5 redirigirán la mayoría de consultas biomédicas a Opus 4.8 hasta que se abra el programa de acceso confiable
Industrias reguladas que requieren cero retención de datos GPT-5.5 La política obligatoria de retención de 30 días de Fable 5 es un bloqueo total para algunas empresas

Elige Claude Fable 5 si...

  • Tu caso principal es la ingeniería de software a nivel de repositorio y la brecha de 22 puntos en SWE-Bench Pro justifica el coste 2x por token de salida.
  • Tu trabajo no está cerca de los ámbitos de ciberseguridad, biología o química, por lo que es poco probable que los clasificadores se activen en tus sesiones.
  • Necesitas el techo más alto en tareas analíticas complejas, incluidos benchmarks de finanzas y razonamiento multidisciplinar, donde Fable 5 lidera por dos dígitos.
  • Usas la API y puedes asumir $50 por millón de tokens de salida a cambio del salto de capacidad.

Elige GPT-5.5 si...

  • Trabajas en dominios cercanos a seguridad y necesitas un modelo que no redirija silenciosamente tus peticiones a mitad del pipeline.
  • La política de datos de tu empresa exige retención cero, algo incompatible con el estatus de Covered Model de Fable 5.
  • Necesitas acceso API predecible sin un precipicio de suscripción ni un sistema de créditos extra sobre tu plan.
  • Te importa la eficiencia de costes y la diferencia de $30 vs $50 por millón de tokens de salida es significativa a tu volumen.

Conclusiones

Fable 5 es el modelo más capaz en los benchmarks que más importan. La brecha en SWE-Bench Pro (80,3% vs 58,6%) no es ruido, y su ventaja en Humanity's Last Exam (64,5% vs 52,2% con herramientas) refleja una diferencia real en profundidad de razonamiento. Si la capacidad pura es la única variable, Fable 5 gana.

Pero el asterisco en las puntuaciones de Fable 5 es importante. Esos números reflejan el modelo Mythos subyacente. Fable 5 es Mythos con clasificadores por encima y, para consultas de ciberseguridad, biomédicas y ciertos usos de doble finalidad, obtienes Opus 4.8 en su lugar. Para pipelines agentivos, no es solo una cuestión de capacidad; es una cuestión de fiabilidad. Un pipeline que espera la profundidad de razonamiento de Fable 5 de principio a fin puede fallar si el modelo cambia en silencio a mitad de tarea. Súmale el requisito obligatorio de retención de datos de 30 días, y Fable 5 simplemente no es (todavía) una opción para algunas empresas.

Hay una tercera opción que merece mención. Si el precio de Fable 5 es prohibitivo y las mejoras de GPT-5.5 en contexto largo no son clave para tu caso, Claude Opus 4.8 no es un premio de consolación. Ya supera a GPT-5.5 en SWE-Bench Pro con un 69,2% frente a 58,6%, cuesta $5/$25 por millón de tokens y no tiene la fricción de los clasificadores de Fable 5. Cubrimos la decisión Opus 4.8 vs GPT-5.5 en detalle en nuestro artículo sobre Claude Opus 4.8.

Si quieres ponerte al día para trabajar con modelos frontera en producción, te recomendamos empezar con nuestro AI Fundamentals skill track.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de ciencia de datos en DataCamp | Me encanta hacer previsiones y crear con API.

Temas

¡Aprende IA con DataCamp!

programa

Fundamentos de OOP

3 h
Explora lo esencial del ChatGPT y la ingeniería rápida. Domina la creación de mensajes para maximizar las capacidades del ChatGPT.
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow