Claude Fable 5 vs GPT-5.5: benchmarks, precios y cuál elegir

Claude Fable 5 lidera en benchmarks de capacidad pura, pero GPT-5.5 gana en acceso, precio y menos interrupciones por clasificadores. Así es como elegir.

Actualizado 10 jun 2026 · 11 min leer

Explorar con IA

Abrir en ChatGPT Abrir en Claude Abrir en Perplexity

Si estás eligiendo entre Claude Fable 5 y GPT-5.5 para un flujo de trabajo en producción, las tablas de benchmarks cuentan una historia clara. Sobre el papel, Fable 5 es el modelo más potente por un amplio margen en codificación y razonamiento. Pero también cuesta el doble por token de salida, incluye un sistema de clasificadores que puede redirigir silenciosamente tu petición a un modelo más débil y obliga a una retención de datos de 30 días que deja fuera por completo a algunas empresas.

En este artículo, compararé Fable 5 y GPT-5.5 en cinco dimensiones: rendimiento en código y tareas agentivas, trabajo con contextos largos, clasificadores de seguridad y fricción de acceso, trabajo de conocimiento y razonamiento, y precios. También puedes consultar nuestras guías específicas de Claude Fable 5 y GPT-5.5 para una cobertura más a fondo de cada modelo.

Mantente al día de lo último en IA. Suscríbete a The Median, nuestra newsletter gratuita de los viernes que resume las noticias clave de la semana. Mantente al tanto en solo unos minutos.

¿Qué es Claude Fable 5?

Claude Fable 5 es el primer modelo de clase Mythos de Anthropic disponible para uso general, lanzado el 9 de junio de 2026. Mythos es un nuevo nivel de capacidades por encima de Opus en la jerarquía de modelos de Anthropic. Fable 5 es el mismo modelo subyacente que Claude Mythos 5, pero con clasificadores de seguridad activos que redirigen ciertas consultas sensibles a Claude Opus 4.8. La distinción de nombre importa: Fable es la versión accesible al público; Mythos es la versión sin restricciones disponible solo para socios de Project Glasswing.

Anthropic posiciona Fable 5 como el estado del arte en casi todos los benchmarks probados, con especial fortaleza en ingeniería de software, trabajo de conocimiento, visión y tareas agentivas de larga duración. Cuanto más larga y compleja es la tarea, mayor es su ventaja sobre modelos Claude anteriores. Stripe informó de que Fable 5 comprimió meses de trabajo de ingeniería en días al migrar una base de código Ruby de 50 millones de líneas.

Para saber más sobre las capacidades de Fable 5 y el desglose de benchmarks, consulta nuestra guía de Claude Fable 5. También cubrimos la variante restringida Mythos 5 en nuestro artículo sobre Claude Mythos 5.

¿Qué es GPT-5.5?

GPT-5.5 es la versión de abril de 2026 de OpenAI, descrita como su mejor modelo agentivo para programación hasta la fecha. OpenAI también lanzó una variante GPT-5.5 Pro para trabajos que requieren mayor precisión. El modelo se co-diseñó para ejecutarse en sistemas NVIDIA GB200 y GB300 NVL72, y OpenAI afirma que iguala la latencia por token de GPT-5.4 en entornos reales, con un nivel de inteligencia significativamente superior.

La gran novedad arquitectónica de GPT-5.5 es su fiabilidad en contextos largos. GPT-5.4 se venía abajo a partir de ~128K tokens en el benchmark MRCR; GPT-5.5 se mantiene estable hasta 512K-1M tokens (74,0% en MRCR v2 en ese rango, frente al 36,6% de GPT-5.4). No es una mejora marginal, sino un cambio cualitativo en lo que se puede hacer con el modelo.

Para un desglose completo de los benchmarks de GPT-5.5 y nuestras pruebas prácticas, consulta nuestra guía de GPT-5.5. También lo comparamos directamente con Claude Opus 4.8 en nuestro artículo Claude Opus 4.8 vs GPT-5.5.

Claude Fable 5 vs GPT-5.5: comparativa directa

Aquí tienes un resumen rápido de la posición de cada modelo antes de entrar en detalle.

Función	Claude Fable 5	GPT-5.5
SWE-Bench Pro	80,3%	58,6%
Terminal-Bench 2.1	88,0%*	83,4% (Codex CLI)
Humanity's Last Exam (con herramientas)	64,5%	52,2%
MRCR v2 a 512K-1M tokens	No publicado	74,0%
OSWorld-Verified	85,0%	78,7%
Precio API de entrada (por 1M tokens)	$10	$5
Precio API de salida (por 1M tokens)	$50	$30
Fallback por clasificador de seguridad	Sí (redirige a Opus 4.8)	Sin fallback silencioso
Requisito de retención de datos	30 días obligatorios	Política estándar
Disponibilidad general	Limitada (créditos extra necesarios después del 22 de junio)	Sí (ChatGPT + API)

Rendimiento en código y tareas agentivas

Aquí es donde la brecha entre ambos modelos es mayor y más relevante para decidir. En SWE-Bench Pro, el benchmark para resolver incidencias reales en GitHub, Fable 5 logra un 80,3% frente al 58,6% de GPT-5.5. Es una diferencia de 22 puntos. Para contextualizar, Claude Opus 4.7 ya superaba a GPT-5.5 en este benchmark con un 64,3%, así que GPT-5.5 ya iba por detrás en programación a nivel de repositorio antes de la llegada de Fable 5.

En la evaluación FrontierCode de Cognition, que prueba si los modelos superan tareas de programación difíciles cumpliendo estándares de código de producción, Fable 5 obtiene la mejor puntuación entre los modelos frontera incluso con esfuerzo medio. El CEO de Cursor, Michael Truell, lo describió como el modelo con mayor puntuación en FrontierBench, destacando en razonamiento a largo plazo y en generalización a herramientas desconocidas desde el primer momento.

Fable 5 también parece liderar Terminal-Bench 2.1 con una puntuación reportada del 88,0%*, por delante del 83,4% de GPT-5.5. El asterisco indica que hay que coger el dato con cautela por una discrepancia entre Fable 5 y Mythos 5. Cuando ocurre, Fable es el que rinde peor de los dos, así que yo asumiría que Fable 5 empata con GPT-5.5 o lidera por un margen pequeño.

GPT-5.5 sigue siendo la mejor opción para DevOps con mucho trabajo en terminal y automatización de shell, pero la brecha en SWE-Bench Pro es significativa. Si tu caso de uso principal es ingeniería a nivel de repositorio, Fable 5 es la opción clara solo por capacidad. La pregunta es si el coste 2x por token de salida y la fricción de los clasificadores compensan para tu carga de trabajo.

Rendimiento con contextos largos

Este es el diferenciador real de GPT-5.5, y merece atención. GPT-5.4 se venía abajo a partir de ~128K tokens en MRCR v2. GPT-5.5 no. A 512K-1M tokens, GPT-5.5 logra un 74,0% en MRCR v2, frente al 36,6% de GPT-5.4 en el mismo rango. No es una mejora incremental; es otra categoría de capacidades.

Anthropic afirma que Fable 5 se mantiene centrado a lo largo de millones de tokens en tareas de larga duración y mejora sus salidas usando sus propias notas. La prueba de memoria de Slay the Spire mostró que la memoria persistente basada en archivos mejoró el rendimiento de Fable 5 tres veces más que el de Opus 4.8. Pero Anthropic no ha publicado puntuaciones tipo MRCR para Fable 5 en el rango 512K-1M, así que no es posible una comparación directa equivalente.

Para quienes trabajan con contextos de millones de tokens, como revisión legal de documentos, análisis de grandes bases de código o síntesis de literatura científica, las puntuaciones publicadas de GPT-5.5 en contextos largos son la evidencia más sólida. En nuestras propias pruebas de GPT-5.5, vimos que superó un test de aguja de 300K tokens y que las puntuaciones MRCR se mantenían más allá de 256K, donde GPT-5.4 se colapsaba. Fable 5 puede ser igual de sólido aquí, pero no hay datos publicados en un formato comparable.

Clasificadores de seguridad y fricción de acceso

Este es el problema práctico más infravalorado con Fable 5, y merece algo más que una nota a pie de página. Fable 5 ejecuta un sistema de clasificadores en dos etapas: una sonda monitoriza activaciones internas en todo el tráfico, y las peticiones marcadas se escalan a un clasificador LLM entrenado aparte que toma la decisión final. Cuando una petición se bloquea, se redirige a Claude Opus 4.8, y se informa al usuario de qué modelo ha gestionado la consulta.

Anthropic afirma que los clasificadores se activan en menos del 5% de las sesiones de media. Cubren tres ámbitos:

Ciberseguridad: Se bloquean el desarrollo de exploits, tareas ofensivas de ciber y flujos agentivos de hacking. Fable 5 obtuvo un 0,0% en los cuatro benchmarks de ciber cuando los clasificadores estaban activos, frente al 88,4% del modelo Mythos subyacente en desarrollo de exploits de Firefox.
Biología y química: La mayoría de peticiones en este ámbito hacen fallback a Opus 4.8. Las evaluaciones de la propia Anthropic mostraron que el modelo subyacente se acercaba al nivel experto en tareas de diseño de virus adenoasociados, por lo que la cobertura es amplia.
Destilación: Las peticiones marcadas como intentos de extraer las capacidades de Claude para entrenar modelos competidores se redirigen.

El mecanismo de fallback no es solo una cuestión de capacidad; es una cuestión de fiabilidad para los pipelines agentivos. Cuando Fable 5 redirige a Opus 4.8, se te factura a tarifas de Opus 4.8, pero también pasas a otro modelo (¡aun muy bueno!) a mitad de tarea. Para un pipeline que espera la profundidad de razonamiento de Fable 5 de principio a fin, un cambio silencioso a Opus 4.8 en mitad de la sesión puede romper supuestos sobre la calidad de salida.

GPT-5.5 tiene sus propias salvaguardas cibernéticas, descritas como clasificadores más estrictos para riesgos potenciales. Pero no hay un fallback silencioso a un modelo más débil. El enfoque de OpenAI es el acceso de confianza por niveles: los defensores verificados pueden solicitarlo en chatgpt.com/cyber para ampliar el acceso con menos restricciones. Ese camino es más accesible que Project Glasswing de Anthropic, aún limitado a un conjunto pequeño de socios aprobados.

Hay otro bloqueo que conviene mencionar explícitamente. Fable 5 y Mythos 5 están clasificados como Covered Models, lo que implica que Anthropic exige una retención de datos de 30 días para todo el tráfico, incluso para empresas que antes tenían planes de retención cero. Anthropic afirma que los datos no se usan para entrenamiento, pero el requisito de retención en sí es un bloqueo insalvable para sectores regulados. Algunas empresas no pueden usar Fable 5 en absoluto por esta política.

Trabajo de conocimiento y razonamiento

Ambos modelos son muy fuertes aquí, y las diferencias son menores que en programación. Fable 5 lidera en el Finance Benchmark de Hebbia para razonamiento de nivel senior, logrando la mejor puntuación en razonamiento basado en documentos, interpretación de gráficos y resolución de problemas. IMC informó de que Fable 5 superó sus evaluaciones de análisis de trading en todos los aspectos, incluido el análisis de causa raíz y el análisis de valor esperado.

GPT-5.5 lidera en FrontierMath Tier 4 con un 35,4%, por delante de las puntuaciones publicadas de Fable 5. En GDPval, que prueba agentes en 44 ocupaciones, GPT-5.5 alcanza el 84,9%. En Humanity's Last Exam con herramientas, Fable 5 lidera con un 64,5% frente al 52,2% de GPT-5.5, una diferencia significativa para tareas de razonamiento multidisciplinar.

Precios y disponibilidad

La diferencia de precio es real y se multiplica a escala. Fable 5 cuesta $10 por millón de tokens de entrada y $50 por millón de tokens de salida. GPT-5.5 cuesta $5 por millón de tokens de entrada y $30 por millón de tokens de salida. Para cargas de alto volumen, ese aumento del 100%/67% se acumula rápido.

El acceso por suscripción añade otra complicación para Fable 5. Los suscriptores Pro, Max, Team y Enterprise tuvieron acceso gratuito hasta el 22 de junio. A partir de esa fecha, usar Fable 5 requiere créditos de uso además de la suscripción. Anthropic dice que pretende volver a incluir Fable 5 como función estándar de suscripción cuando haya capacidad, pero no hay un plazo firme. GPT-5.5 llegó desde el día uno a usuarios Plus, Pro, Business y Enterprise en ChatGPT y Codex, con acceso por API poco después.

Un matiz de precios a tener en cuenta: cuando una consulta de Fable 5 hace fallback a Opus 4.8 por los clasificadores, se te factura a tarifas de Opus 4.8 ($5 entrada / $25 salida), no a tarifas de Fable 5.

Cuándo elegir Claude Fable 5 vs GPT-5.5

La decisión depende de tres variables: cuánto pesa para tu trabajo la brecha en SWE-Bench Pro, si tu dominio activa los clasificadores de Fable 5 y si necesitas rendimiento fiable más allá de 256K tokens.

Uso	Recomendado	Por qué
Ingeniería de software a nivel de repositorio	Claude Fable 5	80,3% vs 58,6% en SWE-Bench Pro es una brecha de 22 puntos que refleja diferencias reales de capacidad en bases de código complejas
Herramientas de seguridad, pentesting o investigación de seguridad ofensiva	GPT-5.5	Los clasificadores de Fable 5 bloquearán o redirigirán la mayor parte de este trabajo; la vía de acceso confiable por niveles de GPT-5.5 es más accesible
Revisión legal de documentos o síntesis de literatura científica a 500K+ tokens	Cualquiera	Las puntuaciones MRCR publicadas a 512K-1M tokens (74,0%) muestran que GPT-5.5 se mantiene donde GPT-5.4 caía; Fable 5 no tiene datos comparables publicados, pero promete mejor rendimiento
Finanzas y trabajo de conocimiento con documentos complejos	Claude Fable 5	Lidera en el Finance Benchmark de Hebbia y en Humanity's Last Exam con herramientas (64,5% vs 52,2%)
Cargas de trabajo API de alto volumen donde el coste importa	GPT-5.5	$30 vs $50 por millón de tokens de salida; la diferencia se multiplica a escala
Flujos de investigación biomédica	GPT-5.5 (o espera acceso confiable a Fable 5)	Los clasificadores de biología de Fable 5 redirigirán la mayoría de consultas biomédicas a Opus 4.8 hasta que se abra el programa de acceso confiable
Industrias reguladas que requieren cero retención de datos	GPT-5.5	La política obligatoria de retención de 30 días de Fable 5 es un bloqueo total para algunas empresas

Elige Claude Fable 5 si...

Tu caso principal es la ingeniería de software a nivel de repositorio y la brecha de 22 puntos en SWE-Bench Pro justifica el coste 2x por token de salida.
Tu trabajo no está cerca de los ámbitos de ciberseguridad, biología o química, por lo que es poco probable que los clasificadores se activen en tus sesiones.
Necesitas el techo más alto en tareas analíticas complejas, incluidos benchmarks de finanzas y razonamiento multidisciplinar, donde Fable 5 lidera por dos dígitos.
Usas la API y puedes asumir $50 por millón de tokens de salida a cambio del salto de capacidad.

Elige GPT-5.5 si...

Trabajas en dominios cercanos a seguridad y necesitas un modelo que no redirija silenciosamente tus peticiones a mitad del pipeline.
La política de datos de tu empresa exige retención cero, algo incompatible con el estatus de Covered Model de Fable 5.
Necesitas acceso API predecible sin un precipicio de suscripción ni un sistema de créditos extra sobre tu plan.
Te importa la eficiencia de costes y la diferencia de $30 vs $50 por millón de tokens de salida es significativa a tu volumen.

Conclusiones

Fable 5 es el modelo más capaz en los benchmarks que más importan. La brecha en SWE-Bench Pro (80,3% vs 58,6%) no es ruido, y su ventaja en Humanity's Last Exam (64,5% vs 52,2% con herramientas) refleja una diferencia real en profundidad de razonamiento. Si la capacidad pura es la única variable, Fable 5 gana.

Pero el asterisco en las puntuaciones de Fable 5 es importante. Esos números reflejan el modelo Mythos subyacente. Fable 5 es Mythos con clasificadores por encima y, para consultas de ciberseguridad, biomédicas y ciertos usos de doble finalidad, obtienes Opus 4.8 en su lugar. Para pipelines agentivos, no es solo una cuestión de capacidad; es una cuestión de fiabilidad. Un pipeline que espera la profundidad de razonamiento de Fable 5 de principio a fin puede fallar si el modelo cambia en silencio a mitad de tarea. Súmale el requisito obligatorio de retención de datos de 30 días, y Fable 5 simplemente no es (todavía) una opción para algunas empresas.

Hay una tercera opción que merece mención. Si el precio de Fable 5 es prohibitivo y las mejoras de GPT-5.5 en contexto largo no son clave para tu caso, Claude Opus 4.8 no es un premio de consolación. Ya supera a GPT-5.5 en SWE-Bench Pro con un 69,2% frente a 58,6%, cuesta $5/$25 por millón de tokens y no tiene la fricción de los clasificadores de Fable 5. Cubrimos la decisión Opus 4.8 vs GPT-5.5 en detalle en nuestro artículo sobre Claude Opus 4.8.

Si quieres ponerte al día para trabajar con modelos frontera en producción, te recomendamos empezar con nuestro AI Fundamentals skill track.

Author

Tom Farnschläder

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

¡Aprende IA con DataCamp!

programa

Fundamentos de OOP

3 h

Explora lo esencial del ChatGPT y la ingeniería rápida. Domina la creación de mensajes para maximizar las capacidades del ChatGPT.

Ver detalles

Iniciar Curso

Curso

Introducción a los modelos Claude

3 h

12.3K

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en IA.

Ver detalles

Iniciar Curso

Curso

Claude 101

2 h

10.9K

Learn how to use Claude for everyday work tasks, understand core features, and explore resources for more advanced learning on other topics.

Ver detalles

Iniciar Curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.

Josep Ferrer

8 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver Más Ver Más

¿Qué es Claude Fable 5?

¿Qué es GPT-5.5?

Claude Fable 5 vs GPT-5.5: comparativa directa

Rendimiento en código y tareas agentivas

Rendimiento con contextos largos

Clasificadores de seguridad y fricción de acceso

Trabajo de conocimiento y razonamiento

Precios y disponibilidad

Cuándo elegir Claude Fable 5 vs GPT-5.5

Elige Claude Fable 5 si...

Elige GPT-5.5 si...

Conclusiones

12 alternativas de código abierto a GPT-4

Todo lo que sabemos sobre GPT-5

¿Qué es GPT-4 y por qué es importante?

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de OOP

Introducción a los modelos Claude

Claude 101

12 alternativas de código abierto a GPT-4

Todo lo que sabemos sobre GPT-5

¿Qué es GPT-4 y por qué es importante?

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Visión GPT-4: Guía completa para principiantes

Fundamentos de OOP