Programa
Se você está decidindo entre o Claude Fable 5 e o GPT-5.5 para um fluxo de produção, as tabelas de benchmark contam uma história clara. No papel, o Fable 5 é bem mais forte em código e raciocínio. Mas ele também custa o dobro por token de saída, tem um sistema de classificadores que pode redirecionar silenciosamente sua solicitação para um modelo mais fraco e impõe uma exigência de retenção de dados de 30 dias que barra totalmente alguns clientes enterprise.
Neste artigo, comparo Fable 5 e GPT-5.5 em cinco dimensões: desempenho em código e agentes, trabalho com contexto longo, classificadores de segurança e atritos de acesso, trabalho intelectual e raciocínio, e preços. Você também pode conferir nossos guias dedicados sobre o Claude Fable 5 e o GPT-5.5 para uma análise mais profunda de cada modelo.
Fique por dentro de tudo sobre IA. Assine o The Median, nossa newsletter gratuita de sexta-feira que resume as principais notícias da semana. Em poucos minutos, você se mantém afiado.
O que é o Claude Fable 5?
O Claude Fable 5 é o primeiro modelo da Anthropic da classe Mythos disponível para uso geral, lançado em 9 de junho de 2026. Mythos é um novo nível de capacidade acima do Opus na hierarquia de modelos da Anthropic. O Fable 5 é o mesmo modelo subjacente do Claude Mythos 5, mas com classificadores de segurança ativos que roteiam certas consultas sensíveis para o Claude Opus 4.8. A distinção de nome importa: Fable é a versão pública; Mythos é a versão sem restrições, disponível apenas para parceiros do Project Glasswing.
A Anthropic posiciona o Fable 5 como estado da arte em quase todos os benchmarks testados, com força particular em engenharia de software, trabalho intelectual, visão e tarefas agentivas de longa duração. Quanto mais longa e complexa a tarefa, maior a vantagem sobre modelos Claude anteriores. A Stripe relatou que o Fable 5 condensou meses de trabalho de engenharia em dias em uma migração de base de código Ruby com 50 milhões de linhas.
Para saber mais sobre as capacidades e os benchmarks do Fable 5, veja nosso guia do Claude Fable 5. Também cobrimos a variante restrita Mythos 5 em nosso artigo sobre o Claude Mythos 5.
O que é o GPT-5.5?
O GPT-5.5 é o lançamento de abril de 2026 da OpenAI, descrito como o modelo agentivo de codificação mais forte da empresa até então. A OpenAI também lançou o GPT-5.5 Pro para trabalhos que exigem maior precisão. O modelo foi co-desenhado para e servido em sistemas NVIDIA GB200 e GB300 NVL72, e a OpenAI diz que ele iguala a latência por token do GPT-5.4 em produção enquanto opera em um nível de inteligência significativamente superior.
O grande destaque arquitetural do GPT-5.5 é a confiabilidade em contexto longo. O GPT-5.4 colapsava após cerca de 128K tokens no benchmark MRCR; o GPT-5.5 se mantém em 512K-1M tokens (74,0% no MRCR v2 nessa faixa, contra 36,6% do GPT-5.4). Isso muda qualitativamente o que o modelo consegue fazer — não é um ganho marginal de benchmark.
Para ver um detalhamento completo dos benchmarks do GPT-5.5 e nossos achados práticos, acesse nosso guia do GPT-5.5. Também o comparamos diretamente com o Claude Opus 4.8 em nosso artigo Claude Opus 4.8 vs GPT-5.5.
Claude Fable 5 vs GPT-5.5: comparação direta
Antes dos detalhes, aqui vai um resumo rápido de onde cada modelo se destaca.
| Recurso | Claude Fable 5 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 80,3% | 58,6% |
| Terminal-Bench 2.1 | 88,0%* | 83,4% (Codex CLI) |
| Humanity's Last Exam (com ferramentas) | 64,5% | 52,2% |
| MRCR v2 em 512K-1M tokens | Não publicado | 74,0% |
| OSWorld-Verified | 85,0% | 78,7% |
| Preço de entrada na API (por 1M tokens) | US$ 10 | US$ 5 |
| Preço de saída na API (por 1M tokens) | US$ 50 | US$ 30 |
| Fallback por classificador de segurança | Sim (roteia para o Opus 4.8) | Sem fallback silencioso |
| Exigência de retenção de dados | 30 dias obrigatórios | Política padrão |
| Disponibilidade geral | Limitada (créditos extras necessários após 22 de junho) | Sim (ChatGPT + API) |
Desempenho em código e agentes
Aqui está a maior diferença entre os modelos — e a mais relevante para a decisão. No SWE-Bench Pro, benchmark para resolução de issues reais do GitHub, o Fable 5 faz 80,3% contra 58,6% do GPT-5.5. É um gap de 22 pontos. Para contexto, o Claude Opus 4.7 já batia o GPT-5.5 nesse benchmark com 64,3%, então o GPT-5.5 já vinha atrás em engenharia no nível de repositório antes da chegada do Fable 5.
No FrontierCode da Cognition, que testa se os modelos passam por tarefas difíceis de código atendendo aos padrões de bases de produção, o Fable 5 lidera entre os modelos de fronteira mesmo em esforço médio. O CEO da Cursor, Michael Truell, o descreveu como o modelo com maior pontuação no FrontierBench, se destacando em raciocínio de longo alcance e generalizando para ferramentas desconhecidas desde o primeiro uso.
O Fable 5 também parece liderar o Terminal-Bench 2.1 com 88,0%* reportados, à frente do GPT-5.5 com 83,4%. O asterisco indica que é preciso cautela por conta de uma discrepância entre Fable 5 e Mythos 5. Quando isso ocorre, o Fable é o de menor desempenho, então eu assumiria que o Fable 5 empata com o GPT-5.5 ou lidera por uma margem pequena.
O GPT-5.5 ainda é a melhor escolha para DevOps pesado em terminal e automações de shell, mas o gap no SWE-Bench Pro é um sinal real. Se seu principal caso de uso é engenharia no nível de repositório, o Fable 5 é a escolha clara em termos de capacidade. A pergunta é se o custo 2x por token de saída e o atrito dos classificadores valem a pena para sua carga de trabalho.
Desempenho em contexto longo
Esse é o grande diferencial do GPT-5.5 — e merece atenção. O GPT-5.4 desandava após cerca de 128K tokens no MRCR v2. O GPT-5.5 não. Em 512K-1M tokens, o GPT-5.5 faz 74,0% no MRCR v2, contra 36,6% do GPT-5.4 na mesma faixa. Não é uma melhoria marginal; é outra classe de capacidade.
A Anthropic afirma que o Fable 5 mantém o foco por milhões de tokens em tarefas longas e melhora suas saídas usando suas próprias anotações. No teste de memória do jogo Slay the Spire, uma memória persistente baseada em arquivo melhorou o desempenho do Fable 5 três vezes mais do que o do Opus 4.8. Mas a Anthropic não publicou pontuações ao estilo MRCR para o Fable 5 na faixa de 512K-1M, então não dá para fazer uma comparação direta.
Para quem roda contextos de milhão de tokens — como revisão de documentos jurídicos, análise de grandes bases de código ou síntese de literatura científica —, os scores publicados do GPT-5.5 em contexto longo são a evidência mais sólida. Em nossos testes com o GPT-5.5, ele passou em um needle test de 300K tokens e manteve as pontuações do MRCR além de 256K, onde o GPT-5.4 tinha colapsado. O Fable 5 pode ser igualmente forte aqui, mas os dados não foram publicados de forma comparável.
Classificadores de segurança e atritos de acesso
Esse é o ponto prático mais subestimado no Fable 5 — e merece mais que uma nota de rodapé. O Fable 5 roda um sistema de classificação em duas etapas: uma sonda monitora ativações internas em todo o tráfego e, quando há alerta, a solicitação é escalada para um classificador LLM separado que dá a palavra final. Quando uma solicitação é bloqueada, ela é redirecionada para o Claude Opus 4.8, e o usuário é avisado de qual modelo atendeu ao pedido.
A Anthropic diz que os classificadores disparam em menos de 5% das sessões, em média. Três domínios são cobertos:
- Cibersegurança: desenvolvimento de exploits, tarefas ofensivas e fluxos agentivos de hacking são bloqueados. O Fable 5 marcou 0,0% nos quatro benchmarks de cyber com os classificadores ativos, ante 88,4% do modelo Mythos subjacente em desenvolvimento de exploit no Firefox.
- Biologia e química: a maioria das solicitações nessa área faz fallback para o Opus 4.8. As avaliações da própria Anthropic mostraram o modelo subjacente chegando perto de nível especialista em tarefas de design de vírus adeno-associado, por isso a cobertura é ampla.
- Destilação: pedidos sinalizados como tentativas de extrair capacidades do Claude para treinar modelos concorrentes são redirecionados.
O mecanismo de fallback não é só questão de capacidade; é questão de confiabilidade para pipelines agentivos. Quando o Fable 5 roteia para o Opus 4.8, a cobrança é nas tarifas do Opus 4.8, mas você também passa a usar outro modelo (ainda muito bom!) no meio da tarefa. Para um pipeline que espera o nível de raciocínio do Fable 5 de ponta a ponta, uma troca silenciosa para o Opus 4.8 no meio da sessão pode quebrar pressupostos sobre a qualidade da saída.
O GPT-5.5 tem suas próprias salvaguardas de cyber, descritas como classificadores mais rígidos para risco potencial. Mas não há fallback silencioso para um modelo mais fraco. A abordagem da OpenAI é de acesso confiável por níveis: defensores verificados podem se inscrever em chatgpt.com/cyber para acesso ampliado com menos restrições. Esse caminho é mais acessível que o Project Glasswing da Anthropic, ainda limitado a um pequeno conjunto de parceiros aprovados.
Há ainda um impeditivo importante. Fable 5 e Mythos 5 são classificados como Covered Models, o que significa que a Anthropic exige retenção de dados por 30 dias para todo o tráfego — inclusive para clientes enterprise que antes tinham planos de retenção zero. A Anthropic afirma que os dados não são usados para treinamento, mas a obrigatoriedade de retenção por si só é um bloqueio duro para setores regulados. Alguns clientes enterprise simplesmente não podem usar o Fable 5 por conta dessa política.
Trabalho intelectual e raciocínio
Ambos os modelos são fortes aqui, e as diferenças são menores do que em código. O Fable 5 lidera no Finance Benchmark da Hebbia para raciocínio em nível sênior, com as maiores pontuações em raciocínio baseado em documentos, interpretação de gráficos e resolução de problemas. A IMC reportou que o Fable 5 superou suas avaliações de análise de trading em toda a linha, incluindo análise de causa raiz e de valor esperado.
O GPT-5.5 lidera no FrontierMath Tier 4 com 35,4%, à frente dos números publicados do Fable 5. No GDPval, que testa agentes em 44 ocupações, o GPT-5.5 faz 84,9%. No Humanity's Last Exam com ferramentas, o Fable 5 lidera com 64,5% contra 52,2% do GPT-5.5 — um gap relevante para tarefas multidisciplinares de raciocínio.
Preços e disponibilidade
O gap de preço é real e se multiplica em escala. O Fable 5 custa US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída. O GPT-5.5 custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída. Para workloads de alto volume, esse aumento de 100%/67% pesa rápido.
O acesso por assinatura adiciona mais uma camada no Fable 5. Assinantes Pro, Max, Team e Enterprise tiveram acesso gratuito até 22 de junho. Depois dessa data, usar o Fable 5 requer créditos de uso além da assinatura existente. A Anthropic diz que pretende restaurar o Fable 5 como recurso padrão da assinatura quando houver capacidade, mas não há prazo definido. O GPT-5.5 foi liberado no dia um para usuários Plus, Pro, Business e Enterprise no ChatGPT e no Codex, com acesso à API pouco depois.
Um detalhe de preço importante: quando uma consulta ao Fable 5 faz fallback para o Opus 4.8 devido aos classificadores, a cobrança segue as tarifas do Opus 4.8 (US$ 5 entrada / US$ 25 saída), não as do Fable 5.
Quando escolher Claude Fable 5 vs GPT-5.5
A decisão depende de três variáveis: quanto o gap no SWE-Bench Pro pesa no seu trabalho, se o seu domínio aciona os classificadores do Fable 5 e se você precisa de desempenho confiável além de 256K tokens.
| Caso de uso | Recomendado | Por quê |
|---|---|---|
| Engenharia de software no nível de repositório | Claude Fable 5 | 80,3% vs 58,6% no SWE-Bench Pro é um gap de 22 pontos que reflete diferenças reais de capacidade em bases de código complexas |
| Ferramentas de segurança, pentest ou pesquisa em segurança ofensiva | GPT-5.5 | Os classificadores do Fable 5 vão bloquear ou redirecionar a maior parte desse trabalho; o caminho de acesso confiável em camadas do GPT-5.5 é mais acessível |
| Revisão jurídica ou síntese de literatura científica em 500K+ tokens | Qualquer um | Scores publicados no MRCR em 512K-1M tokens (74,0%) mostram que o GPT-5.5 se mantém onde o GPT-5.4 colapsou; o Fable 5 não tem dados publicados comparáveis, mas promete melhor desempenho |
| Finanças e trabalho intelectual com documentos complexos | Claude Fable 5 | Lidera no Finance Benchmark da Hebbia e no Humanity's Last Exam com ferramentas (64,5% vs 52,2%) |
| Workloads de API em alto volume, onde custo importa | GPT-5.5 | US$ 30 vs US$ 50 por milhão de tokens de saída; o gap se multiplica em escala |
| Pipelines de pesquisa biomédica | GPT-5.5 (ou aguarde acesso confiável do Fable 5) | Os classificadores de biologia do Fable 5 devem redirecionar a maioria das consultas biomédicas para o Opus 4.8 até a abertura do programa de acesso confiável |
| Setores regulados que exigem retenção zero de dados | GPT-5.5 | A política obrigatória de 30 dias do Fable 5 é um bloqueio duro para alguns clientes enterprise |
Escolha o Claude Fable 5 se...
- Seu principal caso de uso é engenharia no nível de repositório, e o gap de 22 pontos no SWE-Bench Pro justifica o custo 2x por token de saída.
- Seu trabalho não é adjacente a domínios de cibersegurança, biologia ou química, então é pouco provável que os classificadores disparem nas suas sessões.
- Você precisa do teto mais alto em tarefas analíticas complexas — incluindo benchmarks de finanças e raciocínio multidisciplinar — onde o Fable 5 lidera por dois dígitos.
- Você usa a API e consegue absorver US$ 50 por milhão de tokens de saída em troca do ganho de capacidade.
Escolha o GPT-5.5 se...
- Você atua em domínios adjacentes à segurança e precisa de um modelo que não redirecione silenciosamente suas solicitações no meio do pipeline.
- As políticas de dados da sua empresa exigem retenção zero, algo inviável com o status de Covered Model do Fable 5.
- Você precisa de acesso previsível à API sem um “cliff” de assinatura ou sistema de créditos adicional ao seu plano.
- Eficiência de custo importa — e a diferença de US$ 30 vs US$ 50 por token de saída pesa no seu volume.
Considerações finais
O Fable 5 é o modelo mais capaz nos benchmarks que mais contam. O gap no SWE-Bench Pro (80,3% vs 58,6%) não é ruído, e a liderança no Humanity's Last Exam (64,5% vs 52,2% com ferramentas) reflete uma diferença real de profundidade de raciocínio. Se capacidade bruta fosse o único critério, o Fable 5 venceria.
Mas o asterisco nas pontuações do Fable 5 é real. Esses números refletem o modelo Mythos subjacente. O Fable 5 é o Mythos com classificadores por cima e, para cibersegurança, biomédica e certas consultas de duplo uso, você recebe o Opus 4.8. Para pipelines agentivos, isso não é só sobre capacidade; é sobre confiabilidade. Um pipeline que espera a profundidade de raciocínio do Fable 5 do início ao fim pode falhar quando o modelo troca silenciosamente no meio da tarefa. Some a exigência obrigatória de retenção de dados por 30 dias, e o Fable 5 simplesmente ainda não é opção para alguns clientes enterprise.
Há uma terceira via que vale citar. Se o preço do Fable 5 é proibitivo e os ganhos de contexto longo do GPT-5.5 não importam para você, o Claude Opus 4.8 não é prêmio de consolação. Ele já supera o GPT-5.5 no SWE-Bench Pro com 69,2% contra 58,6%, custa US$ 5/US$ 25 por milhão de tokens e não tem o atrito dos classificadores do Fable 5. Detalhamos a decisão Opus 4.8 vs GPT-5.5 no nosso artigo sobre o Claude Opus 4.8.
Se você quer acelerar sua prática com modelos de fronteira em produção, recomendamos começar pela nossa trilha de aprendizado AI Fundamentals.

Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.