Sakana Fugu vs. Claude Fable 5: benchmarks, preços e mais

O Claude Fable 5 vence nos benchmarks, mas está suspenso. O Sakana Fugu está disponível agora e custa metade.

Atualizado 25 de jun. de 2026 · 6 min lido

A Sakana divulga o Fugu como equivalente ao Fable 5, mas exclui o Fable 5 da própria tabela de benchmarks. Então, vamos comparar os dois modelos lado a lado no máximo que for possível de fato.

Aqui vai o contexto. O governo dos EUA suspendeu o acesso público ao Claude Fable 5 pouco menos de três dias após o lançamento pela Anthropic. E o Fable 5 foi apresentado como seu modelo mais avançado. Agora, duas semanas depois, a Sakana AI, de Tóquio, lançou o Fugu com declarações ousadas. Uma em especial ganhou repercussão: a Sakana AI diz que o Fugu Ultra "fica ombro a ombro com modelos líderes como Fable 5 e Mythos Preview" nos benchmarks mais difíceis da indústria em engenharia, ciência e raciocínio — e sem risco de controle de exportação. O CEO David Ha disse no X que o Fugu prova que um pool intercambiável de agentes orquestrados pode alcançar modelos de fronteira restritos como o Fable.

As alegações são um pouco difíceis de verificar porque o Fable 5 não aparece na tabela de benchmarks do Fugu. A Sakana o exclui sob a justificativa de que ele não é publicamente acessível. Estamos fazendo o que dá: estamos conferindo os poucos benchmarks que aparecem nas tabelas publicadas por ambos os laboratórios com linhas de base equivalentes. E, para fechar, vamos falar de preços e da situação de acesso.

Se você quiser ver detalhes de cada sistema separadamente, temos posts sobre isso: confira nossa cobertura do Claude Fable 5 e o artigo sobre o Sakana Fugu.

O que é o Sakana Fugu?

O Sakana Fugu não é um único modelo treinado no sentido tradicional. É um orquestrador: um modelo que recebe seu pedido, decide se responde diretamente ou delega para modelos especialistas em um pool, gerencia verificação e síntese e retorna uma única resposta por uma API compatível com OpenAI. Por fora você chama um endpoint; por dentro, um conjunto coordenado de modelos de fronteira faz o trabalho.

Ele é oferecido em duas variantes. Fugu equilibra qualidade com baixa latência e é posicionado como o padrão do dia a dia para codificação, revisão e serviços interativos. Fugu Ultra coordena um pool mais amplo de agentes especialistas e é ajustado para máxima qualidade de resposta em problemas difíceis e de múltiplas etapas — reprodução de artigos, análise de cibersegurança, data science estilo Kaggle, investigações de patentes.

A proposta, na prática, são duas ideias.

Primeiro, orquestração aprendida: o coordenador é treinado para decidir quando delegar e como combinar saídas, em vez de rodar um pipeline codificado manualmente.
Segundo, um pool de agentes intercambiável: quando um novo modelo de fronteira fica publicamente disponível, a Sakana espera levar cerca de duas semanas para incorporá-lo. (Importante para o resto do artigo: o Fable 5 não está nesse pool porque não é publicamente acessível.)

O que é o Claude Fable 5?

O Claude Fable 5 é um modelo da classe Mythos, uma categoria que a Anthropic posiciona acima da classe Opus, tornado seguro para uso geral por meio de um conjunto de classificadores. É o mesmo modelo subjacente do Claude Mythos 5; a diferença é que o Fable 5 roda (rodava) com classificadores de segurança ativos, enquanto o Mythos 5 tem parte deles desativada e é restrito a parceiros do Project Glasswing e a alguns pesquisadores de biologia.

A Anthropic afirmava que o Fable 5 era o estado da arte em quase todos os benchmarks que acompanha, com vantagem maior em tarefas longas e complexas. O ponto prático principal: quando uma consulta toca em cibersegurança, biologia/química ou destilação de modelos, um classificador em duas etapas redireciona a resposta para o Claude Opus 4.8 e avisa o usuário sobre isso.

Sakana Fugu vs. Claude Fable 5: benchmarks

A tabela comparativa publicada pela Sakana exclui o Fable 5 e o Mythos Preview, sob a justificativa de que não são publicamente acessíveis e, portanto, não podem estar no pool do Fugu. Assim, os números oficiais do Fugu são medidos contra o Opus 4.8, o GPT-5.5 e o Gemini 3.1 Pro, todos visíveis na tabela abaixo. É possível vê-lo vencer em 10 de 11 benchmarks.

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* scaffolding mini-swe-agent. † linhas de base reportadas pelos provedores. Todas as pontuações do Fugu são reportadas pela Sakana e ainda não foram reproduzidas de forma independente.

Para colocar o Fable 5 na comparação, eu cruzei os benchmarks que aparecem tanto na tabela da Anthropic quanto na da Sakana e verifiquei se as linhas de base em comum batem. No SWE-Bench Pro e no Humanity's Last Exam (sem ferramentas), os números de Opus 4.8, GPT-5.5 e Gemini 3.1 Pro são idênticos nas duas fontes — então essas duas comparações são limpas. Reduzindo só aos dois sistemas, o cara a cara fica assim:

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Líder
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6,6)
Humanity's Last Exam (sem ferramentas)	47.2	50.0	59.0	Fable 5 (+9,0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5,9)

‡ Os dois laboratórios reportam linhas de base diferentes e usam scaffolds distintos no TerminalBench, então as condições não são idênticas.

Esses três são os únicos benchmarks que aparecem nas duas tabelas publicadas com linhas de base compatíveis, por isso o restante da comparação precisa ficar no qualitativo. O Fable 5 lidera os três.

Ou seja, em todo benchmark onde um confronto direto é viável, o Fable 5 fica à frente do Fugu Ultra por cerca de 6–9 pontos. Isso condiz com onde o Fable 5 foi criado para vencer: tarefas longas, avaliadas ao final, nas quais um único modelo mais forte acumula menos erros ao longo do processo.

Resumindo:

Todos os números do Fugu são autorreportados e ainda não apareceram em rankings independentes.
A Sakana descreve o Fugu como "ombro a ombro" com o Fable 5 e o Mythos Preview. Diante das diferenças acima, é uma leitura defensável, mas generosa. "Perto, porém atrás" é mais preciso.
Os conjuntos de comparação se sobrepõem só parcialmente. O Fable 5 lidera em visão (ele consegue reconstruir o código-fonte de um app web a partir de capturas de tela), algo que o Fugu não enfatiza; o Fugu publica benchmarks de contexto longo e de banco que a tabela da Anthropic não cobre. Ou seja, eles estão otimizados para formatos de trabalho um pouco diferentes.

Sakana Fugu vs. Claude Fable 5: disponibilidade e acesso

O Claude Fable 5 está suspenso no momento. A Anthropic removeu o acesso ao Fable 5 e ao Mythos 5 em 12 de junho após uma diretriz de controle de exportação do governo dos EUA e afirma estar trabalhando para restabelecer o acesso o quanto antes. Os outros modelos da Anthropic, como o Opus 4.8, continuam disponíveis.

O Sakana Fugu está disponível agora em console.sakana.ai com uma API compatível com OpenAI — exceto na UE e no EEE, onde a Sakana pausou a disponibilidade enquanto trabalha a conformidade com o GDPR. Não consegui um prazo exato para isso.

Neste momento, uma equipe europeia pode acabar sem acesso a nenhum dos dois modelos.

Considerações finais

No papel, é um duelo real e equilibrado entre duas filosofias.

A Anthropic aposta em escala — um modelo classe Mythos tão capaz que precisa de um sistema paralelo de classificadores.

A Sakana aposta em coordenação — que um orquestrador treinado sobre um pool intercambiável consegue se manter perto de qualquer modelo de fronteira individual, sendo mais barato, mais resiliente e agnóstico ao provedor.

Os benchmarks, tomados ao pé da letra, indicam que a aposta da Anthropic gera o artefato mais forte nos testes comparáveis, enquanto a da Sakana gera o mais disponível e barato.

Author

Josef Waples

O Sakana Fugu é melhor que o Claude Fable 5?

Por que o Fable 5 não está na tabela de benchmarks do Fugu?

Qual é mais barato?

O Fable 5 vai voltar?

O Fugu realmente contorna a suspensão do Fable 5?

Tópicos

Inteligência Artificial

Aprenda IA com a DataCamp

Programa

IA para Engenharia de Software

7 h

Escreva código e crie aplicativos de software mais rápido do que nunca com as mais recentes ferramentas de desenvolvimento de IA, incluindo GitHub Copilot, Windsurf e Replit.

Ver detalhes

Iniciar curso

Curso

Software Development with Claude Code

4 h

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Ver detalhes

Iniciar curso

Curso

Introduction to Agent Skills

2 h 30 min

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Anthropic vs. OpenAI: Os Dois Gigantes da IA Comparados

Saiba como OpenAI e Anthropic lideram o desenvolvimento de IA com abordagens únicas. Explore produtos como o ChatGPT e os modelos inovadores que elas oferecem.

Khalid Abdelaty

15 min

blog

ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA

Uma introdução amigável para iniciantes aos dois chatbots com tecnologia de IA sobre os quais todos estão falando.

Javier Canales Luna

14 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

blog

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.

Richie Cotton

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.

Richie Cotton

8 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Ver mais Ver mais

O que é o Sakana Fugu?

O que é o Claude Fable 5?

Sakana Fugu vs. Claude Fable 5: benchmarks

Sakana Fugu vs. Claude Fable 5: disponibilidade e acesso

Considerações finais

Sakana Fugu vs. Claude Fable: perguntas frequentes

Qual é mais barato?

O Fable 5 vai voltar?

O Fugu realmente contorna a suspensão do Fable 5?

Anthropic vs. OpenAI: Os Dois Gigantes da IA Comparados

ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Primeiros passos com o Claude 3 e a API do Claude 3

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}IA para Engenharia de Software

Software Development with Claude Code

Introduction to Agent Skills

Anthropic vs. OpenAI: Os Dois Gigantes da IA Comparados

ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Primeiros passos com o Claude 3 e a API do Claude 3

IA para Engenharia de Software