Programa
A Sakana divulga o Fugu como equivalente ao Fable 5, mas exclui o Fable 5 da própria tabela de benchmarks. Então, vamos comparar os dois modelos lado a lado no máximo que for possível de fato.
Aqui vai o contexto. O governo dos EUA suspendeu o acesso público ao Claude Fable 5 pouco menos de três dias após o lançamento pela Anthropic. E o Fable 5 foi apresentado como seu modelo mais avançado. Agora, duas semanas depois, a Sakana AI, de Tóquio, lançou o Fugu com declarações ousadas. Uma em especial ganhou repercussão: a Sakana AI diz que o Fugu Ultra "fica ombro a ombro com modelos líderes como Fable 5 e Mythos Preview" nos benchmarks mais difíceis da indústria em engenharia, ciência e raciocínio — e sem risco de controle de exportação. O CEO David Ha disse no X que o Fugu prova que um pool intercambiável de agentes orquestrados pode alcançar modelos de fronteira restritos como o Fable.
As alegações são um pouco difíceis de verificar porque o Fable 5 não aparece na tabela de benchmarks do Fugu. A Sakana o exclui sob a justificativa de que ele não é publicamente acessível. Estamos fazendo o que dá: estamos conferindo os poucos benchmarks que aparecem nas tabelas publicadas por ambos os laboratórios com linhas de base equivalentes. E, para fechar, vamos falar de preços e da situação de acesso.
Se você quiser ver detalhes de cada sistema separadamente, temos posts sobre isso: confira nossa cobertura do Claude Fable 5 e o artigo sobre o Sakana Fugu.
O que é o Sakana Fugu?
O Sakana Fugu não é um único modelo treinado no sentido tradicional. É um orquestrador: um modelo que recebe seu pedido, decide se responde diretamente ou delega para modelos especialistas em um pool, gerencia verificação e síntese e retorna uma única resposta por uma API compatível com OpenAI. Por fora você chama um endpoint; por dentro, um conjunto coordenado de modelos de fronteira faz o trabalho.
Ele é oferecido em duas variantes. Fugu equilibra qualidade com baixa latência e é posicionado como o padrão do dia a dia para codificação, revisão e serviços interativos. Fugu Ultra coordena um pool mais amplo de agentes especialistas e é ajustado para máxima qualidade de resposta em problemas difíceis e de múltiplas etapas — reprodução de artigos, análise de cibersegurança, data science estilo Kaggle, investigações de patentes.
A proposta, na prática, são duas ideias.
- Primeiro, orquestração aprendida: o coordenador é treinado para decidir quando delegar e como combinar saídas, em vez de rodar um pipeline codificado manualmente.
- Segundo, um pool de agentes intercambiável: quando um novo modelo de fronteira fica publicamente disponível, a Sakana espera levar cerca de duas semanas para incorporá-lo. (Importante para o resto do artigo: o Fable 5 não está nesse pool porque não é publicamente acessível.)
O que é o Claude Fable 5?
O Claude Fable 5 é um modelo da classe Mythos, uma categoria que a Anthropic posiciona acima da classe Opus, tornado seguro para uso geral por meio de um conjunto de classificadores. É o mesmo modelo subjacente do Claude Mythos 5; a diferença é que o Fable 5 roda (rodava) com classificadores de segurança ativos, enquanto o Mythos 5 tem parte deles desativada e é restrito a parceiros do Project Glasswing e a alguns pesquisadores de biologia.
A Anthropic afirmava que o Fable 5 era o estado da arte em quase todos os benchmarks que acompanha, com vantagem maior em tarefas longas e complexas. O ponto prático principal: quando uma consulta toca em cibersegurança, biologia/química ou destilação de modelos, um classificador em duas etapas redireciona a resposta para o Claude Opus 4.8 e avisa o usuário sobre isso.
Sakana Fugu vs. Claude Fable 5: benchmarks
A tabela comparativa publicada pela Sakana exclui o Fable 5 e o Mythos Preview, sob a justificativa de que não são publicamente acessíveis e, portanto, não podem estar no pool do Fugu. Assim, os números oficiais do Fugu são medidos contra o Opus 4.8, o GPT-5.5 e o Gemini 3.1 Pro, todos visíveis na tabela abaixo. É possível vê-lo vencer em 10 de 11 benchmarks.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* scaffolding mini-swe-agent. † linhas de base reportadas pelos provedores. Todas as pontuações do Fugu são reportadas pela Sakana e ainda não foram reproduzidas de forma independente.
Para colocar o Fable 5 na comparação, eu cruzei os benchmarks que aparecem tanto na tabela da Anthropic quanto na da Sakana e verifiquei se as linhas de base em comum batem. No SWE-Bench Pro e no Humanity's Last Exam (sem ferramentas), os números de Opus 4.8, GPT-5.5 e Gemini 3.1 Pro são idênticos nas duas fontes — então essas duas comparações são limpas. Reduzindo só aos dois sistemas, o cara a cara fica assim:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Líder |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6,6) |
| Humanity's Last Exam (sem ferramentas) | 47.2 | 50.0 | 59.0 | Fable 5 (+9,0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5,9) |
‡ Os dois laboratórios reportam linhas de base diferentes e usam scaffolds distintos no TerminalBench, então as condições não são idênticas.
Esses três são os únicos benchmarks que aparecem nas duas tabelas publicadas com linhas de base compatíveis, por isso o restante da comparação precisa ficar no qualitativo. O Fable 5 lidera os três.
Ou seja, em todo benchmark onde um confronto direto é viável, o Fable 5 fica à frente do Fugu Ultra por cerca de 6–9 pontos. Isso condiz com onde o Fable 5 foi criado para vencer: tarefas longas, avaliadas ao final, nas quais um único modelo mais forte acumula menos erros ao longo do processo.
Resumindo:
- Todos os números do Fugu são autorreportados e ainda não apareceram em rankings independentes.
- A Sakana descreve o Fugu como "ombro a ombro" com o Fable 5 e o Mythos Preview. Diante das diferenças acima, é uma leitura defensável, mas generosa. "Perto, porém atrás" é mais preciso.
- Os conjuntos de comparação se sobrepõem só parcialmente. O Fable 5 lidera em visão (ele consegue reconstruir o código-fonte de um app web a partir de capturas de tela), algo que o Fugu não enfatiza; o Fugu publica benchmarks de contexto longo e de banco que a tabela da Anthropic não cobre. Ou seja, eles estão otimizados para formatos de trabalho um pouco diferentes.
Sakana Fugu vs. Claude Fable 5: disponibilidade e acesso
O Claude Fable 5 está suspenso no momento. A Anthropic removeu o acesso ao Fable 5 e ao Mythos 5 em 12 de junho após uma diretriz de controle de exportação do governo dos EUA e afirma estar trabalhando para restabelecer o acesso o quanto antes. Os outros modelos da Anthropic, como o Opus 4.8, continuam disponíveis.
O Sakana Fugu está disponível agora em console.sakana.ai com uma API compatível com OpenAI — exceto na UE e no EEE, onde a Sakana pausou a disponibilidade enquanto trabalha a conformidade com o GDPR. Não consegui um prazo exato para isso.
Neste momento, uma equipe europeia pode acabar sem acesso a nenhum dos dois modelos.
Considerações finais
No papel, é um duelo real e equilibrado entre duas filosofias.
A Anthropic aposta em escala — um modelo classe Mythos tão capaz que precisa de um sistema paralelo de classificadores.
A Sakana aposta em coordenação — que um orquestrador treinado sobre um pool intercambiável consegue se manter perto de qualquer modelo de fronteira individual, sendo mais barato, mais resiliente e agnóstico ao provedor.
Os benchmarks, tomados ao pé da letra, indicam que a aposta da Anthropic gera o artefato mais forte nos testes comparáveis, enquanto a da Sakana gera o mais disponível e barato.

Sakana Fugu vs. Claude Fable: perguntas frequentes
O Sakana Fugu é melhor que o Claude Fable 5?
Nos benchmarks em que dá para comparar lado a lado (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), o Fable 5 supera o Fugu Ultra por cerca de 6–9 pontos.
Por que o Fable 5 não está na tabela de benchmarks do Fugu?
A Sakana exclui o Fable 5 e o Mythos Preview porque eles não são publicamente acessíveis e, portanto, não podem fazer parte do pool de agentes do Fugu. A comparação oficial é contra Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, e o Fugu Ultra vence 10 de 11 benchmarks.
Qual é mais barato?
O Fugu Ultra, a US$ 5/M de entrada e US$ 30/M de saída, custa aproximadamente metade do Fable 5, que sai por US$ 10/M de entrada e US$ 50/M de saída. Ambos oferecem planos mensais de US$ 20/US$ 100/US$ 200.
O Fable 5 vai voltar?
A Anthropic diz que está trabalhando para restabelecer o acesso ao Fable 5 e ao Mythos 5 o mais rápido possível, mas não publicou um cronograma. Enquanto isso, os outros modelos — incluindo o Opus 4.8 — seguem disponíveis.
O Fugu realmente contorna a suspensão do Fable 5?
Não diretamente — o Fable 5 nunca esteve no pool do Fugu, então o Fugu não consegue reproduzir suas capacidades específicas.


