Pular para o conteúdo principal

Sakana Fugu vs. Claude Fable 5: benchmarks, preços e mais

O Claude Fable 5 vence nos benchmarks, mas está suspenso. O Sakana Fugu está disponível agora e custa metade.
Atualizado 25 de jun. de 2026  · 6 min lido

A Sakana divulga o Fugu como equivalente ao Fable 5, mas exclui o Fable 5 da própria tabela de benchmarks. Então, vamos comparar os dois modelos lado a lado no máximo que for possível de fato.

Aqui vai o contexto. O governo dos EUA suspendeu o acesso público ao Claude Fable 5 pouco menos de três dias após o lançamento pela Anthropic. E o Fable 5 foi apresentado como seu modelo mais avançado. Agora, duas semanas depois, a Sakana AI, de Tóquio, lançou o Fugu com declarações ousadas. Uma em especial ganhou repercussão: a Sakana AI diz que o Fugu Ultra "fica ombro a ombro com modelos líderes como Fable 5 e Mythos Preview" nos benchmarks mais difíceis da indústria em engenharia, ciência e raciocínio — e sem risco de controle de exportação. O CEO David Ha disse no X que o Fugu prova que um pool intercambiável de agentes orquestrados pode alcançar modelos de fronteira restritos como o Fable.

As alegações são um pouco difíceis de verificar porque o Fable 5 não aparece na tabela de benchmarks do Fugu. A Sakana o exclui sob a justificativa de que ele não é publicamente acessível. Estamos fazendo o que dá: estamos conferindo os poucos benchmarks que aparecem nas tabelas publicadas por ambos os laboratórios com linhas de base equivalentes. E, para fechar, vamos falar de preços e da situação de acesso.

Se você quiser ver detalhes de cada sistema separadamente, temos posts sobre isso: confira nossa cobertura do Claude Fable 5 e o artigo sobre o Sakana Fugu.

O que é o Sakana Fugu?

O Sakana Fugu não é um único modelo treinado no sentido tradicional. É um orquestrador: um modelo que recebe seu pedido, decide se responde diretamente ou delega para modelos especialistas em um pool, gerencia verificação e síntese e retorna uma única resposta por uma API compatível com OpenAI. Por fora você chama um endpoint; por dentro, um conjunto coordenado de modelos de fronteira faz o trabalho.

Ele é oferecido em duas variantes. Fugu equilibra qualidade com baixa latência e é posicionado como o padrão do dia a dia para codificação, revisão e serviços interativos. Fugu Ultra coordena um pool mais amplo de agentes especialistas e é ajustado para máxima qualidade de resposta em problemas difíceis e de múltiplas etapas — reprodução de artigos, análise de cibersegurança, data science estilo Kaggle, investigações de patentes.

A proposta, na prática, são duas ideias.

  • Primeiro, orquestração aprendida: o coordenador é treinado para decidir quando delegar e como combinar saídas, em vez de rodar um pipeline codificado manualmente.
  • Segundo, um pool de agentes intercambiável: quando um novo modelo de fronteira fica publicamente disponível, a Sakana espera levar cerca de duas semanas para incorporá-lo. (Importante para o resto do artigo: o Fable 5 não está nesse pool porque não é publicamente acessível.)

O que é o Claude Fable 5?

O Claude Fable 5 é um modelo da classe Mythos, uma categoria que a Anthropic posiciona acima da classe Opus, tornado seguro para uso geral por meio de um conjunto de classificadores. É o mesmo modelo subjacente do Claude Mythos 5; a diferença é que o Fable 5 roda (rodava) com classificadores de segurança ativos, enquanto o Mythos 5 tem parte deles desativada e é restrito a parceiros do Project Glasswing e a alguns pesquisadores de biologia.

A Anthropic afirmava que o Fable 5 era o estado da arte em quase todos os benchmarks que acompanha, com vantagem maior em tarefas longas e complexas. O ponto prático principal: quando uma consulta toca em cibersegurança, biologia/química ou destilação de modelos, um classificador em duas etapas redireciona a resposta para o Claude Opus 4.8 e avisa o usuário sobre isso. 

Sakana Fugu vs. Claude Fable 5: benchmarks

A tabela comparativa publicada pela Sakana exclui o Fable 5 e o Mythos Preview, sob a justificativa de que não são publicamente acessíveis e, portanto, não podem estar no pool do Fugu. Assim, os números oficiais do Fugu são medidos contra o Opus 4.8, o GPT-5.5 e o Gemini 3.1 Pro, todos visíveis na tabela abaixo. É possível vê-lo vencer em 10 de 11 benchmarks. 

Benchmark Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* scaffolding mini-swe-agent. † linhas de base reportadas pelos provedores. Todas as pontuações do Fugu são reportadas pela Sakana e ainda não foram reproduzidas de forma independente.

Para colocar o Fable 5 na comparação, eu cruzei os benchmarks que aparecem tanto na tabela da Anthropic quanto na da Sakana e verifiquei se as linhas de base em comum batem. No SWE-Bench Pro e no Humanity's Last Exam (sem ferramentas), os números de Opus 4.8, GPT-5.5 e Gemini 3.1 Pro são idênticos nas duas fontes — então essas duas comparações são limpas. Reduzindo só aos dois sistemas, o cara a cara fica assim:

Benchmark Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Líder
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6,6)
Humanity's Last Exam (sem ferramentas) 47.2 50.0 59.0 Fable 5 (+9,0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5,9)

‡ Os dois laboratórios reportam linhas de base diferentes e usam scaffolds distintos no TerminalBench, então as condições não são idênticas.

Esses três são os únicos benchmarks que aparecem nas duas tabelas publicadas com linhas de base compatíveis, por isso o restante da comparação precisa ficar no qualitativo. O Fable 5 lidera os três.

Ou seja, em todo benchmark onde um confronto direto é viável, o Fable 5 fica à frente do Fugu Ultra por cerca de 6–9 pontos. Isso condiz com onde o Fable 5 foi criado para vencer: tarefas longas, avaliadas ao final, nas quais um único modelo mais forte acumula menos erros ao longo do processo.

Resumindo:

  1. Todos os números do Fugu são autorreportados e ainda não apareceram em rankings independentes.
  2. A Sakana descreve o Fugu como "ombro a ombro" com o Fable 5 e o Mythos Preview. Diante das diferenças acima, é uma leitura defensável, mas generosa. "Perto, porém atrás" é mais preciso.
  3. Os conjuntos de comparação se sobrepõem só parcialmente. O Fable 5 lidera em visão (ele consegue reconstruir o código-fonte de um app web a partir de capturas de tela), algo que o Fugu não enfatiza; o Fugu publica benchmarks de contexto longo e de banco que a tabela da Anthropic não cobre. Ou seja, eles estão otimizados para formatos de trabalho um pouco diferentes.

Sakana Fugu vs. Claude Fable 5: disponibilidade e acesso

O Claude Fable 5 está suspenso no momento. A Anthropic removeu o acesso ao Fable 5 e ao Mythos 5 em 12 de junho após uma diretriz de controle de exportação do governo dos EUA e afirma estar trabalhando para restabelecer o acesso o quanto antes. Os outros modelos da Anthropic, como o Opus 4.8, continuam disponíveis.

O Sakana Fugu está disponível agora em console.sakana.ai com uma API compatível com OpenAI — exceto na UE e no EEE, onde a Sakana pausou a disponibilidade enquanto trabalha a conformidade com o GDPR. Não consegui um prazo exato para isso.

Neste momento, uma equipe europeia pode acabar sem acesso a nenhum dos dois modelos.

Considerações finais

No papel, é um duelo real e equilibrado entre duas filosofias.

A Anthropic aposta em escala — um modelo classe Mythos tão capaz que precisa de um sistema paralelo de classificadores.

A Sakana aposta em coordenação — que um orquestrador treinado sobre um pool intercambiável consegue se manter perto de qualquer modelo de fronteira individual, sendo mais barato, mais resiliente e agnóstico ao provedor.

Os benchmarks, tomados ao pé da letra, indicam que a aposta da Anthropic gera o artefato mais forte nos testes comparáveis, enquanto a da Sakana gera o mais disponível e barato.


Josef Waples's photo
Author
Josef Waples

Sakana Fugu vs. Claude Fable: perguntas frequentes

O Sakana Fugu é melhor que o Claude Fable 5?

Nos benchmarks em que dá para comparar lado a lado (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), o Fable 5 supera o Fugu Ultra por cerca de 6–9 pontos. 

Por que o Fable 5 não está na tabela de benchmarks do Fugu?

A Sakana exclui o Fable 5 e o Mythos Preview porque eles não são publicamente acessíveis e, portanto, não podem fazer parte do pool de agentes do Fugu. A comparação oficial é contra Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, e o Fugu Ultra vence 10 de 11 benchmarks.

Qual é mais barato?

O Fugu Ultra, a US$ 5/M de entrada e US$ 30/M de saída, custa aproximadamente metade do Fable 5, que sai por US$ 10/M de entrada e US$ 50/M de saída. Ambos oferecem planos mensais de US$ 20/US$ 100/US$ 200.

O Fable 5 vai voltar?

A Anthropic diz que está trabalhando para restabelecer o acesso ao Fable 5 e ao Mythos 5 o mais rápido possível, mas não publicou um cronograma. Enquanto isso, os outros modelos — incluindo o Opus 4.8 — seguem disponíveis.

O Fugu realmente contorna a suspensão do Fable 5?

Não diretamente — o Fable 5 nunca esteve no pool do Fugu, então o Fugu não consegue reproduzir suas capacidades específicas.

Tópicos

Aprenda IA com a DataCamp

Programa

IA para Engenharia de Software

7 h
Escreva código e crie aplicativos de software mais rápido do que nunca com as mais recentes ferramentas de desenvolvimento de IA, incluindo GitHub Copilot, Windsurf e Replit.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Anthropic vs. OpenAI: Os Dois Gigantes da IA Comparados

Saiba como OpenAI e Anthropic lideram o desenvolvimento de IA com abordagens únicas. Explore produtos como o ChatGPT e os modelos inovadores que elas oferecem.
Khalid Abdelaty's photo

Khalid Abdelaty

15 min

blog

ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA

Uma introdução amigável para iniciantes aos dois chatbots com tecnologia de IA sobre os quais todos estão falando.
Javier Canales Luna's photo

Javier Canales Luna

14 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
Richie Cotton's photo

Richie Cotton

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Richie Cotton's photo

Richie Cotton

8 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

Ver maisVer mais