Pular para o conteúdo principal

Claude Fable 5 vs. Gemini 3.5 Flash: benchmarks, preços e mais

O Claude Fable 5 domina em capacidade bruta, enquanto o Gemini 3.5 Flash entrega desempenho próximo ao de fronteira por uma fração do custo e várias vezes mais rápido. Continue lendo para saber mais.
Atualizado 11 de jun. de 2026  · 9 min lido

Se você está decidindo entre o Claude Fable 5 (que, aviso rápido, foi lançado há apenas dois dias) e o Gemini 3.5 Flash, na verdade está escolhendo entre duas filosofias diferentes do que um modelo de fronteira deve ser.

Claude Fable 5 é o teto de capacidade da Anthropic: o modelo mais forte disponível publicamente na maioria dos benchmarks, com preço compatível de US$10/US$50 por milhão de tokens, e envolto por um sistema de classificadores que pode redirecionar consultas sensíveis para outro modelo no meio da sessão.

Gemini 3.5 Flash é a aposta do Google no equilíbrio entre velocidade, custo e inteligência: um modelo da linha "Flash" que supera o próprio Gemini 3.1 Pro (maior) do Google em benchmarks de codificação e capacidades agentivas. Ele roda cerca de 4x mais rápido que modelos de fronteira comparáveis e custa US$1,50/US$9 por milhão de tokens — bem mais em conta.

Neste artigo, vou comparar os dois modelos em cinco dimensões:

  • desempenho em código e tarefas agentivas
  • velocidade e latência
  • trabalho com contexto longo
  • precificação

Se você está comparando o Fable 5 com o carro-chefe da OpenAI, temos um artigo separado: Claude Fable 5 vs GPT-5.5.

Mantemos nossos leitores por dentro do que importa em IA com a The Median, nossa newsletter gratuita de sexta-feira que resume as principais notícias da semana. Clique no link acima, assine e fique afiado dedicando só alguns minutos por semana.

O que é o Claude Fable 5?

O Claude Fable 5 é o primeiro modelo de classe Mythos da Anthropic disponível para uso geral. O Fable 5 compartilha o modelo subjacente com o Claude Mythos 5, mas chega com classificadores de segurança ativos: uma sonda monitora ativações internas em todo o tráfego e solicitações sinalizadas são escaladas para um classificador LLM treinado. Pedidos bloqueados são redirecionados para o Claude Opus 4.8.

O Fable 5 é state of the art em praticamente todos os benchmarks testados e é incrivelmente forte em engenharia de software, trabalho intelectual, visão e tarefas agentivas de longo horizonte. E mais: quanto mais longa e complexa a tarefa, maior a vantagem em relação aos modelos Claude anteriores. 

O que é o Gemini 3.5 Flash?

O Gemini 3.5 Flash é o lançamento de maio do Google DeepMind, anunciado no Google I/O 2026 como o primeiro modelo da nova família Gemini 3.5. Apesar do selo "Flash", não é um modelo básico no sentido tradicional: ele supera o Gemini 3.1 Pro (maior) do próprio Google no conjunto de testes de código e tarefas agentivas, rodando cerca de 4x mais rápido que modelos de fronteira comparáveis.

O Gemini 3.5 Flash é um modelo de raciocínio com parâmetros de esforço de pensamento configuráveis (minimal, low, medium, high). (O padrão é medium, caso você esteja se perguntando.) O modelo suporta janela de contexto de 1 milhão de tokens, input multimodal (texto, imagem, áudio, vídeo, PDF) e gera saídas a aproximadamente 280+ tokens por segundo. No dia do lançamento, o Google o definiu como modelo padrão no app Gemini e no Modo IA da Busca. Esperamos o Gemini 3.5 Pro a qualquer momento.

Um ponto de atenção: o 3.5 Flash custa aproximadamente 3x o preço por token do seu antecessor, o Gemini 3 Flash (US$0,50/US$3,00). Então, ele é barato em relação aos carros-chefe, não em relação à própria linhagem. E como os tokens de pensamento são cobrados à taxa de saída, workloads com muito raciocínio em alto esforço podem custar mais do que o preço de vitrine sugere. Vale ficar atento.

Claude Fable 5 vs. Gemini 3.5 Flash: comparação direta

Aqui vai um resumo rápido antes dos detalhes. Montei duas tabelas: uma com os resultados dos benchmarks e outra com aspectos práticos como preço, velocidade e acesso.

Resultados de benchmark

Benchmark Claude Fable 5 Gemini 3.5 Flash
SWE-Bench Pro 80.3% 55.1% (Público)
Terminal-Bench 2.1 88.0%* 76.2%
Humanity's Last Exam (com ferramentas) 64.5% Fica atrás do Gemini 3.1 Pro (não diretamente comparável)
OSWorld-Verified 85.0% Não publicado
MCP Atlas (coordenação multi-ferramenta) Não publicado 83.6%

Como dá para ver, o Claude Fable 5 vence em todas as comparações diretas em que há dados simples para colocar os dois lado a lado.

Preço, velocidade e acesso

Mencionei antes: o preço é claramente melhor (bem melhor) no Gemini 3.5 Flash.

Recurso Claude Fable 5 Gemini 3.5 Flash
Preço de input na API (por 1M de tokens) US$10 US$1,50
Preço de output na API (por 1M de tokens) US$50 US$9,00
Preço de input em cache US$0,15 por 1M (desconto de 90%)
Velocidade de saída Latência padrão de modelos de fronteira ~280+ tokens/s, ~4x mais rápido que pares de fronteira
Janela de contexto Tarefas agentivas de múltiplos milhões de tokens alegadas; sem MRCR publicado em 512K+ 1M de tokens (limite de 1.048.576 para input)
Disponibilidade geral Limitada (créditos de uso exigidos após 22 de junho) Sim (app Gemini, AI Studio, Antigravity, API, Modo IA na Busca)

Desempenho em código e tarefas agentivas

Vale tratar o desempenho em código e trabalho agentivo separadamente, porque é aqui que o gap de capacidade é maior.

No SWE-Bench Pro, como você viu na primeira tabela, o Fable 5 marca 80,3% contra 55,1% do Gemini 3.5 Flash no conjunto público. É uma diferença de 25 pontos. Para engenharia em nível de repositório em bases de código complexas, isso faz diferença real. Provavelmente, o Fable 5 consegue resolver de forma autônoma issues reais no GitHub na maior parte do tempo — e não tenho certeza se dá para dizer o mesmo do Gemini 3.5 Flash.

Onde o Gemini 3.5 Flash compensa é em throughput agentivo, não em profundidade agentiva. O Flash é explicitamente otimizado para loops de execução paralelos, implantação de subagentes e iteração rápida. Seus 83,6% no MCP Atlas — um benchmark de coordenação multi-ferramenta em que supera os 75,3% do GPT-5.5 — sugerem um modelo feito para orquestrar muitas chamadas de ferramenta rápidas, em vez de sustentar uma única cadeia longa e profunda de raciocínio. O Google também relata ganhos relevantes de eficiência de tokens em cenários agentivos reais em relação às versões anteriores do Flash.

A forma certa de pensar: se seu agente precisa pensar fundo sobre um pequeno número de etapas difíceis (refactors complexos, mudanças de arquitetura, depuração cabeluda), o Fable 5 leva vantagem. Se seu agente precisa executar muitas etapas rápidas e moderadamente difíceis em paralelo (pipelines de raspagem e sumarização, orquestração multi-ferramenta, triagem em alto volume), a velocidade e o custo do Flash fazem todo sentido.

Velocidade e latência

O Gemini 3.5 Flash produz cerca de 280+ tokens por segundo — várias vezes mais rápido que os carros-chefe típicos de fronteira. 

Já o Fable 5 não é posicionado como um modelo rápido. Ele é o modelo para quando a tarefa é difícil o suficiente para você aceitar esperar pela resposta.

Desempenho em contexto longo

O Gemini 3.5 Flash suporta cerca de 1 milhão de tokens de contexto de entrada, e a linha Gemini historicamente é forte em recuperação com contexto longo. No entanto, relatos indicam que o Flash fica atrás do próprio Gemini 3.1 Pro do Google no MRCR v2.

A Anthropic afirma que o Fable 5 se mantém focado ao longo de milhões de tokens em tarefas prolongadas e melhora as saídas usando suas próprias anotações. Mas a Anthropic não publicou pontuações ao estilo MRCR na faixa de 512K–1M, então não dá para fazer uma comparação direta.

Para revisão de documentos na casa de 1 milhão de tokens, nenhum dos modelos tem uma vantagem conclusiva publicada aqui. Se confiabilidade em contexto longo é sua variável mais importante, os 74,0% publicados do GPT-5.5 no MRCR v2 em 512K–1M chamam atenção.

Preços e disponibilidade

Há um abismo de preço. O Fable 5 custa US$10 por milhão de tokens de entrada e US$50 por milhão de tokens de saída. O Gemini 3.5 Flash custa, respectivamente, US$1,50 e US$9,00, e ainda tem input em cache a US$0,15 por milhão, um desconto de 90%. Em termos práticos, o Gemini 3.5 Flash é algo como seis a sete vezes mais barato em input e cinco a seis vezes mais barato em output.

Mas preço nunca é uma história tão simples: primeiro, saiba que o Flash é um modelo de raciocínio cujos tokens de pensamento são cobrados à taxa de saída, então workloads de raciocínio em alto esforço podem consumir bem mais tokens de saída do que o prompt sugere. Faça benchmark do seu próprio workload antes de assumir que o Flash será barato no seu caso. Além disso, quando os classificadores do Fable 5 redirecionam uma consulta, a cobrança é nas tarifas do Opus 4.8 (US$5/US$25), não nas do Fable 5. Embora isso provavelmente pese pouco no custo total.

Disponibilidade é outra assimetria. O Gemini 3.5 Flash ficou disponível de forma geral já no dia 1 em todo o app Gemini, Google AI Studio, Antigravity, API do Gemini e Modo IA na Busca. O acesso por assinatura ao Fable 5 tem um limite: assinantes Pro, Max, Team e Enterprise tiveram acesso gratuito apenas até 22 de junho de 2026, data que se aproxima, e depois disso serão necessários créditos de uso além da assinatura existente.

Quando escolher Claude Fable 5 vs Gemini 3.5 Flash

A decisão depende de duas variáveis:

  • se suas tarefas são difíceis o bastante para exigir o teto do Fable 5
  • se velocidade e custo por chamada dominam sua economia
Caso de uso Recomendado Por quê
Engenharia de software em nível de repositório em bases de código complexas Claude Fable 5 80,3% vs 55,1% no SWE-Bench Pro é um gap de 25 pontos que reflete diferenças reais de capacidade
Pipelines agentivos de alto volume e sensíveis à latência Gemini 3.5 Flash ~280+ tok/s de saída, execução paralela de subagentes e custos de token 5–7x menores se somam em milhares de chamadas
Produtos de consumo interativos e UX de chat Gemini 3.5 Flash A vantagem de velocidade de 4x vira um diferencial de produto; a latência e o preço do Fable 5 não cabem em uso de consumo de alta frequência
Finanças complexas e trabalho intelectual Claude Fable 5 Lidera o Finance Benchmark da Hebbia e o Humanity's Last Exam com ferramentas (64,5%)
Orquestração multi-ferramenta entre muitos serviços Gemini 3.5 Flash 83,6% no MCP Atlas é a pontuação publicada mais forte de coordenação multi-ferramenta entre modelos de fronteira
Pipelines multimodais (vídeo, áudio, input em PDF) Gemini 3.5 Flash Input multimodal nativo em texto, imagem, áudio, vídeo e PDF
Setores regulados que exigem zero retenção de dados Gemini 3.5 Flash A retenção obrigatória de 30 dias do Fable 5 é um bloqueio para algumas empresas

Escolha o Claude Fable 5 se...

  • Seu principal caso de uso é engenharia de software em nível de repositório
  • Você precisa do teto mais alto disponível para trabalho analítico complexo — finanças, raciocínio multidisciplinar, tarefas agentivas de longo horizonte — e a latência é secundária.
  • Seu trabalho não é adjacente a cibersegurança, biologia ou química, então redirecionamentos do classificador são improváveis.

Escolha o Gemini 3.5 Flash se...

  • Sua economia é movida por volume: milhares de chamadas por dia em que a diferença de custo se multiplica em ordens de grandeza de gasto.
  • Velocidade é requisito de produto — UX interativa, agentes em tempo real ou pipelines em que o tempo total de execução entre muitas chamadas de ferramenta importa mais que a profundidade de cada etapa.
  • Você precisa de input multimodal amplo (vídeo, áudio, PDF) em um único modelo.
  • A política de dados da sua empresa não comporta a retenção obrigatória de 30 dias do Fable 5, ou você precisa de um modelo que não troque silenciosamente no meio do pipeline.

Considerações finais

Não é exatamente uma comparação maçã com maçã. Fable 5 e Gemini 3.5 Flash ocupam posições diferentes no mercado: um é o teto de capacidade, com certa fricção; o outro é a fronteira da eficiência, com um teto mais baixo.

Se capacidade bruta em tarefas difíceis é sua única variável, o Fable 5 vence com folga. Mas a proposta de valor do Flash não é "quase tão bom por menos". Não quero subestimar: é inteligência próxima da fronteira, entregue rápida e barato o suficiente para usar em lugares onde o Fable 5 nunca foi economicamente viável.


Josef Waples's photo
Author
Josef Waples
Tópicos

Aprenda com a DataCamp

Curso

Conceitos de Grandes Modelos de Linguagem (LLMs)

2 h
98.9K
Descubra o potencial dos LLMs com nosso curso sobre aplicações, treinamento, ética e pesquisas recentes.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow