Curso
Se você está decidindo entre o Claude Fable 5 (que, aviso rápido, foi lançado há apenas dois dias) e o Gemini 3.5 Flash, na verdade está escolhendo entre duas filosofias diferentes do que um modelo de fronteira deve ser.
Claude Fable 5 é o teto de capacidade da Anthropic: o modelo mais forte disponível publicamente na maioria dos benchmarks, com preço compatível de US$10/US$50 por milhão de tokens, e envolto por um sistema de classificadores que pode redirecionar consultas sensíveis para outro modelo no meio da sessão.
Gemini 3.5 Flash é a aposta do Google no equilíbrio entre velocidade, custo e inteligência: um modelo da linha "Flash" que supera o próprio Gemini 3.1 Pro (maior) do Google em benchmarks de codificação e capacidades agentivas. Ele roda cerca de 4x mais rápido que modelos de fronteira comparáveis e custa US$1,50/US$9 por milhão de tokens — bem mais em conta.
Neste artigo, vou comparar os dois modelos em cinco dimensões:
- desempenho em código e tarefas agentivas
- velocidade e latência
- trabalho com contexto longo
- precificação
Se você está comparando o Fable 5 com o carro-chefe da OpenAI, temos um artigo separado: Claude Fable 5 vs GPT-5.5.
Mantemos nossos leitores por dentro do que importa em IA com a The Median, nossa newsletter gratuita de sexta-feira que resume as principais notícias da semana. Clique no link acima, assine e fique afiado dedicando só alguns minutos por semana.
O que é o Claude Fable 5?
O Claude Fable 5 é o primeiro modelo de classe Mythos da Anthropic disponível para uso geral. O Fable 5 compartilha o modelo subjacente com o Claude Mythos 5, mas chega com classificadores de segurança ativos: uma sonda monitora ativações internas em todo o tráfego e solicitações sinalizadas são escaladas para um classificador LLM treinado. Pedidos bloqueados são redirecionados para o Claude Opus 4.8.
O Fable 5 é state of the art em praticamente todos os benchmarks testados e é incrivelmente forte em engenharia de software, trabalho intelectual, visão e tarefas agentivas de longo horizonte. E mais: quanto mais longa e complexa a tarefa, maior a vantagem em relação aos modelos Claude anteriores.
O que é o Gemini 3.5 Flash?
O Gemini 3.5 Flash é o lançamento de maio do Google DeepMind, anunciado no Google I/O 2026 como o primeiro modelo da nova família Gemini 3.5. Apesar do selo "Flash", não é um modelo básico no sentido tradicional: ele supera o Gemini 3.1 Pro (maior) do próprio Google no conjunto de testes de código e tarefas agentivas, rodando cerca de 4x mais rápido que modelos de fronteira comparáveis.
O Gemini 3.5 Flash é um modelo de raciocínio com parâmetros de esforço de pensamento configuráveis (minimal, low, medium, high). (O padrão é medium, caso você esteja se perguntando.) O modelo suporta janela de contexto de 1 milhão de tokens, input multimodal (texto, imagem, áudio, vídeo, PDF) e gera saídas a aproximadamente 280+ tokens por segundo. No dia do lançamento, o Google o definiu como modelo padrão no app Gemini e no Modo IA da Busca. Esperamos o Gemini 3.5 Pro a qualquer momento.
Um ponto de atenção: o 3.5 Flash custa aproximadamente 3x o preço por token do seu antecessor, o Gemini 3 Flash (US$0,50/US$3,00). Então, ele é barato em relação aos carros-chefe, não em relação à própria linhagem. E como os tokens de pensamento são cobrados à taxa de saída, workloads com muito raciocínio em alto esforço podem custar mais do que o preço de vitrine sugere. Vale ficar atento.
Claude Fable 5 vs. Gemini 3.5 Flash: comparação direta
Aqui vai um resumo rápido antes dos detalhes. Montei duas tabelas: uma com os resultados dos benchmarks e outra com aspectos práticos como preço, velocidade e acesso.
Resultados de benchmark
| Benchmark | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| SWE-Bench Pro | 80.3% | 55.1% (Público) |
| Terminal-Bench 2.1 | 88.0%* | 76.2% |
| Humanity's Last Exam (com ferramentas) | 64.5% | Fica atrás do Gemini 3.1 Pro (não diretamente comparável) |
| OSWorld-Verified | 85.0% | Não publicado |
| MCP Atlas (coordenação multi-ferramenta) | Não publicado | 83.6% |
Como dá para ver, o Claude Fable 5 vence em todas as comparações diretas em que há dados simples para colocar os dois lado a lado.
Preço, velocidade e acesso
Mencionei antes: o preço é claramente melhor (bem melhor) no Gemini 3.5 Flash.
| Recurso | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| Preço de input na API (por 1M de tokens) | US$10 | US$1,50 |
| Preço de output na API (por 1M de tokens) | US$50 | US$9,00 |
| Preço de input em cache | — | US$0,15 por 1M (desconto de 90%) |
| Velocidade de saída | Latência padrão de modelos de fronteira | ~280+ tokens/s, ~4x mais rápido que pares de fronteira |
| Janela de contexto | Tarefas agentivas de múltiplos milhões de tokens alegadas; sem MRCR publicado em 512K+ | 1M de tokens (limite de 1.048.576 para input) |
| Disponibilidade geral | Limitada (créditos de uso exigidos após 22 de junho) | Sim (app Gemini, AI Studio, Antigravity, API, Modo IA na Busca) |
Desempenho em código e tarefas agentivas
Vale tratar o desempenho em código e trabalho agentivo separadamente, porque é aqui que o gap de capacidade é maior.
No SWE-Bench Pro, como você viu na primeira tabela, o Fable 5 marca 80,3% contra 55,1% do Gemini 3.5 Flash no conjunto público. É uma diferença de 25 pontos. Para engenharia em nível de repositório em bases de código complexas, isso faz diferença real. Provavelmente, o Fable 5 consegue resolver de forma autônoma issues reais no GitHub na maior parte do tempo — e não tenho certeza se dá para dizer o mesmo do Gemini 3.5 Flash.
Onde o Gemini 3.5 Flash compensa é em throughput agentivo, não em profundidade agentiva. O Flash é explicitamente otimizado para loops de execução paralelos, implantação de subagentes e iteração rápida. Seus 83,6% no MCP Atlas — um benchmark de coordenação multi-ferramenta em que supera os 75,3% do GPT-5.5 — sugerem um modelo feito para orquestrar muitas chamadas de ferramenta rápidas, em vez de sustentar uma única cadeia longa e profunda de raciocínio. O Google também relata ganhos relevantes de eficiência de tokens em cenários agentivos reais em relação às versões anteriores do Flash.
A forma certa de pensar: se seu agente precisa pensar fundo sobre um pequeno número de etapas difíceis (refactors complexos, mudanças de arquitetura, depuração cabeluda), o Fable 5 leva vantagem. Se seu agente precisa executar muitas etapas rápidas e moderadamente difíceis em paralelo (pipelines de raspagem e sumarização, orquestração multi-ferramenta, triagem em alto volume), a velocidade e o custo do Flash fazem todo sentido.
Velocidade e latência
O Gemini 3.5 Flash produz cerca de 280+ tokens por segundo — várias vezes mais rápido que os carros-chefe típicos de fronteira.
Já o Fable 5 não é posicionado como um modelo rápido. Ele é o modelo para quando a tarefa é difícil o suficiente para você aceitar esperar pela resposta.
Desempenho em contexto longo
O Gemini 3.5 Flash suporta cerca de 1 milhão de tokens de contexto de entrada, e a linha Gemini historicamente é forte em recuperação com contexto longo. No entanto, relatos indicam que o Flash fica atrás do próprio Gemini 3.1 Pro do Google no MRCR v2.
A Anthropic afirma que o Fable 5 se mantém focado ao longo de milhões de tokens em tarefas prolongadas e melhora as saídas usando suas próprias anotações. Mas a Anthropic não publicou pontuações ao estilo MRCR na faixa de 512K–1M, então não dá para fazer uma comparação direta.
Para revisão de documentos na casa de 1 milhão de tokens, nenhum dos modelos tem uma vantagem conclusiva publicada aqui. Se confiabilidade em contexto longo é sua variável mais importante, os 74,0% publicados do GPT-5.5 no MRCR v2 em 512K–1M chamam atenção.
Preços e disponibilidade
Há um abismo de preço. O Fable 5 custa US$10 por milhão de tokens de entrada e US$50 por milhão de tokens de saída. O Gemini 3.5 Flash custa, respectivamente, US$1,50 e US$9,00, e ainda tem input em cache a US$0,15 por milhão, um desconto de 90%. Em termos práticos, o Gemini 3.5 Flash é algo como seis a sete vezes mais barato em input e cinco a seis vezes mais barato em output.
Mas preço nunca é uma história tão simples: primeiro, saiba que o Flash é um modelo de raciocínio cujos tokens de pensamento são cobrados à taxa de saída, então workloads de raciocínio em alto esforço podem consumir bem mais tokens de saída do que o prompt sugere. Faça benchmark do seu próprio workload antes de assumir que o Flash será barato no seu caso. Além disso, quando os classificadores do Fable 5 redirecionam uma consulta, a cobrança é nas tarifas do Opus 4.8 (US$5/US$25), não nas do Fable 5. Embora isso provavelmente pese pouco no custo total.
Disponibilidade é outra assimetria. O Gemini 3.5 Flash ficou disponível de forma geral já no dia 1 em todo o app Gemini, Google AI Studio, Antigravity, API do Gemini e Modo IA na Busca. O acesso por assinatura ao Fable 5 tem um limite: assinantes Pro, Max, Team e Enterprise tiveram acesso gratuito apenas até 22 de junho de 2026, data que se aproxima, e depois disso serão necessários créditos de uso além da assinatura existente.
Quando escolher Claude Fable 5 vs Gemini 3.5 Flash
A decisão depende de duas variáveis:
- se suas tarefas são difíceis o bastante para exigir o teto do Fable 5
- se velocidade e custo por chamada dominam sua economia
| Caso de uso | Recomendado | Por quê |
|---|---|---|
| Engenharia de software em nível de repositório em bases de código complexas | Claude Fable 5 | 80,3% vs 55,1% no SWE-Bench Pro é um gap de 25 pontos que reflete diferenças reais de capacidade |
| Pipelines agentivos de alto volume e sensíveis à latência | Gemini 3.5 Flash | ~280+ tok/s de saída, execução paralela de subagentes e custos de token 5–7x menores se somam em milhares de chamadas |
| Produtos de consumo interativos e UX de chat | Gemini 3.5 Flash | A vantagem de velocidade de 4x vira um diferencial de produto; a latência e o preço do Fable 5 não cabem em uso de consumo de alta frequência |
| Finanças complexas e trabalho intelectual | Claude Fable 5 | Lidera o Finance Benchmark da Hebbia e o Humanity's Last Exam com ferramentas (64,5%) |
| Orquestração multi-ferramenta entre muitos serviços | Gemini 3.5 Flash | 83,6% no MCP Atlas é a pontuação publicada mais forte de coordenação multi-ferramenta entre modelos de fronteira |
| Pipelines multimodais (vídeo, áudio, input em PDF) | Gemini 3.5 Flash | Input multimodal nativo em texto, imagem, áudio, vídeo e PDF |
| Setores regulados que exigem zero retenção de dados | Gemini 3.5 Flash | A retenção obrigatória de 30 dias do Fable 5 é um bloqueio para algumas empresas |
Escolha o Claude Fable 5 se...
- Seu principal caso de uso é engenharia de software em nível de repositório
- Você precisa do teto mais alto disponível para trabalho analítico complexo — finanças, raciocínio multidisciplinar, tarefas agentivas de longo horizonte — e a latência é secundária.
- Seu trabalho não é adjacente a cibersegurança, biologia ou química, então redirecionamentos do classificador são improváveis.
Escolha o Gemini 3.5 Flash se...
- Sua economia é movida por volume: milhares de chamadas por dia em que a diferença de custo se multiplica em ordens de grandeza de gasto.
- Velocidade é requisito de produto — UX interativa, agentes em tempo real ou pipelines em que o tempo total de execução entre muitas chamadas de ferramenta importa mais que a profundidade de cada etapa.
- Você precisa de input multimodal amplo (vídeo, áudio, PDF) em um único modelo.
- A política de dados da sua empresa não comporta a retenção obrigatória de 30 dias do Fable 5, ou você precisa de um modelo que não troque silenciosamente no meio do pipeline.
Considerações finais
Não é exatamente uma comparação maçã com maçã. Fable 5 e Gemini 3.5 Flash ocupam posições diferentes no mercado: um é o teto de capacidade, com certa fricção; o outro é a fronteira da eficiência, com um teto mais baixo.
Se capacidade bruta em tarefas difíceis é sua única variável, o Fable 5 vence com folga. Mas a proposta de valor do Flash não é "quase tão bom por menos". Não quero subestimar: é inteligência próxima da fronteira, entregue rápida e barato o suficiente para usar em lugares onde o Fable 5 nunca foi economicamente viável.
