Curso
Workflows agentivos marcaram a primeira metade de 2026, especialmente em código: modelos que recebem um único prompt e levam a tarefa até o fim. A disputa agora corre em três eixos ao mesmo tempo: capacidade, velocidade e preço. Anthropic e Google fizeram apostas claramente diferentes.
Este artigo compara dois lançamentos recentes: o Gemini 3.5 Flash, do Google, anunciado no Google I/O, e o Claude Opus 4.8, da Anthropic, lançado em 28 de maio. Eles não jogam na mesma categoria. Um é um cavalo de batalha rápido e barato; o outro é um flagship premium. Justamente por isso vale a comparação: ela obriga a responder quando faz sentido pagar por capacidade bruta.
Aqui, eu comparo os dois em benchmarks, custo e velocidade e, na sequência, indico qual se encaixa melhor em cada trabalho. Você também pode conferir nossas análises completas no panorama do Gemini 3.5 Flash e no artigo sobre o Claude Opus 4.8.
Em poucas palavras
- O Opus 4.8 é o modelo mais capaz no geral. Ele lidera o Artificial Analysis Intelligence Index (61,4), o GDPval-AA (1.890 Elo) e o Humanity's Last Exam.
- O Gemini 3.5 Flash é muito mais barato e rápido: US$ 1,50/US$ 9 por milhão de tokens contra US$ 5/US$ 25 do Opus 4.8, e 192,2 tokens de saída por segundo contra 66,8.
- O Gemini 3.5 Flash aceita entrada multimodal (vídeo, áudio, PDF), enquanto o Opus 4.8 trabalha apenas com texto e imagem.
- Escolha o Opus 4.8 quando a qualidade da tarefa e o risco de alucinação tiverem custo real. Escolha o Gemini 3.5 Flash para pipelines de alto volume, multimodais e sensíveis a custo.
Aprimoramento de IA para iniciantes
O que é o Claude Opus 4.8?
O Claude Opus 4.8 é o modelo flagship da Anthropic e sucessor do Opus 4.7, criado para raciocínio complexo e coding agentivo de longo horizonte. Hoje ele lidera o Artificial Analysis Intelligence Index com 61,4 pontos.
Ele também lidera o ranking do GDPval-AA, que avalia modelos em tarefas do mundo real em várias ocupações, e o novo benchmark ITBench-AA, que testa como agentes diagnosticam a causa raiz de incidentes em Kubernetes a partir de snapshots salvos.
Principais recursos e capacidades
Os destaques técnicos:
- janela de contexto de 1M de tokens com até 128K tokens de saída
- pensamento adaptativo como único modo de thinking suportado
- um parâmetro de esforço que agora tem padrão alto em todos os lugares, incluindo o Claude Code
O Opus 4.8 também adiciona um fast mode, atualmente em pesquisa, que entrega até 2,5x mais tokens de saída por segundo a US$ 10/US$ 50 por milhão de tokens de entrada/saída. É o dobro do preço padrão do Opus 4.8, mas um terço do custo do fast mode no Opus 4.7.
A Messages API agora aceita entradas de sistema dentro do array de mensagens, então você pode atualizar as instruções do Claude no meio da tarefa sem reiniciar a conversa. Dá para enviar permissões, orçamentos de tokens ou contexto de ambiente sem quebrar o cache do prompt.
O tamanho mínimo de prompt em cache também cai para 1.024 tokens, abaixo de 4.096 no Opus 4.7, então prompts mais curtos agora podem ser armazenados em cache.
Em relação ao Opus 4.7, os ganhos aparecem em vários benchmarks, segundo a Artificial Analysis:
- Terminal-Bench Hard: +6,6 pontos
- τ²-Bench Telecom, que simula cenários de suporte técnico: +5,8 pontos
- IFBench, que mede obediência precisa a instruções: +3,6 pontos
Ele também lidera o Humanity's Last Exam, com 49,8% sem ferramentas e 57,9% com ferramentas.
Prós e contras
Para trabalho agentivo, o Opus 4.8 é a opção mais forte desta comparação. Ele é o primeiro no Artificial Analysis Agentic Index, que cobre tarefas como programação.
O custo é o porém. O preço segue igual ao do Opus 4.7: US$ 5/US$ 25 por milhão de tokens de entrada/saída, salgado para alto volume. Controles de amostragem ainda não existem: temperature, top_p e top_k geram erro se você configurar.
Introdução aos Modelos Claude
O que é o Gemini 3.5 Flash?
O Gemini 3.5 Flash é o modelo mais recente do Google, focado em velocidade com qualidade próxima ao estado da arte, como mostramos no nosso panorama do Gemini 3.5 Flash. Ele fez 76,2% no Terminal-Bench 2.1 e alcançou 1.656 Elo no GDPval-AA.
Principais recursos e capacidades
O Flash aceita texto, imagens, vídeo, áudio e PDFs como entrada, com suporte completo a níveis de thinking. O conjunto central de recursos:
- contexto de entrada de cerca de 1M de tokens (1.048.576 tokens) com limite de saída de 65.536 tokens
- Batch API e cache de prompts
- execução de código e function calling
- search grounding e saídas estruturadas
Em benchmarks, ele atinge 83,6% no MCP Atlas para coordenação agentiva multi-ferramenta e 84,2% no CharXiv Reasoning para entendimento multimodal. Fica em 7º no Artificial Analysis Intelligence Index, o que é forte para um modelo da linha Flash, e em 6º no Agentic Index, perto do Opus 4.7.
O Gemini 3.5 Flash também oferece suporte nativo ao framework multiagente Antigravity. A interface do Antigravity foi retrabalhada nesta versão para lembrar os apps OpenAI Codex e Cursor.
Prós e contras
A proposta do Flash é inteligência por dólar: nota 55 no Artificial Analysis Intelligence Index a US$ 1,50 por milhão de tokens de entrada e US$ 9 por milhão de saída — desempenho incomum para esse preço.
Outro diferencial é a entrada multimodal nativa, incluindo vídeo e áudio. O sistema de thinking em quatro níveis (mínimo, baixo, médio, alto) também oferece controle de custo e performance mais fino do que o esforço único do Opus 4.8.
O destaque, porém, é o uso agentivo de ferramentas. O Flash faz 83,6% no MCP Atlas, o melhor resultado de coordenação multi-ferramenta nesta comparação e à frente até do Opus 4.8, com 82,2%. Um modelo da linha Flash superar o novo flagship da Anthropic nesse benchmark é o tipo de resultado que normalmente não rompe linhas de tier.
Dois poréns se destacam. No Intelligence Index, o Flash gerou 73M de tokens contra uma média de 35M — ele é verboso, e essa verbosidade pesa na cobrança de saída. O tempo até o primeiro token é 18,88 segundos, alto para a categoria, em que modelos comparáveis ficam perto de dois segundos.
Para ver como o Flash se compara ao flagship da OpenAI, colocamos lado a lado no nosso artigo Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash: comparação direta
Aqui vai um resumo rápido antes de entrar categoria por categoria.
| Propriedade | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Lançamento | 28 de maio de 2026 | 19 de maio de 2026 |
| Janela de contexto | 1M tokens | 1M tokens |
| Máx. de tokens de saída | 128K | 65.536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1.890 | 1.656 |
| Velocidade de saída | 66,8 tokens/s | 192,2 tokens/s |
| Modalidades de entrada | Texto, imagem | Texto, imagem, vídeo, áudio, PDF |
| Preço de entrada | US$ 5 / 1M tokens | US$ 1,50 / 1M tokens |
| Preço de saída | US$ 25 / 1M tokens | US$ 9 / 1M tokens |
| Modos de thinking | Somente adaptativo | Mínimo / baixo / médio / alto |
Desempenho agentivo e em código
O Opus 4.8 é o agente mais forte, mas o Flash chega mais perto do que seu tier sugere. O Opus 4.8 lidera o GDPval-AA com 1.890 Elo contra 1.656 do Flash, então ele é melhor em trabalho de conhecimento.
O MCP Atlas é a surpresa. O Flash faz 83,6% nesse benchmark de coordenação multi-ferramenta, superando os 82,2% do Opus 4.8. Um modelo Flash vencer o novo flagship da Anthropic em uso agentivo de ferramentas é realmente inesperado — e é o argumento mais claro a favor do Flash nesta comparação.
No SWE-bench Pro, o resultado inverte. O benchmark testa modelos resolvendo tickets reais de engenharia de software, e o Opus 4.8 marca 69,2%, atrás apenas do Mythos Preview interno da Anthropic. O Flash faz 55,0%, atrás do Opus na diferença esperada entre tiers, mas ainda assim relevante: supera os 54,2% do Gemini 3.1 Pro — este Flash alcançou o nível Pro da geração passada.
No Terminal-Bench Hard, o Opus 4.8 faz 58,3% contra 40,9% do Flash, o que o torna a melhor escolha para engenharia de software em terminal, administração de sistemas e processamento de dados. O Flash ganha espaço quando você roda loops de código em paralelo, e velocidade e custo pesam mais do que acurácia máxima.
Raciocínio e tarefas científicas
O Opus 4.8 está claramente à frente em raciocínio acadêmico. Ele faz 57,9% no Humanity's Last Exam contra 40,25% do Flash, o que favorece matemática, ciências e humanidades.
Suporte a entrada multimodal
Aqui o Flash vence com folga. O Opus 4.8 lê texto e imagens; o Flash também lê vídeo, áudio e PDFs. Se o seu pipeline toca nesses formatos, entre os dois, só o Flash dá conta.
Velocidade e latência
O Flash é cerca de três vezes mais rápido na saída. A Artificial Analysis mede 192,2 tokens de saída por segundo contra 66,8 do Opus 4.8.
Custo e eficiência de tokens
Tokens de saída são onde o gap dói: US$ 25 por milhão no Opus 4.8 contra US$ 9 no Flash — o Opus sai cerca de 2,8 vezes mais caro. Em pipelines de alto volume, essa diferença escala rápido.
Janela de contexto e capacidade de saída
Ambos aceitam 1M de tokens de entrada, então a diferença está na saída. O Opus 4.8 gera até 128K tokens em um passe contra 65.536 do Flash — quase o dobro. Para síntese de código longo, geração de documentos extensos ou loops agentivos que emitem saídas grandes de uma vez, essa folga faz diferença.
Qual modelo escolher?
A decisão é se você paga por capacidade ou por throughput. Eu dividiria assim:
Escolha o Claude Opus 4.8 se…
- A qualidade da entrega tem consequência direta. Seus 1.890 Elo no GDPval-AA e a taxa de alucinação menor que a dos modelos do Google e da OpenAI no AA-Omniscience o tornam a escolha mais segura para trabalho de alta precisão.
- Você precisa de 128K tokens de saída para geração grande em um único passe — quase o dobro dos 65.536 do Flash.
- Você já está no ecossistema da Anthropic via Claude Code ou API, e a troca é custosa.
- Seus loops agentivos são longos a ponto de mensagens de sistema no meio da conversa fazerem diferença, já que a Messages API agora atualiza permissões, orçamento de tokens ou contexto no meio da tarefa sem quebrar o cache do prompt.
Escolha o Gemini 3.5 Flash se…
- Seu pipeline ingere vídeo, áudio ou PDFs.
- Você precisa de volume de saída, em que US$ 9 contra US$ 25 por milhão de tokens muda a conta.
- Você quer a melhor coordenação multi-ferramenta, já que o Flash lidera o MCP Atlas com 83,6%, à frente até do Opus 4.8 (82,2%).
- Você está construindo na infraestrutura Google via Antigravity ou Vertex AI e quer um único fornecedor.
- Controle de custos em nível fino é importante, e os quatro níveis de thinking do Flash superam o esforço único do Opus 4.8.
O que vem por aí para o Flash e os modelos flagship
Este Flash está bem mais caro do que versões anteriores do Flash, e o Google foi criticado por isso. O gap de inteligência entre os tiers Flash e Opus continua significativo, o que enfraquece o argumento de pagar preço quase de flagship por um modelo Flash. A corrida mais interessante é por um modelo pequeno que seja realmente bom em código e trabalho agentivo, mantendo um preço tão baixo quanto o Composer 2.5 do Cursor.
O fast mode da Anthropic é o que vale acompanhar para coding agentivo, mas o preço deve segurá-lo. A US$ 10/US$ 50, é uma proposta difícil para devs rodando loops longos — a adoção depende de a Anthropic repensar esse número.
A Anthropic segue focada em código, então é improvável que persiga o Google em entrada de vídeo e áudio tão cedo. Isso abre espaço para o Google — mas só se ele entregar um Flash ou um flagship que supere o Opus em tarefas agentivas. Até agora, não aconteceu.
Considerações finais
Se qualidade de tarefa e risco de alucinação têm custo real — em finanças ou saúde, por exemplo — o Opus 4.8 é o modelo para buscar. Se você otimiza para throughput, custo ou entrada multimodal, o Gemini 3.5 Flash é o melhor encaixe.
Minha leitura: eles não competem pelo mesmo trabalho — e a maioria dos times saberá de que lado está depois de uma frase descrevendo sua carga. A questão mais difícil é se o Google consegue fechar o gap de capacidade sem abrir mão da vantagem de preço que torna o Flash tão atraente. O Google já roda internamente o Gemini 3.5 Pro, e é esse lançamento, não o Flash, que tem mais chance de pressionar de verdade o Opus 4.8.
Se você quer afiar as habilidades que tornam assistentes de IA mais confiáveis no seu fluxo, eu começaria pelo nosso curso AI-Assisted Coding for Developers. E, para construir aplicações de LLM com prompts, chains e agents, nosso curso Developing LLM Applications with LangChain é um próximo passo sólido.
Claude Opus 4.8 vs Gemini 3.5 Flash: perguntas frequentes
O Claude Opus 4.8 é melhor que o Gemini 3.5 Flash no geral?
Em benchmarks de inteligência geral, sim. O Opus 4.8 marca 61,4 no Artificial Analysis Intelligence Index contra 55 do Flash. Mas melhor depende do caso de uso. O Flash é mais rápido, mais barato e aceita entradas em vídeo, áudio e PDF que o Opus 4.8 não suporta.
Quais formatos de entrada o Gemini 3.5 Flash suporta?
O Gemini 3.5 Flash aceita entradas em texto, imagem, vídeo, áudio e PDF. O Claude Opus 4.8 aceita apenas texto e imagem.
Como os preços se comparam entre os dois modelos?
O Claude Opus 4.8 custa US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. O Gemini 3.5 Flash custa US$ 1,50 por milhão de entrada e US$ 9 por milhão de saída. Em cache hit, o preço é US$ 0,50 por milhão no Opus 4.8 e US$ 0,15 por milhão no Flash.
O que é o GDPval-AA e por que ele importa no contexto do Opus 4.8 e do Gemini 3.5 Flash?
O GDPval-AA é o principal benchmark da Artificial Analysis para desempenho agentivo em tarefas reais de trabalho do conhecimento, pontuado em Elo. O Opus 4.8 lidera com 1.890 Elo contra 1.656 do Flash. Ele é mais útil do que benchmarks tradicionais para avaliar modelos em contextos agentivos de produção.
Qual modelo tem a maior janela de saída?
O Claude Opus 4.8 suporta até 128K tokens de saída, o dobro da janela de 65.536 tokens do Gemini 3.5 Flash. Para fluxos que geram documentos longos, arquivos de código grandes ou precisam de saídas extensas em um único passe, o Opus 4.8 é a melhor opção.
O Gemini 3.5 Flash suporta thinking?
Sim. O Flash tem quatro níveis de thinking: mínimo, baixo, médio e alto. O padrão é médio. O Claude Opus 4.8 usa apenas thinking adaptativo, sem suporte a orçamento de thinking estendido.



