Cours
Les workflows agentiques ont marqué la première moitié de 2026, notamment en code : des modèles qui prennent un seul prompt et mènent la tâche jusqu’au bout. La compétition se joue désormais sur trois axes simultanés : capacité, vitesse et prix. Anthropic et Google ont fait des paris nettement différents.
Cet article compare deux sorties récentes : Gemini 3.5 Flash de Google, annoncé lors de Google I/O, et Claude Opus 4.8 d’Anthropic, publié le 28 mai. Ils ne jouent pas dans la même catégorie. L’un est un « cheval de bataille » rapide et économique ; l’autre est un fleuron haut de gamme. C’est précisément cet écart qui rend la confrontation intéressante, car il oblige à se demander quand la performance brute justifie un prix plus élevé.
Dans cet article, je compare les deux modèles sur les benchmarks, le coût et la vitesse, puis j’indique lequel convient à quel usage. Consultez aussi nos analyses détaillées : la présentation de Gemini 3.5 Flash et notre décryptage de Claude Opus 4.8.
En bref
- Opus 4.8 est globalement le modèle le plus capable. Il mène l’Artificial Analysis Intelligence Index (61,4), le GDPval-AA (1 890 Elo) et Humanity’s Last Exam.
- Gemini 3.5 Flash est bien moins cher et plus rapide : 1,50 $ / 9 $ par million de tokens contre 5 $ / 25 $ pour Opus 4.8, et 192,2 tokens de sortie par seconde contre 66,8.
- Gemini 3.5 Flash accepte des entrées multimodales (vidéo, audio, PDF), tandis qu’Opus 4.8 gère uniquement le texte et l’image.
- Choisissez Opus 4.8 quand la qualité de la tâche et le risque d’hallucination ont un coût réel. Choisissez Gemini 3.5 Flash pour des pipelines volumineux, multimodaux et sensibles aux coûts.
L'amélioration de l'IA pour les débutants
Qu’est-ce que Claude Opus 4.8 ?
Claude Opus 4.8 est le modèle phare d’Anthropic et le successeur d’Opus 4.7, conçu pour le raisonnement complexe et le code agentique sur temps long. Il domine actuellement l’Artificial Analysis Intelligence Index avec 61,4 points.
Il mène aussi le classement GDPval-AA, qui évalue les modèles sur des tâches réelles à travers divers métiers, et le nouveau benchmark ITBench-AA, qui teste la capacité des agents à diagnostiquer la cause racine d’incidents Kubernetes à partir de captures d’incident.
Fonctionnalités et capacités clés
Les points saillants :
- une fenêtre de contexte de 1 M de tokens avec jusqu’à 128 K tokens en sortie
- le mode de « pensée adaptative » comme unique mode pris en charge
- un paramètre d’effort désormais par défaut sur « élevé » partout, y compris dans Claude Code
Opus 4.8 ajoute aussi un « mode rapide », actuellement en aperçu de recherche, qui délivre jusqu’à 2,5 fois plus de tokens de sortie par seconde, au tarif de 10 $ / 50 $ par million de tokens d’entrée/sortie. C’est le double du prix standard d’Opus 4.8, mais un tiers du coût du mode rapide sur Opus 4.7.
L’API Messages accepte désormais des entrées système au sein du tableau messages, ce qui permet de mettre à jour les instructions de Claude en cours de tâche sans redémarrer la conversation. Vous pouvez pousser des autorisations, des budgets de tokens ou du contexte d’environnement sans casser le cache de prompt.
La longueur minimale d’un prompt éligible au cache passe aussi à 1 024 tokens, contre 4 096 sur Opus 4.7, ce qui permet désormais de mettre en cache des prompts plus courts.
Face à Opus 4.7, les gains apparaissent sur plusieurs benchmarks, d’après Artificial Analysis :
- Terminal-Bench Hard : +6,6 points
- τ²-Bench Telecom, qui simule des scénarios de support technique : +5,8 points
- IFBench, qui mesure la précision dans le suivi d’instructions : +3,6 points
Il arrive également en tête sur Humanity’s Last Exam, avec 49,8 % sans outils et 57,9 % avec outils.
Avantages et limites
Sur le travail agentique, Opus 4.8 est l’option la plus solide dans cette comparaison. Il se classe premier à l’Artificial Analysis Agentic Index, qui couvre des tâches comme la programmation.
Le coût est le point sensible. Le prix reste inchangé par rapport à Opus 4.7 : 5 $ / 25 $ par million de tokens d’entrée/sortie, ce qui est élevé pour des volumes importants. Les contrôles d’échantillonnage sont toujours absents : temperature, top_p et top_k renvoient une erreur si vous les définissez.
Présentation des modèles Claude
Qu’est-ce que Gemini 3.5 Flash ?
Gemini 3.5 Flash est le dernier modèle de Google, conçu pour la vitesse avec une qualité proche de l’état de l’art, comme détaillé dans notre présentation de Gemini 3.5 Flash. Il atteint 76,2 % sur Terminal-Bench 2.1 et 1 656 Elo sur GDPval-AA.
Fonctionnalités et capacités clés
Flash accepte le texte, les images, la vidéo, l’audio et les PDF en entrée, avec une prise en charge complète des niveaux de réflexion. Son socle fonctionnel :
- un contexte d’entrée d’environ 1 M de tokens (1 048 576 tokens) avec une limite de sortie de 65 536 tokens
- API de traitement par lots et cache de prompt
- exécution de code et appels de fonctions
- ancrage par la recherche et sorties structurées
Sur les benchmarks, il atteint 83,6 % sur MCP Atlas pour la coordination agentique multi-outils et 84,2 % sur CharXiv Reasoning pour la compréhension multimodale. Il se classe 7e sur l’Artificial Analysis Intelligence Index, ce qui est solide pour un modèle de la gamme Flash, et 6e sur l’Agentic Index, proche d’Opus 4.7.
Gemini 3.5 Flash prend également en charge nativement le framework multi-agents Antigravity. Son interface a été revue dans cette version pour se rapprocher des apps OpenAI Codex et Cursor.
Avantages et limites
Le positionnement de Flash : de l’intelligence au meilleur coût : un score de 55 à l’Artificial Analysis Intelligence Index pour 1,50 $ par million de tokens d’entrée et 9 $ par million en sortie, des performances rarement vues à ce prix.
L’autre atout est l’entrée multimodale native, vidéo et audio incluses. Son système de réflexion à quatre niveaux (minimal, faible, moyen, élevé) offre aussi un contrôle plus fin des coûts et de la performance que l’unique réglage d’effort d’Opus 4.8.
Le point vraiment marquant reste l’usage agentique des outils. Flash affiche 83,6 % sur MCP Atlas, le meilleur score de coordination multi-outils dans cette comparaison et même devant Opus 4.8 à 82,2 %. Voir un modèle de la gamme Flash dépasser le tout nouveau fleuron d’Anthropic sur ce benchmark est inhabituel, et c’est l’argument le plus net en faveur de Flash ici.
Deux réserves toutefois. Lors du passage sur l’Intelligence Index, Flash a généré 73 M de tokens contre une moyenne de 35 M : il est verbeux, et cette verbosité se paie sur la facturation des sorties. Le temps jusqu’au premier token est de 18,88 secondes, élevé pour la catégorie, là où des modèles comparables tournent autour de deux secondes.
Pour voir comment Flash se positionne face au fleuron d’OpenAI, consultez notre article Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash : comparaison directe
Voici les points clés avant d’entrer dans le détail catégorie par catégorie.
| Propriété | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Sortie | 28 mai 2026 | 19 mai 2026 |
| Fenêtre de contexte | 1 M de tokens | 1 M de tokens |
| Tokens max en sortie | 128 K | 65 536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1 890 | 1 656 |
| Vitesse de sortie | 66,8 tokens/s | 192,2 tokens/s |
| Modalités d’entrée | Texte, image | Texte, image, vidéo, audio, PDF |
| Prix en entrée | 5 $ / 1 M de tokens | 1,50 $ / 1 M de tokens |
| Prix en sortie | 25 $ / 1 M de tokens | 9 $ / 1 M de tokens |
| Modes de réflexion | Adaptatif uniquement | Minimal / faible / moyen / élevé |
Performances agentiques et en programmation
Opus 4.8 est l’agent le plus fort, mais Flash est plus proche que son segment ne le laisserait penser. Opus 4.8 mène GDPval-AA à 1 890 Elo contre 1 656 pour Flash : il est donc meilleur sur les tâches de connaissance.
MCP Atlas crée la surprise. Flash atteint 83,6 % sur ce benchmark de coordination multi-outils, devançant légèrement les 82,2 % d’Opus 4.8. Voir un modèle Flash battre le dernier fleuron d’Anthropic sur l’usage agentique des outils est réellement inattendu : c’est l’argument le plus clair en faveur de Flash dans ce face-à-face.
SWE-bench Pro raconte l’autre histoire. Ce benchmark évalue la résolution de tickets d’ingénierie logicielle réels : Opus 4.8 marque 69,2 %, second derrière Mythos Preview (interne Anthropic). Flash atteint 55,0 %, derrière Opus comme attendu entre segments, mais notable : il dépasse les 54,2 % de Gemini 3.1 Pro, preuve que ce Flash a rattrapé le niveau « Pro » de la génération précédente.
Sur Terminal-Bench Hard, Opus 4.8 atteint 58,3 % contre 40,9 % pour Flash, ce qui en fait le meilleur choix pour l’ingénierie logicielle en terminal, l’administration système et les traitements de données. Flash trouve sa place lorsque vous exécutez des boucles de code en parallèle et que la vitesse et le coût priment sur la précision maximale.
Raisonnement et tâches scientifiques
Opus 4.8 est nettement en tête sur le raisonnement académique. Il atteint 57,9 % sur Humanity’s Last Exam contre 40,25 % pour Flash, ce qui le favorise pour les travaux en maths, sciences et sciences humaines.
Prise en charge des entrées multimodales
Ici, Flash gagne nettement. Opus 4.8 lit le texte et les images ; Flash lit aussi la vidéo, l’audio et les PDF. Si votre pipeline touche à ces formats, c’est le seul des deux à les gérer.
Vitesse et latence
Flash est environ trois fois plus rapide en sortie. Artificial Analysis le mesure à 192,2 tokens de sortie par seconde, contre 66,8 pour Opus 4.8.
Coût et efficience des tokens
L’écart se joue surtout sur les tokens de sortie : 25 $ par million sur Opus 4.8 contre 9 $ sur Flash, soit environ 2,8 fois plus cher pour Opus. Sur des pipelines à gros volume, la différence se cumule très vite.
Fenêtre de contexte et capacité de sortie
Les deux acceptent 1 M de tokens en entrée ; la différence se situe en sortie. Opus 4.8 peut écrire jusqu’à 128 K tokens en un passage contre 65 536 pour Flash, presque le double. Pour la synthèse de code long, la génération de documents ou des boucles agentiques produisant de longues sorties en un unique passage, cette marge compte.
Quel modèle choisir ?
Tout dépend si vous payez pour la capacité ou pour le débit. Voici comment je trancherais.
Choisissez Claude Opus 4.8 si…
- La qualité de complétion a des conséquences directes. Son Elo de 1 890 sur GDPval-AA et un taux d’hallucination inférieur à ceux des modèles de Google et d’OpenAI sur AA-Omniscience en font le choix le plus sûr pour le travail de précision.
- Vous avez besoin de 128 K tokens en sortie pour de grandes générations en un passage, presque le double des 65 536 de Flash.
- Vous êtes déjà dans l’écosystème Anthropic via Claude Code ou l’API, et changer serait coûteux.
- Vos boucles agentiques sont suffisamment longues pour que des messages système en cours de conversation comptent, puisque l’API Messages met désormais à jour autorisations, budgets de tokens ou contexte en cours de tâche sans casser le cache de prompt.
Choisissez Gemini 3.5 Flash si…
- Votre pipeline ingère de la vidéo, de l’audio ou des PDFs.
- Vous ciblez le volume de sortie, où 9 $ contre 25 $ par million de tokens change l’équation.
- Vous voulez le meilleur score de coordination multi-outils : Flash mène MCP Atlas à 83,6 %, devant même Opus 4.8 à 82,2 %.
- Vous construisez sur l’infrastructure Google via Antigravity ou Vertex AI et souhaitez un fournisseur unique.
- Le contrôle fin des coûts est clé : les quatre niveaux de réflexion de Flash surpassent l’unique réglage d’effort d’Opus 4.8.
Et après pour Flash et les modèles « flagship » ?
Ce modèle Flash est nettement plus cher que les précédents, et Google a essuyé des critiques. L’écart d’intelligence entre les gammes Flash et Opus reste important, ce qui affaiblit l’intérêt de payer presque le prix d’un fleuron pour un modèle Flash. La course la plus intéressante consiste à produire un petit modèle vraiment bon en code et en travail agentique, tout en restant aussi abordable que le Composer 2.5 de Cursor.
Chez Anthropic, le mode rapide est à surveiller pour le code agentique, mais son prix va freiner l’adoption. À 10 $ / 50 $, c’est difficile à défendre pour des développeurs qui font tourner de longues boucles, et l’usage dépendra d’un ajustement tarifaire.
Anthropic reste focalisé sur le code, et il est peu probable qu’ils suivent Google sur la vidéo et l’audio à court terme. Cela ouvre une fenêtre pour Google, mais seulement s’il peut livrer un modèle Flash ou fleuron qui dépasse Opus sur les tâches agentiques. Ce n’est pas encore le cas.
Dernières réflexions
Si la qualité de la tâche et le risque d’hallucination ont un coût réel (en finance ou en santé, par exemple), Opus 4.8 est le modèle à privilégier. Si vous optimisez le débit, le coût ou l’entrée multimodale, Gemini 3.5 Flash convient mieux.
Mon avis : les deux ne visent pas vraiment le même job, et la plupart des équipes sauront de quel côté elles se situent dès qu’elles décrivent leur charge de travail. La vraie question est de savoir si Google peut combler l’écart de capacité sans perdre l’avantage prix qui rend Flash intéressant. Google utilise déjà Gemini 3.5 Pro en interne, et c’est cette version, plus que Flash, qui est la plus susceptible de mettre une pression réelle sur Opus 4.8.
Si vous souhaitez renforcer les compétences qui rendent les assistants IA plus fiables dans votre propre flux de travail, commencez par notre cours AI-Assisted Coding for Developers. Et pour créer des applications LLM avec prompts, chaînes et agents, notre cours Developing LLM Applications with LangChain est une excellente étape suivante.
Claude Opus 4.8 vs Gemini 3.5 Flash : FAQ
Opus 4.8 est-il globalement meilleur que Gemini 3.5 Flash ?
Sur les benchmarks d’intelligence globale, oui. Opus 4.8 obtient 61,4 à l’Artificial Analysis Intelligence Index contre 55 pour Flash. Mais « meilleur » dépend du cas d’usage. Flash est plus rapide, moins cher et prend en charge la vidéo, l’audio et les PDF qu’Opus 4.8 ne gère pas.
Quels formats d’entrée Gemini 3.5 Flash prend-il en charge ?
Gemini 3.5 Flash prend en charge les entrées texte, image, vidéo, audio et PDF. Claude Opus 4.8 prend en charge uniquement le texte et l’image.
Comment se comparent les prix des deux modèles ?
Claude Opus 4.8 est tarifé 5 $ par million de tokens en entrée et 25 $ par million en sortie. Gemini 3.5 Flash est à 1,50 $ par million en entrée et 9 $ par million en sortie. En cas de cache hit, le tarif est de 0,50 $ par million pour Opus 4.8 et 0,15 $ par million pour Flash.
Qu’est-ce que GDPval-AA et pourquoi est-ce important pour Opus 4.8 et Gemini 3.5 Flash ?
GDPval-AA est le benchmark principal d’Artificial Analysis pour évaluer la performance agentique sur des tâches réelles de travail de connaissance, noté en Elo. Opus 4.8 mène avec 1 890 Elo contre 1 656 pour Flash. C’est plus utile que les benchmarks traditionnels pour évaluer les modèles en contexte agentique de production.
Quel modèle offre la plus grande fenêtre de sortie ?
Claude Opus 4.8 prend en charge un maximum de 128 K tokens en sortie, soit le double de la fenêtre de 65 536 tokens de Gemini 3.5 Flash. Pour des workflows générant de longs documents, de gros fichiers de code ou nécessitant de grandes sorties en un seul passage, Opus 4.8 est à privilégier.
Gemini 3.5 Flash prend-il en charge les modes de réflexion ?
Oui. Flash propose quatre niveaux de réflexion : minimal, faible, moyen et élevé. Le défaut est « moyen ». Claude Opus 4.8 utilise uniquement la réflexion adaptative, sans budget de réflexion étendu.

