Cours
Gemini 3.5 Flash a été lancé le 19 mai 2026 comme une réponse musclée aux modèles phares actuels d'OpenAI et d'Anthropic, avec la promesse d'une performance de pointe à la vitesse de Flash. GPT-5.5 d'OpenAI était arrivé un peu plus tôt, en avril 2026, en se positionnant comme le modèle de codage agentique le plus puissant jamais proposé par l'entreprise.
Les deux modèles sont explicitement conçus pour le travail agentique et surpassent leurs prédécesseurs sur les benchmarks qui comptent le plus pour les tâches de longue haleine. La vraie question est de savoir lequel s'intègre le mieux à votre flux de travail, et si les compromis entre vitesse et coût valent le coup pour votre cas d'usage.
Dans cet article, je compare Gemini 3.5 Flash et GPT-5.5 selon cinq axes clés : le codage et les workflows agentiques, le raisonnement et les tâches de connaissances, les capacités multimodales, le contexte et la performance en très long contexte, ainsi que la tarification. Vous pouvez aussi consulter nos analyses dédiées de Gemini 3.5 Flash et notre dossier GPT-5.5 pour plus de détails sur chaque modèle.
Qu'est-ce que Gemini 3.5 Flash ?
Gemini 3.5 Flash est le tout dernier modèle de Google dans la famille Gemini 3.5, présenté lors de Google I/O 2026. Il appartient à la gamme Flash, c'est-à-dire optimisé pour la vitesse et le coût, mais la promesse phare de Google est qu'il atteint désormais une performance comparable aux plus gros modèles phares sur les benchmarks d'agents et de codage (ce que les premiers résultats confirment).
Le modèle est conçu pour fonctionner avec le harness Antigravity de Google, un cadre pour déployer en parallèle des sous-agents collaboratifs.
Il est disponible via l'API Gemini, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform, et comme modèle par défaut dans l'application Gemini et le mode IA de Search à l'échelle mondiale. Gemini 3.5 Pro est déjà utilisé en interne chez Google et devrait être déployé le mois prochain.
Pour en savoir plus sur le lancement et la portée des benchmarks en pratique, consultez notre guide de Gemini 3.5 Flash. Nous avons également couvert les autres annonces de l'I/O, notamment Gemini Omni, le nouveau modèle natif de génération multimodale de Google, l'agent IA 24/7 Gemini Spark, et les nouveaux Managed Agents dans l'API.
Qu'est-ce que GPT-5.5 ?
GPT-5.5 est le modèle lancé par OpenAI en avril 2026, présenté comme le modèle de codage agentique le plus performant de l'entreprise à ce jour. OpenAI a aussi publié une variante GPT-5.5 Pro pour des travaux à plus haute précision, disponible pour les utilisateurs Pro, Business et Enterprise.
Comme nous l'avons expliqué dans notre comparaison GPT-5.5 vs Claude Opus 4.7, payer pour GPT-5.5 Pro, 6× plus cher, ne semble valoir le coup que pour des workflows incluant des tâches de mathématiques difficiles et/ou de recherche web, où la haute précision est déterminante.
Le modèle a été conçu conjointement pour, et déployé sur, des systèmes NVIDIA GB200 et GB300 NVL72. OpenAI indique qu'il égalise la latence par jeton de GPT-5.4 en production tout en offrant un niveau d'intelligence supérieur.
Il est disponible dans ChatGPT et Codex pour les utilisateurs Plus, Pro, Business et Enterprise, avec un accès API à 5 $ par 1 million de jetons en entrée et 30 $ par 1 million de jetons en sortie.
Travailler avec l'API OpenAI
Gemini 3.5 Flash vs GPT-5.5 : comparaison point par point
Voici un récapitulatif rapide avant d'entrer dans le détail.
| Fonctionnalité | Gemini 3.5 Flash | GPT-5.5 |
|---|---|---|
| Terminal-Bench (codage agentique) | 76,2 % | 78,2 % |
| SWE-Bench Pro | 55,1 % | 58,6 % |
| MCP Atlas (utilisation d'outils) | 83,6 % | 75,3 % |
| OSWorld-Verified (utilisation d'ordinateur) | 78,4 % | 78,7 % |
| CharXiv Reasoning (multimodal) | 84,2 % | 84,1 % |
| Finance Agent v2 | 57,9 % | 51,8 % |
| ARC-AGI-2 | 72,1 % | 84,6 % |
| Humanity's Last Exam | 40,2 % | 41,4 % |
| Vitesse de génération | 4× plus rapide que les autres modèles de pointe (selon Google) | Latence équivalente à GPT-5.4 |
| Fenêtre de contexte | 1 million de jetons | 1 million de jetons |
| Tarif API entrée | ~1,50 $ / 1 M jetons | 5,00 $ / 1 M jetons |
| Tarif API sortie | ~9,00 $ / 1 M jetons | 30,00 $ / 1 M jetons |
| Cadre multi-agents | Antigravity harness | Codex |
Codage et workflows agentiques
Le codage est le terrain où les deux modèles se mesurent le plus explicitement, et GPT-5.5 garde ici une courte avance. Tant sur le codage agentique en terminal (Terminal-Bench 2.1 : 78,2 % vs 76,2 %) que sur l'ingénierie logicielle classique (SWE-Bench Pro : 58,6 % vs 55,1 %), GPT-5.5 conserve un léger avantage de quelques points sur Gemini 3.5 Flash.
Là où Gemini 3.5 Flash prend l'ascendant, c'est sur l'utilisation d'outils. Il obtient 83,6 % sur MCP Atlas, devancçant nettement les 75,3 % de GPT-5.5. MCP Atlas évalue l'appel d'outils en plusieurs étapes et le respect des schémas dans des workflows d'agents complexes, exactement le type de tâche pour lequel l'harness Antigravity est conçu.
| Benchmark | Gemini 3.5 Flash | GPT-5.5 | Remarques |
|---|---|---|---|
| Terminal-Bench | 76,2 % | 78,2 % | GPT-5.5 légèrement devant |
| SWE-Bench Pro | 55,1 % | 58,6 % | Données éditeurs ; Claude Opus 4.7 en tête à 64,3 % |
| MCP Atlas | 83,6 % | 75,3 % | Gemini devant ; évalue l'appel d'outils en plusieurs étapes |
Lecture honnête : GPT-5.5 est le meilleur choix pour le DevOps très orienté terminal et l'automatisation shell. Gemini 3.5 Flash est à préférer pour des chaînes d'agents très outillées où l'appel d'outils façon MCP est central. Pour l'ingénierie logicielle au niveau d'un dépôt, Claude Opus 4.7 devance encore les deux sur SWE-Bench Pro.
Raisonnement et tâches de connaissances
Sur le raisonnement abstrait, l'écart entre modèles est le plus marqué : GPT-5.5 a une nette avance sur ARC-AGI-2 (84,6 % contre 72,1 % pour Gemini 3.5 Flash). Un écart de 12,5 points sur un benchmark qui teste la reconnaissance de motifs inédits et le raisonnement non mémorisable depuis les données d'entraînement. Sur Humanity's Last Exam, les scores sont proches : 41,4 % pour GPT-5.5 et 40,2 % pour Gemini 3.5 Flash.
Un des points forts de GPT-5.5 est les mathématiques, comme le montre son résultat notable sur FrontierMath Tier 4, à 35,4 %. Aucun autre modèle actuellement disponible n'égale ce score, même si l'AI Co-Mathematician de Google surpasse encore GPT-5.5 Pro (47,9 % vs 39,6 %). Il n'est toutefois pas largement disponible, seulement en accès de recherche limité.
Un résultat surprenant de notre comparaison Gemini 3.5 Flash vs Claude Opus 4.7 se confirme : Gemini 3.5 Flash prend la tête du classement Finance Agent v2 (57,9 % contre 51,8 % pour GPT-5.5 et 51,5 % pour Opus 4.7) pour le raisonnement financier en plusieurs étapes, bien qu'il soit le plus léger des trois. Cela indique un modèle qui excelle lorsque des agents doivent appeler de manière fiable des outils externes sur de longues séquences.
Capacités multimodales
Le multimodal est le domaine où Gemini 3.5 Flash est le plus compétitif face à GPT-5.5. Sur CharXiv Reasoning, qui évalue le raisonnement visuel sur des graphiques scientifiques, Gemini 3.5 Flash atteint 84,2 % contre 84,1 % pour GPT-5.5. C'est pratiquement à égalité, et le résultat est significatif sachant que 3.5 Flash est présenté comme un modèle optimisé pour la vitesse.
Sur le benchmark OSWorld, qui évalue le contrôle d'interfaces informatiques, les deux modèles et Claude Opus 4.7 sont globalement à égalité, entre 78,0 % (Gemini Flash 3.5) et 78,4 % (GPT-5.5). En revanche, Gemini Flash 3.5 ne propose pas de fonctionnalité d'utilisation d'ordinateur ; le résultat reflète donc uniquement une évaluation interne.
Si vous avez besoin d'agents capables de naviguer de manière autonome sur le web, optez pour GPT-5.5 (ou Opus 4.7).
Fenêtre de contexte et performance en très long contexte
Les deux modèles offrent une fenêtre de contexte d'1 million de jetons. La question la plus intéressante est ce qu'ils en font vraiment. Dans notre test de GPT-5.5, le résultat le plus révélateur concernait le long contexte : GPT-5.4 s'effondrait au-delà d'environ 128 K jetons sur les tests MRCR needle, tandis que GPT-5.5 tenait bon jusqu'à 512 K et au-delà. Entre 512 K et 1 M de contexte, GPT-5.5 atteint 74,0 % sur MRCR v2 8-needle, contre 36,6 % pour GPT-5.4.
Là où nous pouvons les comparer directement, c'est à 128 K de contexte sur le même benchmark. GPT-5.5 obtient 94,8 % sur MRCR v2 8-needle (moyenne 128 K), tandis que Gemini 3.5 Flash atteint 77,3 %. L'écart est significatif : à cette échelle, GPT-5.5 retrouve et raisonne sur des informations dispersées avec une précision sensiblement supérieure.
À l'échelle complète d'1 million de jetons, le tableau est moins clair, faute de données publiées strictement comparables. Gemini 3.5 Flash obtient 26,6 % sur MRCR v2 8-needle (1 M pointwise), une légère amélioration par rapport aux 26,3 % de Gemini 3.1 Pro.
OpenAI n'a pas publié de score 1 M pointwise directement comparable pour GPT-5.5, donc pas de verdict tête-à-tête à cette échelle. Cela dit, le 74,0 % de GPT-5.5 entre 512 K et 1 M sur une variante MRCR différente suggère une meilleure tenue.
Sur les benchmarks Graphwalks, qui évaluent le raisonnement sur des structures de graphes enfouies dans un long contexte, GPT-5.5 atteint 45,4 % sur BFS à 1 M de jetons. Les scores de Gemini 3.5 Flash sur ce benchmark spécifique ne sont pas publiés.
Conclusion pratique : GPT-5.5 est le modèle le plus fiable en très long contexte là où l'on peut le mesurer.
Tarification
C'est là que la comparaison devient tranchée. Gemini 3.5 Flash est facturé environ 1,50 $ par 1 million de jetons en entrée et 9,00 $ par 1 million de jetons en sortie. GPT-5.5 coûte 5,00 $ par 1 million de jetons en entrée et 30,00 $ par 1 million de jetons en sortie, soit plus de trois fois le prix de Gemini 3.5 Flash.
Google présente 3.5 Flash comme offrant une performance de niveau "frontier" pour moins de la moitié du coût des autres modèles de pointe. L'affirmation tient face à la tarification de GPT-5.5. Pour des charges à fort volume où le modèle est appelé des centaines de fois par workflow, l'écart de coût se cumule très vite.
GPT-5.5 Pro est encore plus cher : 30 $ par 1 million de jetons en entrée et 180 $ par 1 million de jetons en sortie. Ce palier vise les tâches de raisonnement les plus ardues et est disponible pour les utilisateurs Pro, Business et Enterprise. Gemini 3.5 Pro, attendu le mois prochain, devrait dépasser 3.5 Flash en capacités comme en prix, bien qu'aucun tarif n'ait encore été annoncé.
| Modèle | Entrée (par 1 M de jetons) | Sortie (par 1 M de jetons) | Fenêtre de contexte |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1 million de jetons |
| GPT-5.5 | 5,00 $ | 30,00 $ | 1 million de jetons |
| GPT-5.5 Pro | 30,00 $ | 180,00 $ | 1 million de jetons |
Une nuance à garder en tête : OpenAI indique que GPT-5.5 utilise nettement moins de jetons pour mener à bien les mêmes tâches Codex que GPT-5.4. Ainsi, l'augmentation du prix par jeton ne se traduit pas directement par une hausse proportionnelle du coût pour les workflows agentiques. Cela dit, même en tenant compte des gains d'efficacité, Gemini 3.5 Flash reste sensiblement moins cher au niveau API.
Quand choisir Gemini 3.5 Flash ou GPT-5.5
La décision repose surtout sur trois facteurs : la sensibilité au coût, le type de travail agentique, et l'écosystème dans lequel vous êtes déjà. Voici comment j'articulerais le choix selon les scénarios courants.
| Cas d'usage | Recommandation | Pourquoi |
|---|---|---|
| Chaînes d'agents à fort volume avec appels d'outils intensifs | Gemini 3.5 Flash | En tête sur MCP Atlas (83,6 % vs 75,3 %) et ∼3× moins cher par jeton |
| DevOps très orienté terminal et automatisation shell | GPT-5.5 | En tête sur Terminal-Bench 2.0 à 82,7 % ; plus robuste sur les workflows CLI complexes |
| Analyse de documents financiers et workflows à forte composante OCR | Gemini 3.5 Flash | En tête sur Finance Agent v2 à 57,9 % vs 51,8 % pour GPT-5.5 |
| Raisonnement abstrait et problèmes mathématiques difficiles | GPT-5.5 | En tête sur ARC-AGI-2 (84,6 % vs 72,1 %) ; meilleur sur FrontierMath Tier 4 |
| Compréhension de graphiques et figures scientifiques | Au choix (égalité technique) | CharXiv Reasoning : 84,2 % vs 84,1 % ; choisissez selon d'autres critères |
| Intégration à Google Workspace et Android Studio | Gemini 3.5 Flash | Intégrations natives avec Docs, Sheets, Gmail, Android Studio via Antigravity |
| Travail en très long contexte au-delà de 128 K jetons | GPT-5.5 | Scores MRCR publiés montrant une stabilité jusqu'à 1 M de jetons ; GPT-5.4 chutait au-delà de 128 K |
| Déploiements en production sensibles au coût et à l'échelle | Gemini 3.5 Flash | ~1,50 $/9,00 $ par 1 M de jetons vs 5,00 $/30,00 $ pour GPT-5.5 |
Choisissez Gemini 3.5 Flash si ...
- Vos agents effectuent de nombreux appels d'outils par workflow. Le score de 83,6 % sur MCP Atlas indique clairement que 3.5 Flash est réglé pour une utilisation fiable des outils à grande échelle, et l'harness Antigravity vous offre un cadre natif pour exécuter des sous-agents en parallèle.
- Le coût est un critère majeur. À environ un tiers du prix par jeton de GPT-5.5, 3.5 Flash s'impose pour les charges à fort volume où vous payez des millions de jetons par jour.
- Vous êtes déjà dans l'écosystème Google. Si votre équipe utilise Google Workspace, BigQuery ou Android Studio, les intégrations natives avec Gemini Enterprise Agent Platform réduisent fortement les frictions.
- Votre travail implique des documents financiers, des factures ou des graphiques complexes. Les résultats sur Finance Agent v2 et CharXiv Reasoning indiquent un modèle à l'aise avec les données visuelles et financières structurées.
- La vitesse compte pour vos utilisateurs. Google affirme que 3.5 Flash génère jusqu'à quatre fois plus vite que les autres modèles de pointe (en jetons par seconde), un atout réel pour le streaming de réponses dans des applications grand public.
Choisissez GPT-5.5 si ...
- Votre travail est très orienté terminal. Le score de 82,7 % sur Terminal-Bench 2.0 et l'intégration Codex font de GPT-5.5 le meilleur choix pour l'automatisation shell, les workflows Docker/kubectl et l'orchestration CLI complexe.
- Vous avez besoin du meilleur raisonnement abstrait disponible. Le score de 84,6 % à ARC-AGI-2 et le résultat sur FrontierMath Tier 4 (35,4 %) placent GPT-5.5 en tête pour les tâches exigeant un raisonnement original plutôt qu'un simple appariement de motifs.
- La fiabilité en très long contexte au-delà de 128 K jetons est cruciale. Les données MRCR publiées montrent que GPT-5.5 tient jusqu'à 1 M de jetons, contrairement à GPT-5.4 ; un vrai plus pour les workflows de recherche documentaire.
- Vous faites de la recherche scientifique ou de la bio-informatique. Les résultats sur GeneBench (25,0 %) et BixBench (80,5 %), ainsi que l'exemple de preuve du nombre de Ramsey, suggèrent que GPT-5.5 est un véritable copilote de recherche pour la biologie quantitative et les mathématiques.
- Vous utilisez déjà Codex ou ChatGPT dans vos workflows. Le déploiement Plus/Pro/Business/Enterprise signifie que la plupart des équipes y ont déjà accès, et l'intégration Codex est mature.
Conclusion
La grille de lecture la plus nette : GPT-5.5 est le modèle le plus solide en raisonnement pur et pour le codage agentique très orienté terminal, tandis que Gemini 3.5 Flash est le meilleur choix pour des chaînes très outillées, le travail sur documents financiers, et tout déploiement où le coût et la vitesse priment. Aucun ne domine partout, et les écarts de benchmarks sont suffisamment faibles pour que l'écosystème et la tarification guident l'essentiel des décisions réelles.
Le point le plus intéressant à surveiller reste à mon sens le résultat sur MCP Atlas. Le 83,6 % de Gemini 3.5 Flash contre 75,3 % pour GPT-5.5 sur un benchmark qui évalue l'appel d'outils en plusieurs étapes est un signal fort. Les workflows agentiques semblent être la tendance IA majeure de 2026 ; cet écart pourrait peser plus lourd que l'écart inverse sur Terminal-Bench.
Autre élément à suivre : Gemini 3.5 Pro, que Google utilise déjà en interne et qui doit arriver le mois prochain. Si 3.5 Pro apporte le même saut par rapport à 3.5 Flash que 3.1 Pro face à 3 Flash, le paysage concurrentiel évoluera à nouveau. Pour l'heure, 3.5 Flash est l'option la plus rentable pour la plupart des charges agentiques en production, et GPT-5.5 s'impose lorsque la profondeur de raisonnement et la fiabilité en terminal sont non négociables.
Si vous souhaitez mettre en pratique les concepts d'agents IA et construire avec ce type de modèles, nous vous recommandons notre parcours de compétences AI Agent Fundamentals.

Rédacteur en chef Data Science chez DataCamp | Je suis passionné par la prévision et le développement à l'aide d'API.