Cursus
Agentische workflows bepaalden de eerste helft van 2026, vooral bij coderen: modellen die met één prompt een taak zelfstandig afronden. De concurrentie speelt nu tegelijk op drie assen: capaciteit, snelheid en prijs. Anthropic en Google hebben daarbij zichtbaar verschillende weddenschappen geplaatst.
Dit artikel vergelijkt twee recente releases: Google's Gemini 3.5 Flash, aangekondigd op Google I/O, en Anthropic's Claude Opus 4.8, uitgebracht op 28 mei. Ze horen niet in dezelfde klasse. De ene is een snelle, goedkope werkpaard; de andere een premium vlaggenschip. Juist dat gat maakt de vergelijking de moeite waard, omdat het dwingt tot de vraag wanneer ruwe capaciteit het prijskaartje waard is.
In dit artikel vergelijk ik de twee op benchmarks, kosten en snelheid, en laat ik zien welk model bij welke klus past. Je kunt ook onze verdiepingen lezen in het overzicht van Gemini 3.5 Flash en onze Claude Opus 4.8 bespreking.
Kort samengevat
- Opus 4.8 is overall het capabelste model. Het voert de Artificial Analysis Intelligence Index aan (61,4), GDPval-AA (1.890 Elo) en Humanity's Last Exam.
- Gemini 3.5 Flash is veel goedkoper en sneller: $1,50/$9 per miljoen tokens tegenover $5/$25 voor Opus 4.8, en 192,2 outputtokens per seconde tegen 66,8.
- Gemini 3.5 Flash accepteert multimodale input (video, audio, PDF), terwijl Opus 4.8 alleen tekst en beeld aankan.
- Kies Opus 4.8 wanneer taakkwaliteit en hallucinatierisico echte kosten met zich meebrengen. Kies Gemini 3.5 Flash voor grootschalige, multimodale, kostengevoelige pipelines.
Wat is Claude Opus 4.8?
Claude Opus 4.8 is het vlaggenschip van Anthropic en de opvolger van Opus 4.7, gebouwd voor complexe redenering en agentisch coderen over lange trajecten. Het staat momenteel bovenaan de Artificial Analysis Intelligence Index met 61,4 punten.
Het voert ook de GDPval-AA-ranglijst aan, die modellen beoordeelt op realistische taken over verschillende beroepen, en de nieuwe ITBench-AA-benchmark, die test hoe goed agents de grondoorzaak van Kubernetes-incidenten vaststellen op basis van opgeslagen incident-snapshots.
Belangrijkste features en mogelijkheden
De headline-specificaties:
- een contextvenster van 1M tokens met tot 128K outputtokens
- adaptive thinking als de enige ondersteunde denkmode
- een effort-parameter die nu overal standaard op hoog staat, inclusief Claude Code
Opus 4.8 voegt ook een snelle modus toe, momenteel een research preview, die tot 2,5x meer outputtokens per seconde levert voor $10/$50 per miljoen input/outputtokens. Dat is het dubbele van de standaardprijs van Opus 4.8, maar een derde van wat de snelle modus kost op Opus 4.7.
De Messages API accepteert nu system entries binnen de messages-array, zodat je Claude's instructies midden in een taak kunt updaten zonder het gesprek te herstarten. Je kunt permissies, tokenbudgetten of omgevingscontext pushen zonder de promptcache te verbreken.
De minimale cachebare promptlengte daalt ook naar 1.024 tokens, van 4.096 op Opus 4.7, zodat kortere prompts nu gecachet kunnen worden.
Tegenover Opus 4.7 zijn de winstpunten zichtbaar op meerdere benchmarks, volgens Artificial Analysis:
- Terminal-Bench Hard: +6,6 punten
- τ²-Bench Telecom, dat technische-supportscenario's simuleert: +5,8 punten
- IFBench, dat nauwgezet instructievolgen meet: +3,6 punten
Het staat ook bovenaan Humanity's Last Exam, met 49,8% zonder tools en 57,9% met tools.
Plus- en minpunten
Voor agentisch werk is Opus 4.8 de sterkste optie in deze vergelijking. Het staat eerste op de Artificial Analysis Agentic Index, die taken als programmeren omvat.
De prijs is de adder onder het gras. De tarieven zijn ongewijzigd ten opzichte van Opus 4.7: $5/$25 per miljoen input/outputtokens, fors voor werk met hoog volume. Samplingcontrols ontbreken nog steeds: temperature, top_p en top_k geven allemaal een fout als je ze instelt.
Wat is Gemini 3.5 Flash?
Gemini 3.5 Flash is Google's nieuwste model, gebouwd voor snelheid met bijna-frontierkwaliteit, zoals we bespreken in ons overzicht van Gemini 3.5 Flash. Het scoorde 76,2% op Terminal-Bench 2.1 en haalde 1.656 Elo op GDPval-AA.
Belangrijkste features en mogelijkheden
Flash neemt tekst, afbeeldingen, video, audio en PDF's als input, met volledige ondersteuning per denkniveau. De kernfeatures:
- een invoercontext van grofweg 1M tokens (1.048.576 tokens) met een outputlimiet van 65.536 tokens
- batch-API en promptcaching
- code-executie en function calling
- search grounding en gestructureerde outputs
Op benchmarks haalt het 83,6% op MCP Atlas voor multi-tool agentische coördinatie en 84,2% op CharXiv Reasoning voor multimodale begripstaken. Het staat 7e op de Artificial Analysis Intelligence Index, sterk voor een Flash-tier model, en 6e op de Agentic Index, dicht bij Opus 4.7.
Gemini 3.5 Flash ondersteunt ook native het Antigravity multi-agent-raamwerk. De interface van Antigravity is in deze release herwerkt om te lijken op de OpenAI Codex- en Cursor-apps.
Plus- en minpunten
De pitch van Flash is intelligentie per dollar: een score van 55 op de Artificial Analysis Intelligence Index voor $1,50 per miljoen inputtokens en $9 per miljoen output, wat ongewoon capabel is voor die prijs.
Native multimodale input is het andere verkooppunt, inclusief video en audio. Het vierlaagse denksysteem (minimal, low, medium, high) geeft je ook fijnmazigere kosten- en prestatiecontrole dan de enkele effort-instelling van Opus 4.8.
Het opvallendst is echter agentisch toolgebruik. Flash scoort 83,6% op MCP Atlas, de beste multi-toolcoördinatie in deze vergelijking en zelfs vóór Opus 4.8 met 82,2%. Dat een Flash-tier model het nieuwste vlaggenschip van Anthropic op die benchmark voorbijstreeft, is het soort resultaat dat normaal niet langs tierlijnen breekt.
Twee kanttekeningen springen eruit. In de Intelligence Index-run genereerde Flash 73M tokens tegen een gemiddelde van 35M, dus het is breedsprakig, en die breedsprakigheid kost je op outputfacturatie. Time to first token is 18,88 seconden, hoog voor deze klasse, waar vergelijkbare modellen rond twee seconden zitten.
Om te zien hoe Flash zich verhoudt tot het vlaggenschip van OpenAI, vergelijken we ze in ons artikel Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash: rechtstreekse vergelijking
Hier is de snelle referentie voordat we per categorie ingaan.
| Eigenschap | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Uitgebracht | 28 mei 2026 | 19 mei 2026 |
| Contextvenster | 1M tokens | 1M tokens |
| Max. outputtokens | 128K | 65.536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1.890 | 1.656 |
| Outputsnelheid | 66,8 tokens/sec | 192,2 tokens/sec |
| Inputmodaliteiten | Tekst, afbeelding | Tekst, afbeelding, video, audio, PDF |
| Inputprijs | $5 / 1M tokens | $1,50 / 1M tokens |
| Outputprijs | $25 / 1M tokens | $9 / 1M tokens |
| Denkmodes | Alleen adaptive | Minimal / low / medium / high |
Agentische en codeerprestaties
Opus 4.8 is de sterkere agent, maar Flash zit dichterbij dan zijn tier doet vermoeden. Opus 4.8 leidt GDPval-AA met 1.890 Elo tegenover 1.656 voor Flash, dus het is beter in kenniswerk.
MCP Atlas is de verrassing. Flash scoort 83,6% op deze benchmark voor multi-toolcoördinatie en blijft daarmee Opus 4.8 met 82,2% voor. Dat een Flash-model Anthropic's nieuwste vlaggenschip verslaat op agentisch toolgebruik is echt onverwacht, en het is het duidelijkste argument voor Flash in deze vergelijking.
SWE-bench Pro loopt de andere kant op. De benchmark test modellen op het oplossen van realistische software-engineeringtickets, en Opus 4.8 scoort 69,2%, alleen achter Anthropic's interne Mythos Preview. Flash haalt 55,0%, achter Opus met de marge die je tussen tiers verwacht, maar op zichzelf noemenswaardig: het verslaat Gemini 3.1 Pro met 54,2%, dus deze Flash-release heeft de Pro-tier van de vorige generatie ingehaald.
Op Terminal-Bench Hard scoort Opus 4.8 58,3% tegenover 40,9% voor Flash, wat het de betere keuze maakt voor terminalgebaseerde software-engineering, systeembeheer en dataverwerking. Flash verdient zijn plek wanneer je parallelle codeerlussen draait en snelheid en kosten zwaarder wegen dan topnauwkeurigheid.
Redeneren en wetenschappelijke taken
Opus 4.8 ligt duidelijk voor op academisch redeneren. Het scoort 57,9% op Humanity's Last Exam tegenover 40,25% voor Flash, wat het in het voordeel zet voor wiskunde, wetenschap en geesteswetenschappen.
Ondersteuning voor multimodale input
Dit is een duidelijke winst voor Flash. Opus 4.8 leest tekst en afbeeldingen; Flash leest ook video, audio en PDF's. Als je pipeline met een van die formaten werkt, is Flash de enige van de twee die ze aankan.
Snelheid en latency
Flash is grofweg drie keer zo snel in output. Artificial Analysis klokt 192,2 outputtokens per seconde tegenover 66,8 voor Opus 4.8.
Kosten en tokenefficiëntie
Outputtokens zijn waar het verschil pijn doet: $25 per miljoen bij Opus 4.8 tegenover $9 bij Flash, dus Opus is ongeveer 2,8 keer duurder. In pipelines met hoog volume telt dat verschil snel op.
Contextvenster en outputcapaciteit
Beide nemen 1M inputtokens, dus het verschil zit aan de outputkant. Opus 4.8 schrijft tot 128K tokens in één keer tegenover 65.536 voor Flash, bijna het dubbele. Voor langvormige codesynthese, documentgeneratie of agentische lussen die grote single-pass outputs produceren, is die speelruimte belangrijk.
Welk model moet je kiezen?
Het komt neer op of je betaalt voor capaciteit of voor throughput. Zo zou ik het splitsen.
Kies Claude Opus 4.8 als…
- De kwaliteit van taakafronding directe gevolgen heeft. De 1.890 GDPval-AA Elo en lagere hallucinatiegraad dan Google's en OpenAI's modellen op AA-Omniscience maken het de veiligere keuze voor precisie-intensief kenniswerk.
- Je 128K outputtokens nodig hebt voor grote single-pass generaties, bijna het dubbele van Flash' 65.536.
- Je al bouwt in het Anthropic-ecosysteem via Claude Code of de API, en overstappen gedoe is.
- Je agentische lussen lang genoeg draaien dat systeemberichten halverwege uitmaken, aangezien de Messages API nu permissies, tokenbudgetten of context midden in de taak bijwerkt zonder de promptcache te verbreken.
Kies Gemini 3.5 Flash als…
- Je pipeline video, audio of PDF's inleest.
- Je outputvolume nodig hebt, waar $9 tegenover $25 per miljoen tokens de rekensom verandert.
- Je de sterkste multi-toolcoördinatiescore wilt, aangezien Flash MCP Atlas aanvoert met 83,6%, zelfs vóór Opus 4.8 met 82,2%.
- Je op Google-infrastructuur bouwt via Antigravity of Vertex AI en één leverancier wilt.
- Fijnmazige kostenbeheersing uitmaakt, waarbij de vier denkniveaus van Flash winnen van de enkele effort-instelling van Opus 4.8.
Wat staat er te wachten voor Flash en vlaggenschipmodellen
Dit Flash-model is veel duurder dan eerdere Flash-releases, en Google kreeg er kritiek op. Het intelligentiegat tussen de Flash- en Opus-tiers is nog steeds aanzienlijk, wat het argument ondermijnt om bijna-vlaggenschipprijzen te betalen voor een Flash-model. De interessantere race is een klein model dat echt goed is in coderen en agentisch werk, terwijl het zo goedkoop blijft als Cursor's Composer 2.5.
De snelle modus van Anthropic is er een om in de gaten te houden voor agentisch coderen, maar de prijs zal hem tegenhouden. Met $10/$50 is het een lastige verkoop voor ontwikkelaars die lange lussen draaien, en de adoptie hangt af van het heroverwegen van dat bedrag door Anthropic.
Anthropic blijft gefocust op coderen, dus ik betwijfel of het snel Google achterna gaat met video- en audio-input. Dat geeft Google een opening, maar alleen als het een Flash- of vlaggenschipmodel kan leveren dat Opus verslaat op agentische taken. Tot nu toe is dat niet gelukt.
Slotgedachten
Als taakkwaliteit en hallucinatierisico echte kosten meebrengen, bijvoorbeeld in finance of geneeskunde, is Opus 4.8 het model om naar te grijpen. Als je optimaliseert voor throughput, kosten of multimodale input, past Gemini 3.5 Flash beter.
Mijn eigen inschatting: de twee dingen concurreren eigenlijk niet voor dezelfde klus, en de meeste teams weten aan welke kant ze staan binnen één zin waarin ze hun workload beschrijven. De moeilijkere vraag is of Google het capaciteitsgat kan dichten zonder het prijsvoordeel op te geven dat Flash de moeite waard maakt. Google draait intern al Gemini 3.5 Pro, en die release, niet Flash, is het meest waarschijnlijk om echte druk te zetten op Opus 4.8.
Wil je de skills aanscherpen die AI-assistenten betrouwbaarder maken in je eigen workflow, begin dan met onze cursus AI-Assisted Coding for Developers. En als je LLM-toepassingen wilt bouwen met prompts, chains en agents, is onze cursus Developing LLM Applications with LangChain een solide volgende stap.
Claude Opus 4.8 vs Gemini 3.5 Flash FAQ's
Is Claude Opus 4.8 overall beter dan Gemini 3.5 Flash?
Op algemene intelligentiebenchmarks, ja. Opus 4.8 scoort 61,4 op de Artificial Analysis Intelligence Index tegenover 55 voor Flash. Maar beter hangt af van de usecase. Flash is sneller, goedkoper en ondersteunt video-, audio- en PDF-inputs die Opus 4.8 niet heeft.
Welke inputformaten ondersteunt Gemini 3.5 Flash?
Gemini 3.5 Flash ondersteunt tekst-, beeld-, video-, audio- en PDF-input. Claude Opus 4.8 ondersteunt alleen tekst en beeld.
Hoe verhouden de prijzen zich tussen de twee modellen?
Claude Opus 4.8 kost $5 per miljoen inputtokens en $25 per miljoen outputtokens. Gemini 3.5 Flash kost $1,50 per miljoen inputtokens en $9 per miljoen outputtokens. Cache-hitprijzen zijn $0,50 per miljoen voor Opus 4.8 en $0,15 per miljoen voor Flash.
Wat is GDPval-AA, en waarom is het relevant voor Opus 4.8 en Gemini 3.5 Flash?
GDPval-AA is de primaire benchmark van Artificial Analysis voor agentische prestaties op realistische kenniswerktaken, gescoord in Elo. Opus 4.8 leidt met 1.890 Elo tegenover 1.656 voor Flash. Het is nuttiger dan traditionele benchmarks om modellen in productie-achtige agentische contexten te evalueren.
Welk model heeft een groter outputvenster?
Claude Opus 4.8 ondersteunt maximaal 128K outputtokens, wat het dubbele is van het 65.536-tokenvenster van Gemini 3.5 Flash. Voor workflows die lange documenten genereren, grote codebestanden produceren of grote single-pass outputs nodig hebben, is Opus 4.8 de voorkeur.
Ondersteunt Gemini 3.5 Flash thinking?
Ja. Flash heeft vier denkniveaus: minimal, low, medium en high. De standaard is medium. Claude Opus 4.8 gebruikt alleen adaptive thinking, zonder ondersteuning voor een uitgebreid denkbudget.

