Tot nu toe is 2026 het jaar van agentische AI. Verbeteringen in modellen hebben geleid tot talloze tools voor agentisch werk, van persoonlijke AI-assistenten tot codeeragenten. De grote spelers in deze ruimte zijn Gemini van Google, de GPT-serie van OpenAI en de modellen van Anthropic, die favoriet zijn geworden bij ontwikkelaars.
In dit artikel vergelijk ik Claude Opus 4.7 en Gemini 3.1 Pro, inclusief benchmarks en prijzen. Aan het einde geef ik je een criterium waarmee je kunt bepalen welk van de modellen het beste is voor jouw workflow.
Wat is Claude Opus 4.7?
Zoals we bespreken in ons Opus 4.7-artikel, is Claude Opus 4.7 het nieuwste vlaggenschipmodel van Anthropic, de update van zijn voorganger, Claude Opus 4.6. Het is ontworpen voor complexe agentische workflows en meerstapsredeneren. Het presteert beter bij agentisch coderen, visueel redeneren en toolgebruik.
Belangrijkste features en mogelijkheden van Claude Opus 4.7
Een centrale feature van Opus 4.7 is taakbudgetten, waarmee je een financiële limiet kunt instellen op hoeveel tokens de agent per taak mag besteden. Ze voorkomen onverwachte kosten wanneer de agent autonoom draait, door hem te dwingen te optimaliseren en binnen budget te blijven.
Claude Opus 4.7 heeft een contextvenster van 1 miljoen tokens en 128K outputtokens. Dit betekent dat het langlopende taken kan uitvoeren terwijl alle context behouden blijft. Dat is vooral handig bij het verkennen van een grote codebase.
Het model heeft ook verbeterde visiecapaciteiten en ondersteunt afbeeldingen tot 3,75 megapixel. Daardoor presteert het beter in visueel redeneren dan Opus 4.6, waardoor het een ideaal model is voor taken zoals data-extractie uit grafieken met hoge resolutie.
Opus 4.7 introduceert ook een nieuwe xhigh reasoning-effort die tussen high en max in zit om de beste resultaten te leveren bij codeer- en agenttaken. Je kunt ook de high thinking-effort gebruiken voor iets minder denkwerk. Anthropic introduceerde bovendien /ultrareview in Claude Code om code reviews op codewijzigingen uit te voeren en bugs te vangen.

Wat sommige mensen kan verrassen, is dat Adaptive Thinking nu standaard geen thinking-responses meer toont. Je kunt een samengevatte versie van de redenering terugbrengen door thinking.display op summarized te zetten.
Qua benchmarks scoort Opus 4.7:
- 87,6% op SWE-bench Verified
- 64,3% op de moeilijkere SWE-bench Pro-variant
- 78% op OSWorld, dat autonoom computergebruik meet
- 77,3% op MCP Atlas voor orkestratie van multi-toolworkflows
Toen Claude Opus 4.7 werd uitgebracht, stond het bovenaan de Artificial Analysis Intelligence Index met een score van 57. Het leidde ook op echt agentisch werk gemeten met GDPval-AA, met een score van 1.753 Elo. Ondertussen heeft GPT-5.5 het op beide ingehaald.
Leer hoe je een Streamlit-benchmarkapplicatie bouwt die test of het zelfkritiekgeheugen van Opus 4.7 de codeerprestaties daadwerkelijk verbetert over de effortniveaus high, xhigh en max aan de hand van onze Claude Opus 4.7 Practical Benchmark-tutorial.
De plus- en minpunten van Claude Opus 4.7
De modellen van Anthropic staan bekend als de beste modellen voor coderen, en de benchmarks van Opus 4.7 bevestigen dat. De Opus-familie is echter niet goedkoop, waardoor een taakbudget een nuttige toevoeging is, vooral voor mensen die lange, agentische workflows draaien.
Het model is ook beschikbaar via verschillende cloudproviders zoals Amazon Bedrock, Google Vertex AI en Microsoft Foundry. Dat maakt integratie via je bestaande provider eenvoudig.
Opus 4.7 wordt bovendien geleverd met een nieuwe tokenizer, waardoor het iets lastiger is om de werkelijke kosten met het vorige Opus-model te vergelijken. Volgens Artificial Analysis Intelligence gebruikte Opus 4.7 ~35% minder outputtokens dan Opus 4.6 om de index te draaien.

Leer de mogelijkheden van Anthropic’s beste publiek beschikbare model, Claude Opus 4.7, en bouw een data science-tool die een grafiek kan omzetten in ruwe data via onze Claude Opus 4.7 API-tutorial.
Wat is Gemini 3.1 Pro?
Gemini 3.1 Pro is het huidige vlaggenschip-reasoningmodel van Google DeepMind, met een Transformer-gebaseerd mixture-of-expertsmodel. Toen Gemini 3.1 Pro werd uitgebracht, leidde het de Artificial Analysis Intelligence Index met 4 punten voorsprong op Opus 4.6 en staat het nu op gelijke hoogte met Opus 4.7 met een score van 57.
Wil je meer weten over Gemini 3.1 Pro? Bekijk dan ons Building with Gemini 3.1 Pro-artikel, waarin we laten zien hoe je een productieklare app bouwt met Gemini 3.1 Pro.
Belangrijkste features en mogelijkheden van Gemini 3.1 Pro
In tegenstelling tot Gemini 3 Pro, dat twee niveaus had, heeft Gemini 3.1 Pro drie denkniveaus: low, medium en high reasoning. Low is het best voor snelheid en tokenoptimalisatie. medium biedt een gebalanceerde aanpak. Omdat high meer thinking-tokens produceert en de traagste reacties oplevert, gebruik je het voor taken die complex redeneren vereisen.
Gemini 3.1 Pro heeft ook een contextvenster van 1 miljoen tokens voor input, maar een kleiner venster van ongeveer 65K outputtokens. Het is multimodaal en ondersteunt audio, pdf’s, tekst en afbeeldingen.
Laten we het over benchmarks hebben. Dit zijn twee gebieden waar Gemini 3.1 Pro uitblinkt:
- Gemini 3.1 Pro leidt het veld op ARC-AGI-2 met een score van 77,1%.
- Gemini 3.1 Pro scoort 73,9% op de MCP Atlas, die coördinatie van multi-toolworkflows meet.

Volgens Artificial Analysis Intelligence is Gemini 3.1 Pro Preview tokenefficiënt en gebruikt het ~57M tokens om hun Index te draaien vergeleken met Opus 4.6.
Gemini 3.1 Pro loopt voor op Opus 4.7 op de Artificial Analysis Coding Index, maar blijft achter op de Agentic Index.
De plus- en minpunten van Gemini 3.1 Pro
De prijsstelling van Gemini 3.1 Pro is erg aantrekkelijk, vooral voor taken die veel tokens vereisen. Google biedt ook 50% korting met hun batch-prijsmodel, wat het een ideale optie maakt als je geen realtime resultaten nodig hebt.
Aan de negatieve kant is het outputvenster van 65K bij Gemini 3.1 Pro slechts half zo groot als dat van Opus 4.7 (128K).
Claude Opus 4.7 vs Gemini 3.1 Pro: directe vergelijking
Hier is een snel overzicht, voordat we elk categoriepunt bekijken.
|
Claude Opus 4.7 |
Gemini 3.1 Pro |
|
|
Releasedatum |
16 april 2026 |
19 februari 2026 |
|
Contextvenster |
1M tokens |
1M tokens |
|
Max output |
128K tokens |
65K tokens |
|
SWE-bench Verified |
87,6% |
80,6% |
|
SWE-bench Pro |
64,3% |
54,2% |
|
ARC-AGI-2 |
68,8% |
77,1% |
|
GPQA Diamond |
94,2% (gelijk) |
94,3% (gelijk) |
|
MCP Atlas |
77,3% |
73,9% |
|
OSWorld |
78,0% |
Geen gepubliceerde score |
|
Visie |
2576px / 3,75MP |
Multimodaal (video, audio, pdf) |
|
Prijs input |
$5/M tokens |
$2/M tokens |
|
Prijs output |
$25/M tokens |
$12/M tokens |
Agentische prestaties en computergebruik
Opus 4.7 is een zeer sterk model voor agentisch werk, met name omdat je kunt bepalen hoeveel tokens de agent mag gebruiken. Dit systeem is niet beschikbaar in Gemini 3.1 Pro; je moet het denkniveau gebruiken om het tokengebruik te sturen.
Opus 4.7 scoort 78% op de OSWorld-benchmark voor autonoom computergebruik. Dat is een sterke score, op gelijke hoogte met de 78,7% van GPT 5.5, terwijl Gemini 3.1 Pro geen gepubliceerde OSWorld-score heeft. Op MCP Atlas pakt Opus 4.7 de leiding met 77,3% tegenover Gemini’s 73,9%. Deze cijfers maken Opus 4.7 een ideale keuze voor productieklare agentische systemen.
Codeerbenchmarks
Laten we nu bekijken welk model het beste is voor programmeren volgens de beschikbare benchmarks, met name SWE-bench Verified, dat echte GitHub-issues test.
Opus 4.7 behaalt 87,6% tegenover 80,6% voor Gemini 3.1 Pro. Op SWE-bench Pro, de moeilijkere variant, haalt Opus 4.7 64,3% tegenover 54,2% voor Gemini (en 58,6% voor GPT 5.5). De cijfers laten zien dat Opus 4.7 momenteel het sterkste codeermodel ter wereld is.
Laten we ook kijken naar Terminal-Bench 2.0, die het vermogen van de modellen test om in de terminal te coderen. Opus 4.7 behaalt 69,4%, Gemini Pro 68,5% en de nieuwe GPT 5.5 82,7%. GPT-5.5 is de duidelijke winnaar op deze benchmark, terwijl onze twee modellen hier ongeveer gelijk scoren.
Redeneren en wetenschappelijke taken
Welk model is het best voor redeneren en wetenschappelijke taken? Laten we dat uitzoeken. Ik gebruik de GPQA Diamond-benchmark niet, omdat alle modellen daar uitstekend op scoren. In plaats daarvan kijken we naar de ARC-AGI-2, die vloeibare intelligentie meet: het vermogen van een model om abstracte redeneerproblemen op te lossen die het nog niet eerder heeft gezien.
Gemini 3.1 Pro scoort 77,1% tegenover 75,8% voor Opus 4.7 en 85,0% voor GPT 5.5, waarmee GPT 5.5 hier de duidelijke winnaar is, gevolgd door Gemini 3.1 Pro.
Op Humanity's Last Exam, dat graduate-niveau redeneren over wetenschap, wiskunde en geesteswetenschappen wil meten, leidt Opus 4.7 ten opzichte van Gemini 3.1 Pro zowel met als zonder tools:
- Zonder tools: Opus 4.7 leidt met 46,9%, gevolgd door Gemini 3.1 Pro (44,4%) en GPT 5.5 Pro (43,1%).
- Met tools: GPT 5.5 Pro leidt met 57,2%, gevolgd door Opus 4.7 (54,7%) en Gemini 3.1 Pro (51,4%).
Kosten en tokenefficiëntie
Opus 4.7 kost $5 per miljoen inputtokens en $25 per miljoen outputtokens, terwijl Gemini 3.1 Pro $2 per miljoen inputtokens en $12 per miljoen outputtokens kost. Gemini is een stuk goedkoper en met de 50% batch-prijskorting is het model zeer scherp geprijsd voor taken die veel tokens vereisen.
Het is ook belangrijk om te vermelden dat de nieuwe tokenizer van Opus 4.7 het iets lastiger maakt om kosten te vergelijken met het vorige Opus-model.
Contextvenster en outputcapaciteit
Beide modellen accepteren 1 miljoen inputtokens, waardoor ze hele codebases en lange onderzoeksdocumenten in één prompt kunnen verwerken.
Voor outputtokens ondersteunt Opus 4.7 128K tokens, terwijl Gemini 3.1 Pro 65.536 ondersteunt. Dit maakt Opus een betere keuze voor workflows die veel outputtokens moeten genereren.

Leer hoe Opus 4.7 en GPT 5.4 zich tot elkaar verhouden in onze Opus 4.7 vs. GPT-5.4-tutorial, waarin we de twee vergelijken op coderen, agentische workflows en long-contexttaken, en benchmarks analyseren.
Is Claude Opus 4.7 beter dan Gemini 3.1 Pro?
Dit brengt ons bij de vraag: welk van de twee modellen moet je kiezen?
Je kiest voor Claude Opus 4.7 als...
- Je agentische codeerpijplijnen bouwt waarbij een kloof van 10 punten op SWE-bench Pro zich direct vertaalt naar minder mislukte runs in productie.
- Je taakbudgetten nodig hebt om lange autonome lussen voorspelbaarder te maken zonder externe monitoringslogica toe te voegen.
- Je pijplijn lange outputs genereert en de 128K-tokenlimiet telt, bijna het dubbele van wat Gemini 3.1 Pro ondersteunt.
- Je de sterkste score voor multi-toolorkestratie op MCP Atlas wilt voor complexe agentische workflows.
- Je al in het Anthropic-ecosysteem zit via Claude Code, Amazon Bedrock of de Claude API, en de switchkosten zwaarder wegen dan het prijsverschil.
Je kiest voor Gemini 3.1 Pro als...
- Je tokenvolumes een 2,5x kostenverschil op input significant maken; bij 500 miljoen tokens per maand is dat gat $1.500 elke maand
- Je native video-, audio- of pdf-inputs in één enkele API-call nodig hebt zonder aparte voorbewerking
- Je bouwt op de infrastructuur van Google en één vendorrelatie via Vertex AI wilt
- Abstract visueel redeneren je primaire usecase is. Opus volgt op ARC-AGI-2 met 75,8% tegenover 77,1% voor Gemini
Slotgedachten
Claude Opus 4.7 en Gemini 3.1 Pro zijn allebei sterke modellen. De keuze hangt af van je budget en de taken die je wilt uitvoeren. Opus wint op agentische taken, maar als dat buiten budget valt, is Gemini 3.1 Pro ook een sterke kandidaat, zeker gezien de goedkopere tokens en 50% batch-prijskorting.
Anthropic heeft zijn voorsprong behouden bij de beste codeermodellen, waardoor het goed geschikt is voor agentische taken die complex redeneren en programmeren vereisen. Google levert frontier-reasoningmodellen tegen een aanzienlijk lagere prijs dan Anthropic. De strijd tussen beide bedrijven en andere grote spelers zoals OpenAI is om het beste agentische model te bieden dat ook als algemeen model goed presteert.
Gezien hoe duur de Opus-familie is, is het goed om de introductie van taakbudgetten te zien. Ik zou er niet van opkijken als andere aanbieders dit in toekomstige releases integreren. Dit wordt een waardevolle toevoeging om de kosten van langlopende agenttaken voorspelbaarder te maken.
Wil je meer leren werken met AI-tools? Bekijk dan onze gids met de beste gratis AI-tools. Voor bredere AI-codeerskills kun je onze cursus AI-Assisted Coding for Developers proberen om de skills te ontwikkelen die AI-assistenten betrouwbaardere partners maken in je ontwikkelworkflow.
Tot slot kun je ook ontdekken hoe je AI-aangedreven applicaties bouwt met LLM’s, prompts, chains en agents in LangChain in onze cursus Developing LLM Applications with LangChain.
