Cursus
GPT-5.4 verscheen op 5 maart 2026 als OpenAI’s vlaggenschip voor professioneel werk, met code en redeneren samengebracht in één model voor algemeen gebruik. Zes weken later, op 16 april, bracht Anthropic Claude Opus 4.7 uit, gebaseerd op een andere gok: een model dat autonoom langlopende engineering aankan en consistent blijft tijdens sessies waarop de meeste agents vastlopen.
Dit is een goed moment om ze direct te vergelijken, met één kanttekening: dit stuk verscheen op dezelfde dag dat Opus 4.7 lanceerde, dus de onderstaande kop-aan-kop-cijfers komen grotendeels van de leveranciers zelf. Zie ze als startpunt, niet als eindoordeel.
Update: OpenAI heeft de opvolger van GPT-5.4 gepubliceerd. Lees er alles over in onze GPT-5.5-gids.
Opus 4.7 vs. GPT-5.4: kop-aan-kop
Hier is een snel overzicht voordat we elke categorie induiken. Prijzen zijn waar de meeste interessante nuances zitten; dat behandelen we in een eigen sectie.

Belangrijkste specificaties van beide modellen vergeleken. Afbeelding door de auteur.
Gemini 3.1 Pro is een reëel alternatief als je primair bulkdocumenten verwerkt of lange juridische analyses doet; de kosten per token zijn lager met een contextvenster van 2M. Dit artikel focust op de vergelijking tussen Anthropic en OpenAI.
Hoe elke leverancier zijn model positioneert, zegt veel over het beoogde gebruik.
Modelpositionering en bedoeld gebruik
OpenAI positioneert GPT-5.4 als één verenigd model voor algemeen gebruik. Het neemt de codeerfuncties over die eerder in GPT-5.3-Codex zaten, zodat ontwikkelaars verzoeken niet meer per taaktype naar verschillende endpoints hoeven te routeren. Eén model, één endpoint, welke taak dan ook.
Anthropic’s pitch voor Opus 4.7 is smaller: een model geoptimaliseerd voor "coderen, agents, computergebruik en enterprise-workflows", met langdurige autonomie als belangrijkste onderscheid. Je draagt zwaar engineeringswerk over en vertrouwt erop dat het zijn eigen fouten vindt voordat het terugrapporteert. Opus 4.7 is het meest capabele algemeen beschikbare model van Anthropic, maar niet het topmodel; Claude Mythos Preview staat daarboven, beperkt tot defensieve cybersecurity-workflows.
Dat verschil zie je aan de extremen: zeer langlopende codeersessies of pipelines die tientallen tools aaneenrijgen.
Coderen en agent-workflows
Op repository-niveau leidt Opus 4.7 op de benchmarks die elke leverancier koos te rapporteren (volledige cijfers hieronder). Het introduceerde zelfcontrole van output, wat betekent dat het model zijn eigen werk checkt voordat het terugrapporteert, en Genspark benoemde specifiek de lusbestendigheid: Opus 4.7 blijft minder snel hangen in een cyclus rond één probleem. Dat is precies het soort ding waar je pas om geeft nadat je agent 40 minuten in een loop heeft gezeten zonder resultaat.
GPT-5.4 leidt Terminal-Bench 2.0 met ongeveer zes punten (75,1% versus 69,4%), al merkt Anthropic op dat het GPT-5.4-cijfer uit een zelfgerapporteerde harness komt. GPT-5.4 introduceerde ook planaanpassing halverwege de respons via Interactive Thinking: tijdens complexe redenering kun je ingrijpen voordat het model klaar is met genereren en bijsturen als het pad verkeerd lijkt. Opus 4.7 heeft hier geen equivalent. Het SWE-bench-verschil is echt, maar: zes punten op een door de leverancier gekozen benchmark is nuttig signaal, geen eindoordeel.
Contextvenster en werk met lange context
Beide modellen ondersteunen grofweg 1M tokens; het verschil zit in je factuur als je die context gebruikt. Opus 4.7 rekent een vast tarief over het volledige venster, dus een verzoek van 900K tokens kost per token hetzelfde als een van 9K. GPT-5.4 rekent $2,50 per miljoen onder 272K inputtokens, maar ga je over die drempel heen, dan wordt de hele sessie herprijsd. De exacte cijfers behandel ik in de prijzensectie.
Er is ook een tokenizer-twist: Opus 4.7 kan dezelfde tekst tot 35% meer tokens toekennen dan 4.6. De prijs per token blijft gelijk, maar de effectieve kosten per taak kunnen stijgen.
Bij daadwerkelijke prestaties op lange context scoorde Opus 4.7 in partnertests gedeeld hoogste consistentie over zes onderzoeksmodule op 0,715. RAG-pipelines die dicht tegen de 1M-limiet aanzitten, moet je op je eigen workload testen voordat je op leveranciersbenchmarks vertrouwt.
Toolgebruik, multimodaliteit en interactie met de omgeving
Op papier lijken de tooloppervlakken op elkaar en in de praktijk verschillen ze meer. Op OSWorld-Verified (desktopcomputergebruik) leidt Opus 4.7 nu met 78,0% tegenover 75,0% voor GPT-5.4, beide boven de menselijke expertbaseline van 72,4%. Het beeld draait om bij browsergebaseerd webonderzoek: GPT-5.4 haalt 89,3% op BrowseComp (Pro-variant) versus 79,3% voor Opus 4.7. Eén kop "computergebruik" verhult het verschil tussen desktop en browser.
De opvallende multimodale upgrade van Opus 4.7 is visuele resolutie: afbeeldingen tot 2.576 pixels aan de lange zijde, circa 3,75 megapixels, meer dan driemaal eerdere Claude-modellen, automatisch op hogere kwaliteit verwerkt zonder API-parameter. XBOW, een securitytestpartner, meldde dat de visuele scherpte steeg van 54,5% op Opus 4.6 naar 98,5% op 4.7, de scherpste winst op een enkele benchmark in deze release.
De twee verschillen ook in toolarchitectuur. Het toolzoeksysteem van GPT-5.4 laadt definities on demand in plaats van ze allemaal in de prompt te stoppen, wat de token-overhead vermindert in grote toolecosystemen. Opus 4.7 redeneert eerst door het probleem voordat het tools inzet en gebruikt daardoor in totaal minder toolcalls; het toolgebruik neemt toe bij hogere effort-niveaus.
Stuurbaarheid, betrouwbaarheid en outputstijl
Opus 4.7 neemt instructies letterlijk. Het generaliseert niet van het ene item naar het andere en leidt geen verzoeken af die je niet expliciet deed, dus prompts die voor 4.6 waren geschreven kunnen zich onverwacht gedragen; Anthropic raadt aan om opnieuw te tunen. Het voordeel is betrouwbaarheid in lange agent-loops: het engineeringteam van Ramp merkte op dat aanzienlijk minder stapsgewijze begeleiding nodig was in multi-toolworkflows, en Hexagon’s tests vonden Opus 4.7 op laag effortniveau grofweg gelijk aan Opus 4.6 op medium.
Anthropic introduceerde ook xhigh als een nieuw effortniveau tussen high en max, en verhoogde de standaard van Claude Code naar xhigh voor alle plannen. In combinatie met de nieuwe tokenizer kunnen outputtoken-aantallen hoger uitvallen dan op 4.6 bij latere agent-turns; Task Budgets (nu in publieke bèta) laten je begrenzen wat een agent in een sessie uitgeeft. GPT-5.4’s verhaal rond stuurbaarheid draait om Interactive Thinking, zoals ik in de codeersectie besprak, en de promptgids van OpenAI vermeldt dat het model goed presteert bij expliciete outputcontracten.
Nog een noot uit Anthropics eigen veiligheidsevaluatie: Opus 4.7 verbeterde op eerlijkheid en weerstand tegen promptinjection versus 4.6, maar ging iets achteruit in het weerstaan van te gedetailleerde harm-reduction-adviezen over gecontroleerde substanties. Anthropics algemene oordeel: "grotendeels goed afgestemd en betrouwbaar, maar nog niet volledig ideaal in zijn gedrag."
Opus 4.7 vs. GPT-5.4 op benchmarktests
Benchmarks zijn het bekijken waard, maar je kunt er ook niet blind op varen. Beide leveranciers kozen benchmarks die in hun voordeel werken, en Vals.ai en Artificial Analysis hadden Opus 4.7 nog niet geïndexeerd toen dit werd geschreven. Test op je eigen taken voordat je conclusies trekt uit welke van deze dan ook.
Code-benchmarks
De tabel hieronder bevat het meest relevante codebewijsmateriaal uit het releasemateriaal van elke leverancier.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Notities |
|
SWE-bench Pro |
64,3% |
57,7% |
Door leverancier gerapporteerd; verschillende harness-configuraties |
|
SWE-bench Verified |
87,6% |
Niet gepubliceerd |
OpenAI heeft geen officiële score op deze variant vrijgegeven |
|
CursorBench |
~70% |
Niet gepubliceerd |
Cursor is een Anthropic-partner; niet onafhankelijk |
|
Terminal-Bench 2.0 |
69,4% |
75,1% |
Anthropic merkt op dat het GPT-5.4-cijfer uit een zelfgerapporteerde harness komt; GPT-5.4 ging ook achteruit ten opzichte van GPT-5.3-Codex (77,3%) |
|
GPQA Diamond |
94,2% |
94,4% (Pro) |
Feitelijk gelijk; vrijwel verzadigd op dit niveau |

Code-benchmarks vallen duidelijk uit in het voordeel van Opus 4.7. Afbeelding door de auteur.
SWE-bench heeft meerdere varianten en beide leveranciers lichtten degene uit waarop ze het best scoren. Anthropic paste geheugenfilters toe en meldt dat de voorsprong van Opus 4.7 blijft bestaan na het uitsluiten van gemarkeerde problemen. Context: Z.ai’s open-weight GLM-5.1 stond begin april 2026 kort bovenaan op SWE-bench Pro met 58,4% voordat de 64,3% van Opus 4.7 kwam, dus elke claim van "state of the art" heeft hier een korte houdbaarheid.
Agent- en computergebruik-benchmarks
Bij de release van Opus 4.7 publiceerde Anthropic vergelijkingscijfers voor beide modellen op de meeste agent-benchmarks. Het beeld is gemengd, niet eenzijdig.
|
Benchmark |
Claude Opus 4.7 |
GPT-5.4 |
Notities |
|
OSWorld-Verified |
78,0% |
75,0% |
Desktopcomputergebruik; beide boven de menselijke expertbaseline van 72,4% |
|
BrowseComp |
79,3% |
89,3% (Pro) |
Webonderzoek met multi-hop redeneren; GPT-5.4 leidt |
|
MCP-Atlas |
77,3% |
68,1% |
Geschaald toolgebruik over veel gekoppelde services |
|
WebArena-Verified |
Niet gepubliceerd |
67,3% |
Autonome webnavigatietaken |
|
Toolathlon |
Niet gepubliceerd |
54,6% |
Multistap toolorkestratie; omhoog vanaf 46,3% op GPT-5.2 |
|
Finance Agent v1.1 |
64,4% |
61,5% (Pro) |
Agent voor financieel onderzoek met lange context |
|
GDPval-AA |
1753 Elo |
1674 Elo |
Professioneel kenniswerk; Opus 4.7 leidt met 79 Elo-punten |
|
BigLaw Bench |
90,9% op hoog effort |
Niet gepubliceerd |
Juridische documenttaken; evaluatie door Harvey-partner |
Het beeld splitst per omgeving: Opus 4.7 wint op desktop, toolgebruik en kenniswerk; GPT-5.4 wint op browseronderzoek. Verschillende GPT-5.4-cijfers komen van de Pro-variant, dus de standaardtier kan lager scoren. Onafhankelijke runs op een gedeelde scaffold zijn de volgende stap.
Prijzen: Opus 4.7 vs. GPT-5.4
De headline-tarieven lijken simpel. Het daadwerkelijke kostenplaatje niet.
API-prijsstructuur
Het prijsverschil is het makkelijkst te begrijpen aan de hand van een paar concrete scenario’s.
Bij een verzoek met 100K tokens input en 10K tokens output (ruim onder GPT-5.4’s 272K-drempel) kost GPT-5.4 ongeveer $0,40 tegenover $0,75 voor Opus 4.7. Bij korte tot middellange context ongeveer de helft van de prijs.
Bij 500K input en 20K output, voorbij de drempel van GPT-5.4, kosten de twee modellen ongeveer hetzelfde: $2,95 versus $3,00. Bij 900K input en 10K output zijn ze bijna identiek.
De herprijzingsdrempel van 272K is waar veel mensen door worden verrast: die geldt voor de hele sessie, niet alleen voor tokens boven de limiet. Een pipeline die regelmatig prompts van 280K tokens verstuurt, betaalt het volledige langecontext-tarief op elk verzoek, niet alleen op de extra 8K. Dit is een sessiebrede herprijzing, geen marginale toeslag.

De kosten van GPT-5.4 stijgen voorbij 272K tokens. Afbeelding door de auteur.
Zoals ik in de contextsectie noemde, kan de nieuwe tokenizer dezelfde input tot 35% meer tokens toekennen dan op Opus 4.6. De prijs per token is gelijk, maar je werkelijke kosten per taak kunnen stijgen. Meet op echt verkeer; extrapoleren vanaf 4.6-baselines geeft je een te laag getal.
Beide platforms bieden ruwweg 90% korting op gecachte inputtokens: $0,50 per miljoen voor Opus 4.7, $0,25 per miljoen voor GPT-5.4 onder 272K. De Batch-API’s geven nog eens circa 50% extra korting voor niet-urgente taken. Voor asynchrone workloads zijn die kortingen de grootste hefboom op beide platforms.
Er zijn ook per-toolkosten die vaak worden gemist. Anthropic rekent $10 per 1.000 webzoekopdrachten, plus standaard tokenkosten voor opgehaalde content. OpenAI rekent opslag en queries voor file search apart. Deze lopen op in toolzware pipelines.
Kosten per type workload
Voor werk met korte context en hoog volume (API-calls onder 100K tokens, batchclassificatie, snelle iteratie) is GPT-5.4 goedkoper. Het verschil in inputkosten kan richting 2x gaan.
Boven 272K tokens draait het voordeel om. Het vaste tarief van Opus 4.7 wordt makkelijker te budgetteren en benadert GPT-5.4 qua totale kosten.
Beide platforms rekenen een kleine dataresidentiepremie (rond 10% aan beide kanten). Op dat niveau is het een compliance-keuze, geen prijsbeslissing. Voor agent-sessies in Claude Code zijn Task Budgets (besproken in de stuurbaarheidssectie) de belangrijkste hefboom voor tokenuitgaven.
Is Claude Opus 4.7 beter dan GPT-5.4?
Er is geen universeel antwoord, en elk artikel dat beweert van wel, verkoopt je iets.
Kies Claude Opus 4.7 als je primair langlopende software-engineering doet waar zelfverificatie telt, je agent desktopapplicaties bedient, je prompts regelmatig over de 272K tokens gaan, je workflow dichte screenshots of technische diagrammen leest, of je al werkt met Claude Code, Cursor, Replit of Devin.
Kies GPT-5.4 als je agent veel browsergebaseerd webonderzoek doet, je workloads onder 272K tokens blijven en kosten belangrijk zijn, je uitgestelde toolloading wilt in een groot toolecosysteem, of je team al op de OpenAI Responses API zit.
Overweeg beide te testen als je werk zich splitst tussen autonoom webonderzoek en langvormig coderen. De browser- en terminalsterktes van GPT-5.4 passen bij agentische webworkflows; de lusbestendigheid en flat-rate-prijzen van Opus 4.7 werken beter voor diepgaande engineeringsessies en documentzware pipelines.

Het juiste model kiezen voor jouw workflow. Afbeelding door de auteur.
Eén ding geldt voor beide keuzes: kortingen via de Batch API kunnen voor asynchrone workloads belangrijker zijn dan de modelkeuze. En omdat onafhankelijke benchmarks voor Opus 4.7 nog aan het inlopen zijn, is een pilot op een echt deel van je eigen werk meer waard dan welk vergelijkingsartikel dan ook, inclusief dit.
Conclusie
Het verschil tussen Claude Opus 4.7 en GPT-5.4 gaat minder over welk model slimmer is en meer over de vorm van het werk dat je doet.
Anthropic gokte op autonomie: een model dat coherentie vasthoudt tijdens lange engineeringruns en zijn eigen output checkt. OpenAI gokte op breedte: een breder tooloppervlak en lagere tarieven voor de meerderheid van de prompts die onder 272K tokens blijven.
Prijzen zijn waar de meeste teams worden verrast, en zoals eerder besproken is de prijswijziging bij sessies van 272K de specifieke valkuil. Wat de maandelijkse uitgaven doorgaans meer beïnvloedt dan de basiskeuze van het model, is caching en de kortingen via de Batch API op beide platforms.
De benchmarkverschillen zijn enkele procentpunten, en beide leveranciers brengen om de paar weken nieuwe modellen uit. Kies wat past bij je daadwerkelijke stack en kijk over een maand opnieuw.
Wil je dieper ingaan op het toepassen van deze modellen, dan behandelt onze cursus Software Development with Cursor AI-ondersteunde codeerworkflows in de praktijk.
Ik ben een data-engineer en communitybouwer die werkt aan datapijplijnen, cloud en AI-tools, en tegelijkertijd praktische, impactvolle tutorials schrijft voor DataCamp en beginnende developers.
FAQs
Is Claude Opus 4.7 beschikbaar buiten de API van Anthropic?
Ja. Opus 4.7 is beschikbaar op Amazon Bedrock, Google Cloud Vertex AI en Microsoft Foundry onder het model-ID claude-opus-4-7. Regionale beschikbaarheid en prijzen voor gecachte tokens kunnen per cloud verschillen, dus check de pagina van de provider als dataresidentie belangrijk is voor je deployment.
Moet ik mijn API-code updaten bij migratie van Opus 4.6 naar Opus 4.7?
Ja, drie breaking changes. Het instellen van temperature, top_p of top_k op niet-standaardwaarden geeft nu een 400-fout. De oudere parameter budget_tokens faalt; vervang deze door thinking in adaptive-modus. En de nieuwe tokenizer genereert meer tokens per verzoek, dus elke hardgecodeerde max_tokens -limiet die al krap was op 4.6 kan output op 4.7 afkappen. Tune je prompts ook opnieuw: 4.7 neemt instructies letterlooier dan 4.6.
Welk model is beter voor coderen?
Opus 4.7 leidt op SWE-bench Pro (64,3% versus 57,7%) en SWE-bench Verified (87,6%; OpenAI heeft hier geen score gepubliceerd). GPT-5.4 leidt op Terminal-Bench 2.0 met 75,1% versus 69,4%, al merkt Anthropic op dat dit cijfer uit een zelfgerapporteerde harness komt. Opus 4.7 voor engineering op repobeheer-niveau, GPT-5.4 voor terminalzware workflows. Onafhankelijke evaluaties op een gedeelde scaffold volgen nog.
Hoe beïnvloedt de tokenizerwijziging in Opus 4.7 de kosten?
De range is 1,0 tot 1,35x, geen vlakke 35%, dus de impact hangt af van het contenttype. De minder voor de hand liggende factor: 4.7 ‘denkt’ ook meer op hogere effort-niveaus bij latere agent-turns, waardoor tokenaantallen zich opstapelen over een sessie. Task Budgets zijn de praktische harde limiet.
Is GPT-5.4 beter in het gebruik van tools dan Claude Opus 4.7?
Op verschillende manieren. GPT-5.4 heeft een breder ingebouwd tooloppervlak (web search, file search, code interpreter, computer use) met on-demand toolloading. Opus 4.7 gebruikt minder toolcalls en redeneert vooraf. Notion meldde dat Opus 4.7 als eerste hun impliciete-behoeftetests haalde en een derde van de toolfouten van 4.6 produceerde. Op MCP-Atlas (geschaald toolgebruik) leidt Opus 4.7 met 77,3% tegenover 68,1%, dus een breder oppervlak betekent niet automatisch betere orkestratie.

