GPT-5.4 Computer Use-tutorial: Bouw een live nieuwsdashboard

Leer hoe je GPT-5.4 computer use gebruikt om een live nieuwsdashboard te bouwen dat automatisch nieuws verzamelt en samenvat.

Bijgewerkt 12 mei 2026 · 11 min lezen

GPT-5.4 introduceert mogelijkheden voor computergebruik, waardoor modellen direct met software-interfaces kunnen communiceren in plaats van te vertrouwen op applicatiespecifieke API’s. Door screenshots te bekijken en acties uit te voeren zoals klikken, typen en navigeren, kan het model browsers en applicaties bedienen zoals een menselijke gebruiker.

In deze tutorial gebruiken we OpenAI’s Computer-Using Agent (CUA) voorbeeldapp om te verkennen hoe GPT-5.4 met echte interfaces omgaat en breiden we de omgeving vervolgens uit om een live nieuwsdashboard te maken dat de nieuwste artikelen over een gekozen onderwerp verzamelt en samenvat.

Onderweg bekijken we eerst een paar ingebouwde scenario’s voor computergebruik, zoals Kanban-automatisering, tekenen op een canvas en een boekingsworkflow, om te begrijpen hoe de observeer–beslis–handel-lus in de praktijk werkt. Daarna passen we hetzelfde idee toe om een klein dashboard te bouwen dat recent nieuws ophaalt, kerndata extraheert en de resultaten in een gestructureerde UI weergeeft.

Aan het einde van deze tutorial weet je hoe je:

De GPT-5.4 Computer Use-omgeving draait
Observeert hoe agents met echte interfaces interacteren
Nieuwe applicatiefuncties genereert met Codex en
Een live nieuwsdashboard bouwt

Update: Voor een deep dive in de theorie achter het opvolgermodel van GPT 5.4 raad ik aan om onze GPT-5.5-blog te bekijken.

Wat is GPT-5.4 Computer Use?

GPT-5.4 introduceert native mogelijkheden voor computergebruik, zodat modellen met software-interfaces kunnen interacteren zoals een menselijke operator. In plaats van te vertrouwen op applicatiespecifieke API’s werkt het model direct vanuit de visuele status van de interface, waarbij het screenshots en UI-feedback gebruikt om te redeneren over de volgende actie. Dit stelt agents in staat om met echte omgevingen zoals browsers, dashboards en productiviteitstools te werken.

Met computer use kan het model acties uitvoeren zoals:

Navigeren op webpagina’s
Klikken op UI-elementen
Tekst typen in velden
Scrollen door documenten of pagina’s
Interacteren met dashboards en applicaties

Omdat het model redeneert over de interface zelf, kan het meerstaps-workflows in verschillende tools afronden zonder aangepaste integraties nodig te hebben.

Een agent voor computergebruik kan bijvoorbeeld het web doorzoeken naar informatie, relevante data extraheren, een rapport genereren en een dashboard bijwerken.

Onder de motorkap werkt het systeem via een eenvoudige agentlus die herhaaldelijk de interface observeert, een actie kiest en het resultaat verifieert. Zo verloopt de workflow:

Stuur een verzoek: De ontwikkelaar begint met een doelprompt, de tool voor computergebruik en een initiële screenshot van de interface.
Redeneren door het model en actievoorstel: GPT-5.4 analyseert de screenshot en stelt UI-acties voor zoals navigeren, klikken, typen of scrollen.
Uitvoering: De client of runner voert deze acties uit in de omgeving.
Bijgewerkte status teruggeven: Na voltooiing van de actie worden een nieuwe screenshot en de huidige paginastatus aan het model teruggestuurd.
Herhaal de lus: Het model observeert de bijgewerkte interface en kiest de volgende actie totdat de taak is voltooid.

Deze cyclus wordt vaak samengevat als:

observe -> decide -> act -> observe

GPT-5.4 Computer Use-demo: een live nieuwsdashboard bouwen (met extra voorbeelden)

In deze sectie bouwen we een live nieuwsdashboard op basis van GPT-5.4 computer use met OpenAI’s CUA-voorbeeldapp. De agent werkt in een echte browseromgeving om het laatste nieuws over een door de gebruiker gekozen onderwerp te verzamelen, de resultaten samen te vatten en ze in een gestructureerd dashboard weer te geven.

Zo werkt de workflow:

De gebruiker kiest in het dashboard een onderwerp van interesse.
De agent navigeert naar betrouwbare nieuwsbronnen in de browser en identificeert recente, relevante artikelen over het onderwerp.
GPT-5.4 extraheert per artikel de kop, bron en belangrijkste informatie.
De agent vat de bevindingen samen en produceert drie beknopte nieuwssamenvattingen.
De resultaten worden weergegeven in een dashboardachtige lay-out.

Naast het nieuwsdashboard verkennen we ook kort een paar kleinere prompts die laten zien hoe GPT-5.4 computer use interactieve applicaties kan genereren binnen dezelfde omgeving.

Onder de motorkap draait het systeem via de agentlus voor computergebruik, waarbij het model de omgeving observeert via screenshots, UI-acties (zoals navigeren of interactie) voorstelt en na elke stap een bijgewerkte status ontvangt.

Stap 1: Clone de CUA-voorbeeldapp en stel deze in

We gaan aan de slag met OpenAI’s CUA-voorbeeldapp en zetten de repo lokaal op onze device op. Clone eenvoudig de repository en installeer de dependencies als volgt:

git clone https://github.com/openai/openai-cua-sample-app.git
cd openai-cua-sample-app
corepack enable
pnpm install
cp .env.example .env

Hiermee maak je een .env-bestand aan waarin je je OpenAI API-sleutel toevoegt. Je kunt inloggen op je OpenAI-account en naar het dashboard navigeren om een nieuwe API-sleutel te genereren.

Als pnpm install waarschuwingen weergeeft over optionele pakketten zoals sharp of esbuild, kun je die voor lokale ontwikkeling negeren. Installeer daarna de Playwright browser-runtime:

pnpm playwright:install

Op Linux-systemen heb je mogelijk ook OS-dependencies nodig:

pnpm playwright:install:with-deps

Start tot slot de development-servers:

pnpm dev

Nu kun je de CUA-operatorconsole openen op http://127.0.0.1:3000. In deze console kun je agentruns starten en logs en screenshots inspecteren.

Stap 2: De ingebouwde scenario’s voor computergebruik verkennen

De voorbeeldapp bevat drie sandbox-omgevingen die ontworpen zijn om gedrag van computergebruik te demonstreren. Deze omgevingen helpen te illustreren hoe GPT-5.4 met interfaces omgaat.

Kanbanbord-automatisering

Het Kanbanbord-scenario laat zien hoe GPT-5.4 computer use kan redeneren over en manipuleren met gestructureerde UI-lay-outs via visuele interactie.

In dit voorbeeld krijgt de agent een doel, zoals het herorganiseren van taken op een Kanbanbord. In plaats van een applicatie-API aan te roepen, interageert de agent met de interface zoals een mens dat zou doen, dus door het bord te observeren, taakkaarten te identificeren en sleep-en-neerzetbewerkingen uit te voeren.

Onder de motorkap doorloopt GPT-5.4 de agentlus voor computergebruik:

De agent ontvangt een screenshot van het Kanbanbord samen met de huidige URL.
Het model analyseert de visuele lay-out en bepaalt waar taakkaarten en kolommen zich bevinden.
GPT-5.4 stelt UI-acties voor zoals:

de cursor naar een kaart verplaatsen
klikken en vasthouden
de kaart naar een andere kolom slepen

De runner voert deze acties uit via Playwright-pointerevents.
Er wordt een nieuwe screenshot gemaakt en teruggestuurd naar het model zodat het de bijgewerkte bordstatus kan verifiëren.

Het proces gaat door totdat het bord de gewenste configuratie weerspiegelt.

Wat dit voorbeeld interessant maakt, is dat het model niet vertrouwt op interne kennis van de Kanbanapplicatie.

In plaats daarvan redeneert het volledig vanuit de visuele status van de interface, waarbij het op basis van de screenshot bepaalt waar het moet klikken, slepen en neerzetten. Dit toont een belangrijk voordeel van GPT-5.4 computer use: ontwikkelaars kunnen workflows automatiseren zonder voor elke tool aangepaste integraties of API’s te bouwen.

Interactie met teken-canvas

Het Paint-scenario pakt taken aan die afhankelijk zijn van visuele lay-out, ruimtelijk redeneren en nauwkeurige cursorbesturing in plaats van simpel formulierinvullen. In deze setup krijgt de agent een tekeninstructie en moet die direct in de browsergebaseerde schetsapplicatie uitvoeren.

Ik gaf de agent de opdracht om verschillende scènes over het canvas te schetsen, en GPT-5.4 pakte de taak aan door kleuren te selecteren, het juiste tekengebied te lokaliseren en het raster overeenkomstig te vullen.

In tegenstelling tot het Kanbanvoorbeeld, waar de kernuitdaging bestond uit het verplaatsen van gestructureerde kaarten tussen kolommen, is dit scenario veel meer afhankelijk van het interpreteren van de visuele status van de app en het nemen van een reeks low-level interactiebeslissingen. Zo deed computer use het in deze demo:

Cursorbeweging en -targeting: GPT-5.4 interpreteert eerst de lay-out van de schetsinterface, inclusief het kleurpalet links en het lege pixelachtige canvas in het midden.
Tool- en kleurselectie: Het identificeert de beschikbare paletopties en klikt voor het tekenen op de juiste kleur. In de vastgelegde run wisselt het model van kleur en gebruikt die bewust om verschillende gebieden op het canvas te creëren.
Canvasinteractie: In plaats van een canvas-API aan te roepen, interageert de agent volledig via UI-acties met de app door de pointer naar specifieke cellen te verplaatsen en deze in herhaalde patronen te vullen.
Statusverificatie: Na elke batch acties maakt de runner een nieuwe screenshot en stuurt die terug naar het model, zodat het kan verifiëren dat het verwachte patroon op het canvas verschijnt.

Interessant is dat GPT-5.4 niet zomaar willekeurig klikte. Het gebruikte juist de feedbacklus via screenshots om te redeneren waar de tekening moest komen, welke kleur op dat moment geselecteerd was en hoe het canvas na elke actie veranderde.

In de latere frames zie je duidelijk hoe het canvas zich ontwikkelt van een leeg raster naar een gestructureerde compositie met grote kleurvlakken, wat laat zien dat het model zich over meerdere beurten bewust bleef van zowel voortgang als lay-out.

Boekingsworkflow

In deze omgeving interageert de agent met een gesimuleerde boekingswebsite en krijgt de opdracht een reserveringsflow te voltooien. Dat betekent dat het door meerdere UI-staten na elkaar moet gaan in plaats van één geïsoleerde actie op te lossen.

Zo wordt computer use toegepast in deze demo:

Interfacebegrip: GPT-5.4 begint met het interpreteren van de huidige schermlay-out en identificeert knoppen, formuliervelden, kalenders, dropdowns en bevestigingsknoppen.
Stap-voor-stap navigatie: De agent beslist welk deel van de workflow eerst moet worden voltooid, zoals een optie kiezen, naar het volgende scherm gaan of een formelement openen.
Formulieren invullen: Het voert de vereiste waarden in tekstvakken in en interageert met controls zoals dropdowns of datumkiezers.
Statustracking over beurten heen: Na elke actie maakt de runner een nieuwe screenshot en stuurt die terug naar het model, zodat het kan verifiëren welke velden al zijn ingevuld en wat er nog moet gebeuren.
Bevestiging en afronding: Zodra de vereiste invoer is gevuld, gaat de agent door naar de laatste bevestigingsstap en controleert of de reservering succesvol is afgerond.

Hoewel de Kanban-, Paint- en Booking-scenario’s allemaal UI-bediening demonstreren, moeten we ze toepassen op praktischere toepassingen.

In de volgende sectie gebruik ik hetzelfde idee om een live nieuwsdashboard te bouwen dat recente verhalen verzamelt, de resultaten structureert en ze in een bruikbare interface weergeeft via een no-code workflow binnen de Codex-applicatie.

Stap 3: Een live nieuwsdashboard maken met GPT-5.4

In deze stap passen we dezelfde mogelijkheden voor computergebruik toe om een live nieuwsdashboard te bouwen. Het doel is een klein dashboard te maken waar een gebruiker een onderwerp kan kiezen, zoals AI, politiek, klimaat, technologie, wetenschap, enz., en dat het systeem vervolgens:

Recente nieuwsverhalen uit betrouwbare bronnen verzamelt
Kerninformatie uit die artikelen extraheert
Drie beknopte samenvattingen genereert
De resultaten in een gestructureerd dashboardformaat weergeeft

In plaats van de applicatie handmatig te schrijven, gebruiken we Codex binnen de GPT-5.4-omgeving voor computergebruik en geven we de volgende prompt door om de functionaliteit direct binnen de bestaande CUA-repository te genereren.

Omdat Codex is verbonden met dezelfde omgeving die door de CUA-voorbeeldapp wordt gebruikt, kan de agent de repository analyseren, bepalen waar het dashboard moet komen en de UI en logica automatisch implementeren.

Prompt:

Build a live News Dashboard in this repo.
Goal:
Create a dashboard where a user can enter a topic of interest, fetch the latest important news in real time from trusted sources, and render exactly 3 structured results that are meaningful and topic-relevant.
Requirements:
- The dashboard must allow the user to type a topic such as AI, politics, climate, health, science, or tech.
- Fetch live results at request time. Do not hardcode stories.
- Use trusted sources appropriate to the topic. Prefer official or well-known outlets.
- Return exactly 3 items.
- Each item must include:
  - HEADLINE
  - SOURCE
  - SUMMARY
- Summaries must be in your own words, concise, and clearly related to the article and topic.
- Avoid low-quality results such as homepages, category pages, generic aggregator wrappers, or meaningless titles.
- Prefer direct article URLs over search/aggregator wrapper links.
- Keep the UI minimal and consistent with the repo’s existing design language.
- Reuse the existing framework/tooling. Do not add new dependencies unless truly necessary.
Implementation plan:
1. Inspect the repo and place the dashboard in the existing app structure without breaking the current console.
2. Add a topic input UI with a search action and a loading/error state.
3. Add a server-side news fetch path that:
   - maps topics to trusted source sets
   - fetches recent results in real time
   - filters out irrelevant or low-quality matches
   - resolves direct article URLs where possible
   - extracts useful metadata for headline/source/summary
4. Render the dashboard with:
   - page title
   - topic
   - date
   - intro
   - exactly 3 cards/items
   - a structured export block that can be copied into another dashboard
5. Keep the export block in this exact format:
---BEGIN DASHBOARD CONTENT---
TITLE: News Brief — [TOPIC]
DATE: [today's date]
INTRO: Top 3 [TOPIC] updates from trusted sources.
ITEM 1:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
ITEM 2:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
ITEM 3:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
SOURCES_USED: [comma-separated list of sites used]
---END DASHBOARD CONTENT---
Deliverables:
- A working live dashboard route in the app
- Real-time topic search
- Exactly 3 relevant results per search
- Structured export block visible in the UI
- Short run instructions
- Basic tests for parsing/formatting logic if the repo already has a test runner

De prompt instrueert Codex om een live nieuwsdashboard binnen de bestaande repository te bouwen door te fungeren als een high-level specificatie in plaats van gedetailleerde implementatiecode.

Codex inspecteert eerst de projectstructuur om te bepalen waar de dashboard-UI en backendlogica moeten worden toegevoegd. Vervolgens maakt het een invoerveld voor het onderwerp, haalt het in real time recente artikelen op uit betrouwbare bronnen, extraheert het kerndata zoals kop, bron en samenvatting, en filtert het de resultaten om relevantie te waarborgen.

Tot slot rendert het precies drie nieuwsitems in een strakke, gestructureerde lay-out die eenvoudig in het dashboard kan worden bekeken of geëxporteerd.

GPT-5.4 computer use maakt deze workflow mogelijk doordat het model de ontwikkelomgeving kan observeren en ermee kan interacteren terwijl de functionaliteit wordt gegenereerd.

In plaats van puur als codegenerator op te treden, analyseert Codex de repository, bepaalt waar nieuwe componenten moeten komen en implementeert het stapsgewijs het dashboard terwijl het de resultaten verifieert.

De workflow omvat verschillende kernstappen:

Repository-inspectie: Codex scant de projectstructuur om te identificeren waar de dashboard-UI en ondersteunende logica moeten worden toegevoegd.
Gebruikersinterface: Het maakt een invoerveld voor onderwerpen waarmee gebruikers kunnen zoeken naar thema’s zoals AI, klimaat of technologie.
Realtime nieuws ophalen: Het systeem verzamelt recente artikelen uit betrouwbare bronnen in plaats van te vertrouwen op hardcoded voorbeelden.
Filteren en samenvatten: GPT-5.4 extraheert nuttige metadata zoals de kop, bron en samenvatting, zodat de resultaten relevant blijven voor het gekozen onderwerp.
Gestructureerde weergave: Tot slot toont het dashboard precies drie nieuwsitems in een kaartachtige lay-out zodat de resultaten makkelijk te scannen zijn.

Opmerking: Het uiteindelijke dashboard is niet met één enkele prompt gegenereerd. Er waren een paar iteraties en promptverfijningen nodig om het gewenste gedrag en uitvoerformaat te krijgen. Als je vergelijkbare experimenten uitvoert, reken dan op wat trial-and-error terwijl je de prompt en randvoorwaarden bijstelt. Zorg er ook voor dat je browser of systeem geautomatiseerde browserinteracties niet blokkeert, want dergelijke beperkingen kunnen de workflows voor computergebruik verstoren.

Conclusie

In deze tutorial hebben we verkend hoe GPT-5.4 Computer Use kan worden gebruikt om agents te bouwen die met echte softwareomgevingen interacteren in plaats van te vertrouwen op traditionele API’s. Met de CUA-voorbeeldapp van OpenAI bekeken we eerst hoe de lus voor computergebruik werkt via een paar sandbox-scenario’s, dus hoe het model interfaces observeert, acties voorstelt en resultaten via screenshots verifieert.

Vervolgens pasten we hetzelfde concept toe om binnen de CUA-omgeving met Codex een live nieuwsdashboard te bouwen. In plaats van de applicatie handmatig te schrijven, fungeerde een prompt als high-level specificatie, waardoor Codex de repository kon inspecteren, de UI en logica voor het dashboard kon genereren, recent nieuws uit betrouwbare bronnen kon ophalen en de resultaten in een gestructureerd formaat kon weergeven.

Van hieruit kun je dit idee verder uitbouwen door agents te maken die:

Interne dashboards of rapportagetools automatiseren
Onderzoekspipelines genereren
Industrietrends in real time volgen
Nieuwe productfuncties direct binnen bestaande repositories prototypen

Naarmate modellen voor computergebruik verbeteren, kunnen ze worden ingezet voor meer generalistische ontwikkel- en automatiseringsagents die met zowel software-interfaces als codebases kunnen interacteren.