Cursus
GLM 4.7 Flash wordt snel een populaire keuze voor lokaal agentisch coden. Veel ontwikkelaars gebruiken het met tools zoals llama.cpp en LM Studio. Toch lopen veel mensen nog tegen problemen aan bij de installatie, het model correct laten draaien en ervoor zorgen dat tool-calls werken zoals verwacht.
Deze tutorial richt zich op de eenvoudigste en meest betrouwbare manier om GLM 4.7 Flash lokaal te draaien met Claude Code en Ollama. Het doel is om wrijving weg te nemen en je zonder onnodige complexiteit een werkende setup te geven.
Deze gids werkt op alle besturingssystemen. Het maakt niet uit of je Linux, Windows of macOS gebruikt. Aan het einde heb je GLM 4.7 Flash lokaal draaien en correct geïntegreerd met Claude Code via Ollama.
Vereisten
Zorg voordat je begint dat je systeem aan de minimale hardware- en softwarevereisten hieronder voldoet.
Hardware:
- NVIDIA GPU met minimaal 16 GB VRAM
- 24 GB VRAM aanbevolen voor soepelere inferentie bij grotere contextgroottes
- 16–32 GB systeem-RAM
- Minstens 25 GB vrije schijfruimte
Als je geen GPU hebt, kan het model op een CPU draaien, maar de prestaties zijn aanzienlijk trager en er is veel RAM nodig.
Software:
- Linux of macOS aanbevolen. Windows-gebruikers: gebruik WSL2 met GPU-passthrough ingeschakeld.
- Er moet een NVIDIA GPU-driver geïnstalleerd zijn die compatibel is met je CUDA-versie
- Installeer CUDA Toolkit 13.1
- Als CUDA/driver ontbreekt of incompatibel is, valt Ollama doorgaans terug op de CPU, wat veel trager is.
Als de CUDA-toolkit of NVIDIA-drivers ontbreken of incompatibel zijn, schakelt Ollama over naar CPU-modus, wat veel trager is.
Om te verifiëren dat je GPU en CUDA-drivers correct zijn geïnstalleerd, voer je de volgende opdracht uit in je terminal:
nvidia-smi
Als alles goed is ingesteld, zie je je GPU vermeld, samen met de beschikbare VRAM en CUDA-versie.

1. Installeer Ollama
Ollama is de runtime die we gebruiken om GLM 4.7 Flash lokaal te draaien en het zo aan te bieden dat Claude Code er betrouwbaar mee kan communiceren. Installatie is eenvoudig op alle ondersteunde platforms.
Op Linux kun je Ollama installeren met één opdracht:
curl -fsSL https://ollama.com/install.sh | sh
Voor macOS en Windows download je de installer rechtstreeks van de Ollama-website en volg je de instructies op het scherm.

Bron: Ollama
Ollama draait als een achtergrondservice en controleert automatisch op updates. Wanneer er een update beschikbaar is, kun je die toepassen door in het Ollama-menu "Opnieuw starten om te updaten" te selecteren.
Open na de installatie een terminal en controleer of Ollama correct is geïnstalleerd:
ollama -v
Je zou uitvoer moeten zien zoals:
ollama version is 0.15.2
Als je een fout ziet bij het uitvoeren van ollama -v, betekent dit meestal dat de Ollama-service nog niet draait. Start de Ollama-server handmatig:
ollama serve
Laat dit draaien, open een nieuw terminalvenster en voer vervolgens uit:
ollama -v
Zodra de versie-opdracht werkt, is Ollama klaar voor gebruik in de volgende stappen van de tutorial.
2. GLM-4.7-Flash ophalen en uitvoeren
Zodra Ollama is geïnstalleerd en draait, is de volgende stap het downloaden van het GLM 4.7 Flash-model en controleren of het correct werkt. Deze stap zorgt ervoor dat het model lokaal draait voordat je het met Claude Code integreert.

Bron: glm-4.7-flash
Begin met het downloaden van het model uit het register van Ollama:
ollama pull glm-4.7-flash
Dit downloadt de modelfiles en slaat ze lokaal op. Afhankelijk van je internetsnelheid kan dit enkele minuten duren.
![]()
Na het voltooien van de download, voer je het model uit in interactieve chatmodus als snelle sanity check:
ollama run glm-4.7-flash
Typ een eenvoudige prompt, zoals een begroeting, en druk op enter. Binnen enkele seconden zou je een reactie moeten krijgen.
Als je op een GPU draait, merk je dat reacties erg snel zijn en dat de output afhankelijk van de modelconfiguratie interne denktokens of redeneertraces kan bevatten.

Je kunt het model ook testen via de lokale HTTP-API van Ollama. Dit is handig om te bevestigen dat externe tools met het model kunnen communiceren.
Voer de volgende opdracht uit:
curl http://localhost:11434/api/chat -d '{
"model": "glm-4.7-flash",
"messages": [{"role":"user","content":"Hello!"}]
}'
3. Contextlengte instellen
Claude Code en de meeste agentische codingtools werken het best met grote contextvensters, vaak tot 64k tokens. Met GLM 4.7 Flash is het echter belangrijk om de juiste contextlengte te kiezen voor zowel prestaties als stabiliteit.
Zeer grote contextgroottes kunnen de generatiesnelheid aanzienlijk vertragen. In de praktijk kan de token-throughput dalen van meer dan 100 tokens per seconde tot slechts 2 tokens per seconde. In sommige gevallen kan het model ook vastlopen in lange denkloops als het contextvenster te hoog is ingesteld.
We hebben meerdere contextgroottes getest en ontdekten dat een context van 10k niet voldoende was voor Claude Code-workflows. Een context van 20k bood een goede balans. Die was groot genoeg voor codetaken, met behoud van snelle responstijden en minder onnodige denkloops.
Stop eerst de draaiende Ollama-server. Dit kan door in de terminal op Ctrl + C te drukken of het proces te beëindigen.
Start daarna Ollama opnieuw met een aangepaste contextlengte door de omgevingsvariabele in te stellen voordat je de server start:
OLLAMA_CONTEXT_LENGTH=20000 ollama serve
Dit vertelt Ollama om modellen te laden met een maximaal contextvenster van 20.000 tokens.
Voer in een nieuw terminalvenster uit:
ollama ps
Dit bevestigt dat GLM 4.7 Flash op de GPU draait en dat de contextlengte correct is ingesteld. Op dit punt is het model geconfigureerd voor stabiel en snel gebruik met Claude Code.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
glm-4.7-flash:latest d1a8a26252f1 21 GB 100% GPU 20000 About a minute from now
4. Installeer Claude Code
Claude Code is Anthropics terminalgebaseerde codeagent die je helpt code te schrijven, bewerken, refactoren en begrijpen in natuurlijke taal. Het is gebouwd voor agentische workflows en kan meerstaps codetaken rechtstreeks vanaf je command line uitvoeren.
In combinatie met Ollama kun je Claude Code eenvoudig gebruiken met lokale modellen zoals GLM 4.7 Flash, zodat je alles lokaal draait en je code op je eigen machine blijft.
Op macOS, Linux of Windows met WSL installeer je Claude Code met het officiële installatiescript:
curl -fsSL https://claude.ai/install.sh | bash
Deze opdracht downloadt en installeert Claude Code samen met de vereiste afhankelijkheden. Zodra de installatie is voltooid, is het claude-commando beschikbaar in je terminal.

5. Verbind Claude Code met Ollama
Nu zowel Ollama als Claude Code geïnstalleerd zijn, is de volgende stap om Claude Code te verbinden met je lokale Ollama-server en te configureren om het GLM 4.7 Flash-model te gebruiken.
Begin met het aanmaken van een werkmap voor je project. Dit is waar Claude Code zal werken en bestanden beheert:
mkdir <project-name>
cd <project-name>
Ollama biedt nu een ingebouwde manier om Claude Code te starten die het automatisch configureert om met de lokale Ollama-runtime te praten. Dit is de aanbevolen en meest betrouwbare aanpak.
Om Claude Code interactief te starten met Ollama:
ollama launch claude
Om Claude Code direct te starten met het GLM 4.7 Flash-model, voer je uit:
ollama launch claude --model glm-4.7-flash
Dit zorgt ervoor dat Claude Code je lokale GLM 4.7 Flash-model gebruikt in plaats van een extern of standaardmodel.
Zodra alles is ingesteld, zie je de interface van Claude Code direct in je terminal.

Gebruik binnen Claude Code het volgende commando om te bevestigen dat je lokale model wordt gebruikt:
/model
Als de output glm-4.7-flash toont, is je setup compleet en draait Claude Code succesvol op je lokale Ollama-model.

7. Claude Code gebruiken met Ollama
Nu alles is ingesteld, kun je Claude Code gebruiken, aangedreven door je lokale GLM 4.7 Flash-model. Probeer eerst een simpele begroeting. Binnen een seconde of twee zou je een reactie moeten krijgen. De snelheid is duidelijk merkbaar, vooral op een GPU.

Probeer daarna een realistischer codetask. Vraag Claude Code om een CLI Snake-game in Python te bouwen. Schakel voor het genereren van code eerst over naar de planningsmodus zodat het model zijn aanpak schetst. Je schakelt de planningsmodus in door Shift + Tab twee keer in te drukken.
Zodra het plan is gegenereerd, bekijk je het. Als de aanpak goed lijkt, vraag Claude Code dan het plan uit te voeren.
Binnen een paar minuten zijn de benodigde bestanden aangemaakt, is uitgelegd wat de Snake-game doet en zijn duidelijke instructies gegeven om het te draaien.
Open een nieuw terminalvenster en zorg dat je in dezelfde projectmap zit. Start vervolgens de game met:
python3 snake_game.py
De game draait out-of-the-box zonder extra setup. Het is een eenvoudige, terminalgebaseerde Snake-game, erg vergelijkbaar met de klassieke Nokia 3310-versie. Ondanks de eenvoud is het een goed voorbeeld van hoe snel en effectief lokaal agentisch coden kan zijn met Claude Code en Ollama.

Tot slot
Claude Code draaien met GLM 4.7 Flash op Ollama laat zien hoe ver lokaal agentisch coden is gekomen. Je krijgt snelle reacties, sterke codegeneratie en volledige controle over je data, allemaal zonder afhankelijk te zijn van cloudmodellen.
Eenmaal geconfigureerd voelt de workflow soepel en betrouwbaar, zelfs voor meerstaps codetaken.
Een belangrijke les is dat grotere contextvensters en complexere setups niet altijd beter zijn. Met verstandige defaults duurt de hele setup ongeveer vijf minuten, exclusief de tijd voor het downloaden van het model, wat afhangt van je internetverbinding.
Als je het GGUF-bestand voor het model al hebt gedownload, gaat de setup nog sneller. In dat geval kun je het downloaden van het model helemaal overslaan en het bestaande GGUF-bestand simpelweg registreren bij Ollama door een Modelfile te maken.
Hiermee definieer je de generatieparameters één keer en kun je het model consistent hergebruiken over runs en tools heen.
Maak een bestand met de naam Modelfile in dezelfde map als je GGUF-bestand:
FROM ./glm-4.7-flash.gguf
PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
Je kunt de parameters naar wens aanpassen:
- Temperatuur: 0,7 tot 1,0
- Top-p: 0,95 tot 1,0
- Repeat penalty: uitgeschakeld of ingesteld op 1,0
Registreer het model bij Ollama:
ollama create glm-4.7-flash-local -f Modelfile
Zodra het model is aangemaakt, kun je het direct in chatmodus draaien:
ollama run glm-4.7-flash-local
Het model kan nu worden gebruikt zoals elk ander Ollama-model en naadloos worden geïntegreerd met Claude Code.
Ik heb veel plezier gehad met het bouwen van apps en games met GLM 4.7 Flash in Claude Code. Het voelt oprecht krachtig om op een afgelegen plek te werken zonder internet of met instabiele verbinding. Alles draait lokaal, niets valt uit, en je hebt toch een krachtige codeagent binnen handbereik. Dat gevoel van controle en onafhankelijkheid is moeilijk te overtreffen.
Als je meer wilt leren over de tools die we in dit artikel hebben behandeld, raad ik de volgende resources aan:
FAQs
Welke lokale modellen werken het best voor agentisch coden?
Claude Code draaien met Ollama is een van de krachtigste "vibe-coding"-setups voor 2026. Het laat je Anthropics geavanceerde terminalagent gebruiken terwijl je je broncode volledig privé houdt en dure API-kosten vermijdt.
Sinds Ollama v0.14 heeft het native compatibiliteit met de Anthropic Messages API, wat betekent dat je de cloud-backend met een paar omgevingsvariabelen kunt omruilen voor een lokale.
5 algemene FAQs voor Claude Code + Ollama
1. Hoe wijs ik Claude Code naar mijn lokale Ollama-server?
Claude Code zoekt standaard naar de Anthropic API. Om het te verwijzen naar Ollama, moet je deze drie omgevingsvariabelen instellen in je terminal voordat je het claude-commando uitvoert:
- Linux/macOS:
Bash
export ANTHROPIC_BASE_URL="http://localhost:11434" export ANTHROPIC_AUTH_TOKEN="ollama" export ANTHROPIC_API_KEY="" - Windows (PowerShell):
PowerShell
$env:ANTHROPIC_BASE_URL = "http://localhost:11434" $env:ANTHROPIC_AUTH_TOKEN = "ollama" $env:ANTHROPIC_API_KEY = ""
Tip: Als je de nieuwste Ollama gebruikt, kun je simpelweg
ollama launch claudeuitvoeren om deze variabelen automatisch voor je te laten configureren.
2. Welke lokale modellen werken het best voor agentisch coden?
Niet elk lokaal model kan de complexe "agentische" instructies (tool-calls, bestanden lezen en meerstaps planning) aan die Claude Code vereist. Sinds begin 2026 zijn dit de favorieten uit de community:
- GLM 4.7 Flash: Sterk geoptimaliseerd voor snelheid en grote contextvensters (128k).
- Qwen 2.5 Coder (32B of 7B): Momenteel de gouden standaard voor open-source coderedeneren.
- Codestral: Uitstekend voor Python en complexe logica, maar zwaarder qua hardware.
Wat zijn de minimale hardwarevereisten?
Omdat Claude Code een enorme systeemprompt (~16k tokens) verstuurt om zijn gedrag te definiëren, is hardware de primaire bottleneck:
- Aanbevolen: NVIDIA GPU met 16GB-24GB VRAM (bijv. RTX 3090/4090) of een Apple M-serie Mac met 32GB+ RAM.
- Minimaal: 16GB totaal RAM. Als je geen GPU hebt, kun je kleinere modellen (zoals Qwen 7B) op je CPU draaien, maar verwacht dat "Planningsmodus" meerdere minuten per stap duurt.
Waarom blijft Claude Code proberen verbinding te maken met internet?
Zelfs met een lokaal model kan Claude Code proberen "niet-essentiële" traffic te versturen, zoals telemetrie of updatechecks. Als je in een strikt offline omgeving zit of maximale privacy wilt, stel dan deze extra variabele in:
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
Dit zorgt ervoor dat de agent niet "naar huis belt" en binnen je lokale netwerk blijft.
Kan ik "Planningsmodus" gebruiken met lokale modellen?
Ja. Lokale modellen die tool use ondersteunen (zoals GLM 4.7 Flash of Qwen 2.5 Coder) kunnen de planningsmodus van Claude Code aan. Als het model echter niet krachtig genoeg is, kan het vastlopen in een "denkloop" waarin dezelfde stap wordt herhaald.
- Oplossing: Probeer in dat geval een grotere kwantisatie (bijv. overstappen van een
q4naar eenq8offp16-versie van het model) of verhoog jenum_ctx(contextvenster) in je Ollama Modelfile tot minstens 32.000.
Als gecertificeerd data scientist haal ik met passie het maximale uit de nieuwste technologie om innovatieve machinelearning-toepassingen te bouwen. Met een sterke achtergrond in spraakherkenning, data-analyse en -rapportage, MLOps, conversationele AI en NLP heb ik mijn vaardigheden aangescherpt in het ontwikkelen van intelligente systemen die echt impact maken. Naast mijn technische expertise ben ik ook een sterke communicator met een talent om complexe concepten terug te brengen tot heldere, beknopte taal. Daardoor ben ik uitgegroeid tot een veelgelezen blogger over data science, waar ik mijn inzichten en ervaringen deel met een groeiende community van data-professionals. Op dit moment richt ik me op contentcreatie en redactie, waarbij ik met large language models werk aan krachtige en aansprekende content die zowel bedrijven als individuen helpt het beste uit hun data te halen.

