Corso
GLM 4.7 Flash sta rapidamente diventando una scelta popolare per il coding agentico in locale. Molti sviluppatori lo usano con strumenti come llama.cpp e LM Studio. Tuttavia, molte persone incontrano ancora problemi durante la configurazione, nell’avvio corretto del modello e nel far funzionare la chiamata agli strumenti come previsto.
Questo tutorial si concentra sul modo più semplice e affidabile per eseguire GLM 4.7 Flash in locale usando Claude Code con Ollama. L’obiettivo è eliminare gli attriti e aiutarti a ottenere una configurazione funzionante senza complessità inutili.
Questa guida funziona su tutti i sistemi operativi. Non importa se usi Linux, Windows o macOS. Alla fine, avrai GLM 4.7 Flash in esecuzione in locale e correttamente integrato con Claude Code tramite Ollama.
Prerequisiti
Prima di iniziare, assicurati che il tuo sistema soddisfi i requisiti minimi hardware e software qui sotto.
Hardware:
- GPU NVIDIA con almeno 16 GB di VRAM
- 24 GB di VRAM consigliati per un’inferenza più fluida con contesti più grandi
- 16–32 GB di RAM di sistema
- Almeno 25 GB di spazio libero su disco
Se non hai una GPU, il modello può girare su CPU, ma le prestazioni saranno significativamente più lente e servirà molta RAM.
Software:
- Consigliati Linux o macOS. Utenti Windows: usa WSL2 con passthrough della GPU abilitato.
- Un driver GPU NVIDIA deve essere installato e compatibile con la tua versione di CUDA
- Installa CUDA Toolkit 13.1
- Se CUDA/driver manca o è incompatibile, Ollama di solito ripiega sulla CPU, molto più lenta.
Se il toolkit CUDA o i driver NVIDIA mancano o sono incompatibili, Ollama userà la modalità CPU, che è molto più lenta.
Per verificare che GPU e driver CUDA siano installati correttamente, esegui il seguente comando nel terminale:
nvidia-smi
Se tutto è a posto, dovresti vedere la tua GPU elencata insieme alla VRAM disponibile e alla versione di CUDA.

1. Installa Ollama
Ollama è il runtime che useremo per eseguire GLM 4.7 Flash in locale ed esporlo in modo che Claude Code possa interagire in maniera affidabile. L’installazione è semplice su tutte le piattaforme supportate.
Su Linux, puoi installare Ollama con un solo comando:
curl -fsSL https://ollama.com/install.sh | sh
Per macOS e Windows, scarica l’installer direttamente dal sito Ollama e segui le istruzioni sullo schermo.

Fonte: Ollama
Ollama gira come servizio in background e controllerà automaticamente la presenza di aggiornamenti. Quando è disponibile un update, puoi applicarlo selezionando “Riavvia per aggiornare” dal menu di Ollama.
Dopo l’installazione, apri un terminale e verifica che Ollama sia installato correttamente:
ollama -v
Dovresti vedere un output simile a:
ollama version is 0.15.2
Se vedi un errore eseguendo ollama -v, di solito significa che il servizio Ollama non è ancora in esecuzione. Avvia manualmente il server Ollama:
ollama serve
Lascia questo processo in esecuzione, apri una nuova finestra del terminale e poi esegui:
ollama -v
Una volta che il comando della versione funziona, Ollama è pronto per essere usato nei prossimi passaggi del tutorial.
2. Scarica ed esegui GLM-4.7-Flash
Una volta installato e avviato Ollama, il passo successivo è scaricare il modello GLM 4.7 Flash e verificare che funzioni correttamente. Questo assicura che il modello giri in locale prima di integrarlo con Claude Code.

Fonte: glm-4.7-flash
Inizia scaricando il modello dal registro di Ollama:
ollama pull glm-4.7-flash
Questo scaricherà i file del modello e li salverà in locale. A seconda della velocità della tua connessione, potrebbe richiedere alcuni minuti.
![]()
Al termine del download, avvia il modello in modalità chat interattiva come controllo rapido:
ollama run glm-4.7-flash
Scrivi un prompt semplice, ad esempio un saluto, e premi invio. Entro pochi secondi dovresti ricevere una risposta.
Se stai usando una GPU, noterai che le risposte sono molto veloci e l’output potrebbe includere token di pensiero interni o tracce di ragionamento a seconda della configurazione del modello.

Puoi anche testare il modello tramite l’API HTTP locale di Ollama. È utile per confermare che strumenti esterni possano comunicare con il modello.
Esegui il seguente comando:
curl http://localhost:11434/api/chat -d '{
"model": "glm-4.7-flash",
"messages": [{"role":"user","content":"Hello!"}]
}'
3. Imposta la lunghezza del contesto
Claude Code e la maggior parte degli strumenti di coding agentico funzionano al meglio con finestre di contesto ampie, spesso fino a 64k token. Tuttavia, con GLM 4.7 Flash, scegliere la lunghezza del contesto giusta è importante sia per le prestazioni che per la stabilità.
Usare contesti molto grandi può rallentare significativamente la velocità di generazione. In pratica, il throughput può scendere da oltre 100 token al secondo fino a soli 2 token al secondo. In alcuni casi, il modello può anche bloccarsi in lunghi loop di pensiero se la finestra di contesto è impostata troppo in alto.
Abbiamo testato diverse dimensioni di contesto e abbiamo riscontrato che 10k non era sufficiente per i flussi di lavoro di Claude Code. Un contesto da 20k ha offerto un buon equilibrio. Era abbastanza grande per i compiti di coding mantenendo tempi di risposta rapidi e riducendo loop di pensiero inutili.
Per prima cosa, ferma il server Ollama in esecuzione. Puoi farlo premendo Ctrl + C nel terminale o terminando il processo.
Poi, riavvia Ollama con una lunghezza di contesto personalizzata impostando la variabile d’ambiente prima di lanciare il server:
OLLAMA_CONTEXT_LENGTH=20000 ollama serve
Questo dice a Ollama di caricare i modelli con una finestra di contesto massima di 20.000 token.
In una nuova finestra del terminale, esegui:
ollama ps
Questo conferma che GLM 4.7 Flash sta girando sulla GPU e che la lunghezza del contesto è stata impostata correttamente. A questo punto, il modello è configurato per un uso stabile e veloce con Claude Code.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
glm-4.7-flash:latest d1a8a26252f1 21 GB 100% GPU 20000 About a minute from now
4. Installa Claude Code
Claude Code è l’agente per il coding da terminale di Anthropic che ti aiuta a scrivere, modificare, fare refactor e capire il codice usando il linguaggio naturale. È pensato per flussi di lavoro agentici e può gestire compiti di coding multi-step direttamente dalla riga di comando.
Insieme a Ollama, Claude Code può essere usato facilmente con modelli locali come GLM 4.7 Flash, permettendoti di eseguire tutto in locale e mantenere il codice sulla tua macchina.
Su macOS, Linux o Windows con WSL, installa Claude Code usando lo script ufficiale:
curl -fsSL https://claude.ai/install.sh | bash
Questo comando scarica e installa Claude Code insieme alle dipendenze richieste. Una volta completata l’installazione, il comando claude sarà disponibile nel tuo terminale.

5. Collega Claude Code a Ollama
Ora che sia Ollama sia Claude Code sono installati, il passo successivo è collegare Claude Code al tuo server Ollama locale e configurarlo per usare il modello GLM 4.7 Flash.
Inizia creando una directory di lavoro per il tuo progetto. Qui è dove Claude Code opererà e gestirà i file:
mkdir <project-name>
cd <project-name>
Ollama ora fornisce un modo integrato per lanciare Claude Code che lo configura automaticamente per parlare con il runtime locale di Ollama. È l’approccio consigliato e più affidabile.
Per avviare Claude Code in modo interattivo usando Ollama:
ollama launch claude
Per avviare direttamente Claude Code usando il modello GLM 4.7 Flash, esegui:
ollama launch claude --model glm-4.7-flash
Questo assicura che Claude Code usi il tuo modello GLM 4.7 Flash locale invece di un modello remoto o predefinito.
Una volta configurato tutto, vedrai l’interfaccia di Claude Code direttamente nel terminale.

All’interno di Claude Code, usa il seguente comando per confermare che stia usando il tuo modello locale:
/model
Se l’output mostra glm-4.7-flash, la configurazione è completata e Claude Code sta girando con successo sul tuo modello locale in Ollama.

7. Usare Claude Code con Ollama
Con tutto configurato, puoi iniziare a usare Claude Code alimentato dal tuo modello locale GLM 4.7 Flash. La prima cosa da provare è un semplice saluto. Nel giro di uno o due secondi dovresti ricevere una risposta. La velocità è notevole, soprattutto su GPU.

Poi prova un compito di coding più realistico. Chiedi a Claude Code di creare un gioco Snake da CLI in Python. Prima di generare il codice, passa alla modalità di pianificazione in modo che il modello delinei prima l’approccio. Puoi attivare la modalità di pianificazione premendo Shift + Tab due volte.
Una volta generato il piano, rivedilo. Se l’approccio ti sembra valido, chiedi a Claude Code di eseguirlo.
Nel giro di pochi minuti, avrai i file necessari, una spiegazione di cosa fa il gioco Snake e istruzioni chiare su come avviarlo.
Apri una nuova finestra del terminale e assicurati di essere nella stessa directory del progetto. Poi avvia il gioco con:
python3 snake_game.py
Il gioco parte subito senza configurazioni extra. È un semplice Snake da terminale, molto simile alla versione classica del Nokia 3310. Nonostante la semplicità, è un ottimo esempio di quanto possano essere veloci ed efficaci i flussi di lavoro agentici in locale con Claude Code e Ollama.

Considerazioni finali
Usare Claude Code con GLM 4.7 Flash su Ollama mostra quanta strada abbia fatto il coding agentico in locale. Ottieni risposte rapide, una forte capacità di generazione del codice e pieno controllo sui tuoi dati, il tutto senza dipendere da modelli ospitati nel cloud.
Una volta configurato, il flusso di lavoro è fluido e affidabile, anche per compiti di coding multi-step.
Un punto chiave è che finestre di contesto più grandi e configurazioni più complesse non sono sempre meglio. Con impostazioni sensate, l’intera configurazione richiede circa cinque minuti, escluso il tempo di download del modello, che dipende dalla tua connessione.
Se hai già scaricato il file GGUF del modello, la configurazione è ancora più veloce. In questo caso, puoi saltare il download del modello e semplicemente registrare il file GGUF esistente con Ollama creando un Modelfile.
Questo ti permette di definire una volta i parametri di generazione e riutilizzare il modello in modo coerente tra esecuzioni e strumenti.
Crea un file chiamato Modelfile nella stessa directory del tuo file GGUF:
FROM ./glm-4.7-flash.gguf
PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
Puoi regolare i parametri secondo necessità:
- Temperature: da 0,7 a 1,0
- Top-p: da 0,95 a 1,0
- Repeat penalty: disabilitata o impostata a 1,0
Registra il modello con Ollama:
ollama create glm-4.7-flash-local -f Modelfile
Una volta creato il modello, puoi eseguirlo direttamente in modalità chat:
ollama run glm-4.7-flash-local
Ora il modello può essere usato come qualunque altro modello di Ollama e integrato senza problemi con Claude Code.
Mi sono divertito molto a creare app e giochi usando GLM 4.7 Flash dentro Claude Code. È davvero gratificante lavorare in un luogo remoto senza internet o con connettività instabile. Tutto gira in locale, niente si rompe e hai comunque un potente agente di coding a portata di mano. Quella sensazione di controllo e indipendenza è difficile da battere.
Se vuoi approfondire gli strumenti trattati in questo articolo, ti consiglio le seguenti risorse:
FAQs
Quali modelli locali funzionano meglio per il coding agentico?
Eseguire Claude Code con Ollama è uno dei setup di "vibe-coding" più potenti del 2026. Ti permette di usare l’avanzato agente da terminale di Anthropic mantenendo il tuo codice sorgente interamente privato ed evitando costose tariffe API.
Dalla versione 0.14, Ollama è compatibile nativamente con la Anthropic Messages API, il che significa che puoi sostituire il backend cloud con uno locale con poche variabili d’ambiente.
5 FAQ generali per Claude Code + Ollama
1. Come faccio a puntare Claude Code al mio server locale di Ollama?
Claude Code cerca di default l’API di Anthropic. Per reindirizzarlo a Ollama, devi impostare queste tre variabili d’ambiente nel terminale prima di eseguire il comando claude:
- Linux/macOS:
Bash
export ANTHROPIC_BASE_URL="http://localhost:11434" export ANTHROPIC_AUTH_TOKEN="ollama" export ANTHROPIC_API_KEY="" - Windows (PowerShell):
PowerShell
$env:ANTHROPIC_BASE_URL = "http://localhost:11434" $env:ANTHROPIC_AUTH_TOKEN = "ollama" $env:ANTHROPIC_API_KEY = ""
Suggerimento: Se usi l’ultima versione di Ollama, puoi semplicemente eseguire
ollama launch claudeper avere queste variabili configurate automaticamente.
2. Quali modelli locali funzionano meglio per il coding agentico?
Non tutti i modelli locali riescono a gestire le istruzioni "agentiche" complesse (tool calling, lettura file e pianificazione multi-step) richieste da Claude Code. All’inizio del 2026, i preferiti della community sono:
- GLM 4.7 Flash: Altamente ottimizzato per velocità e finestre di contesto ampie (128k).
- Qwen 2.5 Coder (32B o 7B): Attualmente il gold standard per il reasoning nel coding open source.
- Codestral: Eccellente per Python e logica complessa, ma più esigente in termini di hardware.
Quali sono i requisiti hardware minimi?
Poiché Claude Code invia un enorme prompt di sistema (~16k token) per definire il suo comportamento, l’hardware è il principale collo di bottiglia:
- Consigliato: GPU NVIDIA con 16GB-24GB di VRAM (ad es., RTX 3090/4090) o un Mac con serie M di Apple e 32GB+ di RAM.
- Minimo: 16GB di RAM totali. Se non hai una GPU, puoi eseguire modelli più piccoli (come Qwen 7B) sulla CPU, ma aspettati che la "Planning Mode" impieghi diversi minuti per ogni step.
Perché Claude Code continua a cercare di connettersi a internet?
Anche con un modello locale, Claude Code potrebbe provare a inviare traffico "non essenziale" come telemetria o check degli aggiornamenti. Se lavori in un ambiente strettamente offline o vuoi la massima privacy, imposta questa variabile aggiuntiva:
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
Questo assicura che l’agente non "contatti casa" e resti confinato alla tua rete locale.
Posso usare la "Planning Mode" con modelli locali?
Sì. I modelli locali che supportano l’uso di strumenti (come GLM 4.7 Flash o Qwen 2.5 Coder) possono gestire la modalità di pianificazione di Claude Code. Tuttavia, se il modello non è abbastanza potente, potrebbe bloccarsi in un "loop di pensiero" ripetendo lo stesso passaggio.
- Soluzione: Se succede, prova una quantizzazione più grande (ad es., passando da una versione
q4a unaq8ofp16del modello) oppure aumenta il tuonum_ctx(finestra di contesto) nel tuo Modelfile di Ollama ad almeno 32.000.
In quanto data scientist certificato, sono appassionato di sfruttare tecnologie all’avanguardia per creare applicazioni di machine learning innovative. Con una solida esperienza in riconoscimento vocale, analisi e reportistica dei dati, MLOps, AI conversazionale e NLP, ho affinato le mie competenze nello sviluppo di sistemi intelligenti in grado di avere un impatto concreto. Oltre alla mia expertise tecnica, sono anche un comunicatore efficace, con il talento di rendere chiari e sintetici concetti complessi. Di conseguenza, sono diventato un blogger molto seguito in ambito data science, condividendo idee ed esperienze con una community in crescita di professionisti dei dati. Attualmente mi concentro sulla creazione e sull’editing di contenuti, lavorando con large language model per sviluppare contenuti potenti e coinvolgenti che possano aiutare aziende e singoli a valorizzare al meglio i propri dati.


