Vai al contenuto principale

Usare Claude Code con i modelli locali di Ollama

Esegui GLM 4.7 Flash in locale (RTX 3090) con Claude Code e Ollama in pochi minuti: niente cloud, niente lock-in, solo velocità e controllo.
Aggiornato 3 giu 2026  · 8 min leggi

GLM 4.7 Flash sta rapidamente diventando una scelta popolare per il coding agentico in locale. Molti sviluppatori lo usano con strumenti come llama.cpp e LM Studio. Tuttavia, molte persone incontrano ancora problemi durante la configurazione, nell’avvio corretto del modello e nel far funzionare la chiamata agli strumenti come previsto.

Questo tutorial si concentra sul modo più semplice e affidabile per eseguire GLM 4.7 Flash in locale usando Claude Code con Ollama. L’obiettivo è eliminare gli attriti e aiutarti a ottenere una configurazione funzionante senza complessità inutili.

Questa guida funziona su tutti i sistemi operativi. Non importa se usi Linux, Windows o macOS. Alla fine, avrai GLM 4.7 Flash in esecuzione in locale e correttamente integrato con Claude Code tramite Ollama.

Prerequisiti

Prima di iniziare, assicurati che il tuo sistema soddisfi i requisiti minimi hardware e software qui sotto. 

Hardware:

  • GPU NVIDIA con almeno 16 GB di VRAM
  • 24 GB di VRAM consigliati per un’inferenza più fluida con contesti più grandi
  • 16–32 GB di RAM di sistema
  • Almeno 25 GB di spazio libero su disco

Se non hai una GPU, il modello può girare su CPU, ma le prestazioni saranno significativamente più lente e servirà molta RAM.

Software:

  • Consigliati Linux o macOS. Utenti Windows: usa WSL2 con passthrough della GPU abilitato.
  • Un driver GPU NVIDIA deve essere installato e compatibile con la tua versione di CUDA
  • Installa CUDA Toolkit 13.1
  • Se CUDA/driver manca o è incompatibile, Ollama di solito ripiega sulla CPU, molto più lenta.

Se il toolkit CUDA o i driver NVIDIA mancano o sono incompatibili, Ollama userà la modalità CPU, che è molto più lenta.

Per verificare che GPU e driver CUDA siano installati correttamente, esegui il seguente comando nel terminale:

nvidia-smi

Se tutto è a posto, dovresti vedere la tua GPU elencata insieme alla VRAM disponibile e alla versione di CUDA.

Stato GPU Nvidia

1. Installa Ollama

Ollama è il runtime che useremo per eseguire GLM 4.7 Flash in locale ed esporlo in modo che Claude Code possa interagire in maniera affidabile. L’installazione è semplice su tutte le piattaforme supportate.

Su Linux, puoi installare Ollama con un solo comando:

curl -fsSL https://ollama.com/install.sh | sh

Per macOS e Windows, scarica l’installer direttamente dal sito Ollama e segui le istruzioni sullo schermo. 

Scarica Ollama dal sito ufficiale

Fonte: Ollama

Ollama gira come servizio in background e controllerà automaticamente la presenza di aggiornamenti. Quando è disponibile un update, puoi applicarlo selezionando “Riavvia per aggiornare” dal menu di Ollama.

Dopo l’installazione, apri un terminale e verifica che Ollama sia installato correttamente:

ollama -v

Dovresti vedere un output simile a:

ollama version is 0.15.2

Se vedi un errore eseguendo ollama -v, di solito significa che il servizio Ollama non è ancora in esecuzione. Avvia manualmente il server Ollama:

ollama serve

Lascia questo processo in esecuzione, apri una nuova finestra del terminale e poi esegui:

ollama -v

Una volta che il comando della versione funziona, Ollama è pronto per essere usato nei prossimi passaggi del tutorial.

2. Scarica ed esegui GLM-4.7-Flash

Una volta installato e avviato Ollama, il passo successivo è scaricare il modello GLM 4.7 Flash e verificare che funzioni correttamente. Questo assicura che il modello giri in locale prima di integrarlo con Claude Code.

Pagina del modello GLM 4.7 Flash su Ollama

Fonte: glm-4.7-flash

Inizia scaricando il modello dal registro di Ollama:

ollama pull glm-4.7-flash

Questo scaricherà i file del modello e li salverà in locale. A seconda della velocità della tua connessione, potrebbe richiedere alcuni minuti.

Al termine del download, avvia il modello in modalità chat interattiva come controllo rapido:

ollama run glm-4.7-flash

Scrivi un prompt semplice, ad esempio un saluto, e premi invio. Entro pochi secondi dovresti ricevere una risposta. 

Se stai usando una GPU, noterai che le risposte sono molto veloci e l’output potrebbe includere token di pensiero interni o tracce di ragionamento a seconda della configurazione del modello.

Interfaccia CLI chat interattiva di Ollama

Puoi anche testare il modello tramite l’API HTTP locale di Ollama. È utile per confermare che strumenti esterni possano comunicare con il modello.

Esegui il seguente comando:

curl http://localhost:11434/api/chat -d '{
  "model": "glm-4.7-flash",
  "messages": [{"role":"user","content":"Hello!"}]
}'

3. Imposta la lunghezza del contesto 

Claude Code e la maggior parte degli strumenti di coding agentico funzionano al meglio con finestre di contesto ampie, spesso fino a 64k token. Tuttavia, con GLM 4.7 Flash, scegliere la lunghezza del contesto giusta è importante sia per le prestazioni che per la stabilità.

Usare contesti molto grandi può rallentare significativamente la velocità di generazione. In pratica, il throughput può scendere da oltre 100 token al secondo fino a soli 2 token al secondo. In alcuni casi, il modello può anche bloccarsi in lunghi loop di pensiero se la finestra di contesto è impostata troppo in alto.

Abbiamo testato diverse dimensioni di contesto e abbiamo riscontrato che 10k non era sufficiente per i flussi di lavoro di Claude Code. Un contesto da 20k ha offerto un buon equilibrio. Era abbastanza grande per i compiti di coding mantenendo tempi di risposta rapidi e riducendo loop di pensiero inutili.

Per prima cosa, ferma il server Ollama in esecuzione. Puoi farlo premendo Ctrl + C nel terminale o terminando il processo.

Poi, riavvia Ollama con una lunghezza di contesto personalizzata impostando la variabile d’ambiente prima di lanciare il server:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

Questo dice a Ollama di caricare i modelli con una finestra di contesto massima di 20.000 token.

In una nuova finestra del terminale, esegui:

ollama ps

Questo conferma che GLM 4.7 Flash sta girando sulla GPU e che la lunghezza del contesto è stata impostata correttamente. A questo punto, il modello è configurato per un uso stabile e veloce con Claude Code.

NAME                    ID              SIZE     PROCESSOR    CONTEXT    UNTIL                   
glm-4.7-flash:latest    d1a8a26252f1    21 GB    100% GPU     20000      About a minute from now 

4. Installa Claude Code

Claude Code è l’agente per il coding da terminale di Anthropic che ti aiuta a scrivere, modificare, fare refactor e capire il codice usando il linguaggio naturale. È pensato per flussi di lavoro agentici e può gestire compiti di coding multi-step direttamente dalla riga di comando.

Insieme a Ollama, Claude Code può essere usato facilmente con modelli locali come GLM 4.7 Flash, permettendoti di eseguire tutto in locale e mantenere il codice sulla tua macchina.

Su macOS, Linux o Windows con WSL, installa Claude Code usando lo script ufficiale:

curl -fsSL https://claude.ai/install.sh | bash

Questo comando scarica e installa Claude Code insieme alle dipendenze richieste. Una volta completata l’installazione, il comando claude sarà disponibile nel tuo terminale.

Installazione di Claude Code

5. Collega Claude Code a Ollama 

Ora che sia Ollama sia Claude Code sono installati, il passo successivo è collegare Claude Code al tuo server Ollama locale e configurarlo per usare il modello GLM 4.7 Flash.

Inizia creando una directory di lavoro per il tuo progetto. Qui è dove Claude Code opererà e gestirà i file:

mkdir <project-name>
cd <project-name>

Ollama ora fornisce un modo integrato per lanciare Claude Code che lo configura automaticamente per parlare con il runtime locale di Ollama. È l’approccio consigliato e più affidabile.

Per avviare Claude Code in modo interattivo usando Ollama:

ollama launch claude

Per avviare direttamente Claude Code usando il modello GLM 4.7 Flash, esegui:

ollama launch claude --model glm-4.7-flash

Questo assicura che Claude Code usi il tuo modello GLM 4.7 Flash locale invece di un modello remoto o predefinito.

Una volta configurato tutto, vedrai l’interfaccia di Claude Code direttamente nel terminale.

Interfaccia di Claude Code nel terminale

All’interno di Claude Code, usa il seguente comando per confermare che stia usando il tuo modello locale:

/model

Se l’output mostra glm-4.7-flash, la configurazione è completata e Claude Code sta girando con successo sul tuo modello locale in Ollama.

Selezione del modello in Claude Code

7. Usare Claude Code con Ollama

Con tutto configurato, puoi iniziare a usare Claude Code alimentato dal tuo modello locale GLM 4.7 Flash. La prima cosa da provare è un semplice saluto. Nel giro di uno o due secondi dovresti ricevere una risposta. La velocità è notevole, soprattutto su GPU.

Interazione con Claude Code

Poi prova un compito di coding più realistico. Chiedi a Claude Code di creare un gioco Snake da CLI in Python. Prima di generare il codice, passa alla modalità di pianificazione in modo che il modello delinei prima l’approccio. Puoi attivare la modalità di pianificazione premendo Shift + Tab due volte.

Modalità piano in Claude CodeUna volta generato il piano, rivedilo. Se l’approccio ti sembra valido, chiedi a Claude Code di eseguirlo. 

Approvazione del piano in Claude CodeNel giro di pochi minuti, avrai i file necessari, una spiegazione di cosa fa il gioco Snake e istruzioni chiare su come avviarlo.

Descrizione del progetto e guida all’uso in Claude CodeApri una nuova finestra del terminale e assicurati di essere nella stessa directory del progetto. Poi avvia il gioco con:

python3 snake_game.py

Il gioco parte subito senza configurazioni extra. È un semplice Snake da terminale, molto simile alla versione classica del Nokia 3310. Nonostante la semplicità, è un ottimo esempio di quanto possano essere veloci ed efficaci i flussi di lavoro agentici in locale con Claude Code e Ollama.

Gioco Snake base da CLI

Considerazioni finali

Usare Claude Code con GLM 4.7 Flash su Ollama mostra quanta strada abbia fatto il coding agentico in locale. Ottieni risposte rapide, una forte capacità di generazione del codice e pieno controllo sui tuoi dati, il tutto senza dipendere da modelli ospitati nel cloud. 

Una volta configurato, il flusso di lavoro è fluido e affidabile, anche per compiti di coding multi-step.

Un punto chiave è che finestre di contesto più grandi e configurazioni più complesse non sono sempre meglio. Con impostazioni sensate, l’intera configurazione richiede circa cinque minuti, escluso il tempo di download del modello, che dipende dalla tua connessione.

Se hai già scaricato il file GGUF del modello, la configurazione è ancora più veloce. In questo caso, puoi saltare il download del modello e semplicemente registrare il file GGUF esistente con Ollama creando un Modelfile

Questo ti permette di definire una volta i parametri di generazione e riutilizzare il modello in modo coerente tra esecuzioni e strumenti.

Crea un file chiamato Modelfile nella stessa directory del tuo file GGUF:

FROM ./glm-4.7-flash.gguf

PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

Puoi regolare i parametri secondo necessità:

  • Temperature: da 0,7 a 1,0
  • Top-p: da 0,95 a 1,0
  • Repeat penalty: disabilitata o impostata a 1,0

Registra il modello con Ollama:

ollama create glm-4.7-flash-local -f Modelfile

Una volta creato il modello, puoi eseguirlo direttamente in modalità chat:

ollama run glm-4.7-flash-local

Ora il modello può essere usato come qualunque altro modello di Ollama e integrato senza problemi con Claude Code.

Mi sono divertito molto a creare app e giochi usando GLM 4.7 Flash dentro Claude Code. È davvero gratificante lavorare in un luogo remoto senza internet o con connettività instabile. Tutto gira in locale, niente si rompe e hai comunque un potente agente di coding a portata di mano. Quella sensazione di controllo e indipendenza è difficile da battere.

Se vuoi approfondire gli strumenti trattati in questo articolo, ti consiglio le seguenti risorse: 

FAQs

Quali modelli locali funzionano meglio per il coding agentico?

Eseguire Claude Code con Ollama è uno dei setup di "vibe-coding" più potenti del 2026. Ti permette di usare l’avanzato agente da terminale di Anthropic mantenendo il tuo codice sorgente interamente privato ed evitando costose tariffe API.

Dalla versione 0.14, Ollama è compatibile nativamente con la Anthropic Messages API, il che significa che puoi sostituire il backend cloud con uno locale con poche variabili d’ambiente.


5 FAQ generali per Claude Code + Ollama

1. Come faccio a puntare Claude Code al mio server locale di Ollama?

Claude Code cerca di default l’API di Anthropic. Per reindirizzarlo a Ollama, devi impostare queste tre variabili d’ambiente nel terminale prima di eseguire il comando claude:

  • Linux/macOS:
    Bash
     
    export ANTHROPIC_BASE_URL="http://localhost:11434"
    export ANTHROPIC_AUTH_TOKEN="ollama"
    export ANTHROPIC_API_KEY="" 
    
  • Windows (PowerShell):
    PowerShell
     
    $env:ANTHROPIC_BASE_URL = "http://localhost:11434"
    $env:ANTHROPIC_AUTH_TOKEN = "ollama"
    $env:ANTHROPIC_API_KEY = ""
    

Suggerimento: Se usi l’ultima versione di Ollama, puoi semplicemente eseguire ollama launch claude per avere queste variabili configurate automaticamente.

2. Quali modelli locali funzionano meglio per il coding agentico?

Non tutti i modelli locali riescono a gestire le istruzioni "agentiche" complesse (tool calling, lettura file e pianificazione multi-step) richieste da Claude Code. All’inizio del 2026, i preferiti della community sono:

  • GLM 4.7 Flash: Altamente ottimizzato per velocità e finestre di contesto ampie (128k).
  • Qwen 2.5 Coder (32B o 7B): Attualmente il gold standard per il reasoning nel coding open source.
  • Codestral: Eccellente per Python e logica complessa, ma più esigente in termini di hardware.

Quali sono i requisiti hardware minimi?

Poiché Claude Code invia un enorme prompt di sistema (~16k token) per definire il suo comportamento, l’hardware è il principale collo di bottiglia:

  • Consigliato: GPU NVIDIA con 16GB-24GB di VRAM (ad es., RTX 3090/4090) o un Mac con serie M di Apple e 32GB+ di RAM.
  • Minimo: 16GB di RAM totali. Se non hai una GPU, puoi eseguire modelli più piccoli (come Qwen 7B) sulla CPU, ma aspettati che la "Planning Mode" impieghi diversi minuti per ogni step.

Perché Claude Code continua a cercare di connettersi a internet?

Anche con un modello locale, Claude Code potrebbe provare a inviare traffico "non essenziale" come telemetria o check degli aggiornamenti. Se lavori in un ambiente strettamente offline o vuoi la massima privacy, imposta questa variabile aggiuntiva:

export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Questo assicura che l’agente non "contatti casa" e resti confinato alla tua rete locale.

Posso usare la "Planning Mode" con modelli locali?

Sì. I modelli locali che supportano l’uso di strumenti (come GLM 4.7 Flash o Qwen 2.5 Coder) possono gestire la modalità di pianificazione di Claude Code. Tuttavia, se il modello non è abbastanza potente, potrebbe bloccarsi in un "loop di pensiero" ripetendo lo stesso passaggio.

  • Soluzione: Se succede, prova una quantizzazione più grande (ad es., passando da una versione q4 a una q8 o fp16 del modello) oppure aumenta il tuo num_ctx (finestra di contesto) nel tuo Modelfile di Ollama ad almeno 32.000.

Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

In quanto data scientist certificato, sono appassionato di sfruttare tecnologie all’avanguardia per creare applicazioni di machine learning innovative. Con una solida esperienza in riconoscimento vocale, analisi e reportistica dei dati, MLOps, AI conversazionale e NLP, ho affinato le mie competenze nello sviluppo di sistemi intelligenti in grado di avere un impatto concreto. Oltre alla mia expertise tecnica, sono anche un comunicatore efficace, con il talento di rendere chiari e sintetici concetti complessi. Di conseguenza, sono diventato un blogger molto seguito in ambito data science, condividendo idee ed esperienze con una community in crescita di professionisti dei dati. Attualmente mi concentro sulla creazione e sull’editing di contenuti, lavorando con large language model per sviluppare contenuti potenti e coinvolgenti che possano aiutare aziende e singoli a valorizzare al meglio i propri dati.

Argomenti

I migliori corsi DataCamp

Corso

Progettare sistemi agentici con LangChain

3 h
11.9K
Impara a usare le parti fondamentali degli agenti LangChain e crea agenti di chat personalizzati.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

Mostra altroMostra altro