Usando o Claude Code com modelos locais do Ollama

Execute o GLM 4.7 Flash localmente (RTX 3090) com Claude Code e Ollama em minutos, sem nuvem, sem bloqueio, apenas velocidade e controle puros.

Atualizado 3 de fev. de 2026 · 8 min lido

O GLM 4.7 Flash está rapidamente se tornando uma escolha popular para codificação de agentes locais. Muitos desenvolvedores estão usando isso com ferramentas como llama.cpp e LM Studio. Mas, muita gente ainda tem problemas na hora de configurar, fazer o modelo funcionar direito e garantir que a chamada da ferramenta funcione como esperado.

Este tutorial mostra a maneira mais simples e segura de rodar o GLM 4.7 Flash localmente usando o Claude Code com o Ollama. O objetivo é eliminar o atrito e ajudar você a obter uma configuração funcional sem complexidade desnecessária.

Este guia funciona em todos os sistemas operacionais. Não importa se você está usando Linux, Windows ou macOS. No final, você vai ter o GLM 4.7 Flash rodando localmente e integrado corretamente com o Claude Code através do Ollama.

Pré-requisitos

Antes de começar, certifique-se de que seu sistema atenda aos requisitos mínimos de hardware e software abaixo.

Hardware:

GPU NVIDIA com no mínimo 16 GB de VRAM
Recomenda-se 24 GB de VRAM para uma inferência mais suave em tamanhos de contexto maiores.
16–32 GB de memória RAM do sistema
Pelo menos 25 GB de espaço livre em disco

Se você não tiver uma GPU, o modelo pode rodar em uma CPU, mas o desempenho vai ser bem mais lento e vai precisar de muita RAM.

Software:

Recomenda-se o uso do Linux ou macOS. Usuários do Windows: usem o WSL2 com o GPU passthrough ativado.
É preciso ter um driver de GPU NVIDIA instalado e compatível com a sua versão do CUDA.
Instale o CUDA Toolkit 13.1
Se o CUDA/driver estiver faltando ou for incompatível, o Ollama normalmente vai usar a CPU, que é bem mais lenta.

Se o kit de ferramentas CUDA ou os drivers NVIDIA estiverem faltando ou forem incompatíveis, o Ollama vai voltar pro modo CPU, que é bem mais lento.

Pra conferir se os drivers da sua GPU e CUDA estão instalados direitinho, dá uma olhada no seguinte comando no seu terminal:

nvidia-smi

Se tudo estiver configurado corretamente, você deverá ver sua GPU listada junto com a VRAM disponível e a versão CUDA.

1. Instalar o Ollama

O Ollama é o ambiente de execução que vamos usar pra rodar o GLM 4.7 Flash localmente e expô-lo de forma que o Claude Code possa interagir com ele de maneira confiável. A instalação é bem simples em todas as plataformas compatíveis.

No Linux, dá pra instalar o Ollama com um comando só:

curl -fsSL https://ollama.com/install.sh | sh

Para macOS e Windows, baixa o instalador direto do site da Ollama e siga as instruções na tela.

Fonte: Ollama

O Ollama funciona como um serviço em segundo plano e vai procurar atualizações automaticamente. Quando uma atualização estiver disponível, você pode aplicá-la selecionando “Reiniciar para atualizar” no menu do Ollama.

Depois de instalar, abra um terminal e veja se o Ollama tá instalado direitinho:

ollama -v

Você deve ver um resultado parecido com este:

ollama version is 0.15.2

Se você vir um erro ao rodar ollama -v, geralmente quer dizer que o serviço Ollama ainda não está funcionando. Inicie o servidor Ollama manualmente:

ollama serve

Deixe isso rodando, abra uma nova janela do terminal e execute:

ollama -v

Assim que o comando version funcionar, o Ollama estará pronto para ser usado nas próximas etapas do tutorial.

2. Puxe e execute GLM-4.7-Flash

Depois que o Ollama estiver instalado e funcionando, o próximo passo é baixar o modelo GLM 4.7 Flash e ver se ele tá funcionando direitinho. Essa etapa garante que o modelo funcione localmente antes de integrá-lo ao Claude Code.

Fonte: glm-4.7-flash

Comece baixando o modelo do registro da Ollama:

ollama pull glm-4.7-flash

Isso vai baixar os arquivos do modelo e guardá-los no seu computador. Dependendo da velocidade da sua internet, isso pode demorar alguns minutos.

Depois que o download terminar, execute o modelo no modo de bate-papo interativo como uma rápida verificação de sanidade:

ollama run glm-4.7-flash

Digite um comando simples, tipo uma saudação, e aperte Enter. Em alguns segundos, você deve receber uma resposta.

Se você estiver usando uma GPU, vai notar que as respostas são bem rápidas, e a saída pode incluir tokens de raciocínio interno ou traços de raciocínio, dependendo da configuração do modelo.

Você também pode testar o modelo através da API HTTP local do Ollama. Isso é útil para confirmar que as ferramentas externas podem se comunicar com o modelo.

Execute o seguinte comando:

curl http://localhost:11434/api/chat -d '{
  "model": "glm-4.7-flash",
  "messages": [{"role":"user","content":"Hello!"}]
}'

3. Definir comprimento do contexto

O Claude Code e a maioria das ferramentas de codificação agentica funcionam melhor com janelas de contexto grandes, muitas vezes com até 64 mil tokens. Mas, com o GLM 4.7 Flash, escolher o comprimento de contexto certo é importante tanto para o desempenho quanto para a estabilidade.

Usar tamanhos de contexto muito grandes pode diminuir bastante a velocidade de geração. Na prática, a taxa de transferência de tokens pode cair de mais de 100 tokens por segundo para apenas 2 tokens por segundo. Às vezes, o modelo pode ficar preso em longos ciclos de reflexão se a janela de contexto estiver muito alta.

Testamos vários tamanhos de contexto e descobrimos que um contexto de 10k não era suficiente para os fluxos de trabalho do Claude Code. Um contexto de 20k proporcionou um bom equilíbrio. Era grande o suficiente para tarefas de codificação, mantendo tempos de resposta rápidos e reduzindo loops de pensamento desnecessários.

Primeiro, desligue o servidor Ollama. Você pode fazer isso pressionando “ Ctrl + C ” no terminal ou encerrando o processo.

Depois, reinicie o Ollama com um comprimento de contexto personalizado, definindo a variável de ambiente antes de iniciar o servidor:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

Isso diz ao Ollama para carregar modelos com uma janela de contexto máxima de 20.000 tokens.

Em uma nova janela do terminal, execute:

ollama ps

Isso confirma que o GLM 4.7 Flash está rodando na GPU e que o comprimento do contexto foi definido corretamente. Neste momento, o modelo está configurado para uso estável e rápido com o Claude Code.

NAME                    ID              SIZE     PROCESSOR    CONTEXT    UNTIL                   
glm-4.7-flash:latest    d1a8a26252f1    21 GB    100% GPU     20000      About a minute from now

4. Instalar o Claude Code

Claude Code é o agente de codificação baseado em terminal da Anthropic que ajuda você a escrever, editar, refatorar e entender código usando linguagem natural. Ele foi feito pra fluxos de trabalho de agentes e dá pra lidar com tarefas de codificação de várias etapas direto da sua linha de comando.

Quando combinado com o Ollama, o Claude Code pode ser facilmente usado com modelos locais, como o GLM 4.7 Flash, permitindo que você execute tudo localmente e mantenha seu código em sua máquina.

No macOS, Linux ou Windows usando WSL, instale o Claude Code usando o script instalador oficial:

curl -fsSL https://claude.ai/install.sh | bash

Esse comando baixa e instala o Claude Code junto com as dependências necessárias. Quando a instalação terminar, o comando ` claude ` vai estar disponível no seu terminal.

5. Conecte o Claude Code ao Ollama

Agora que o Ollama e o Claude Code estão instalados, o próximo passo é conectar o Claude Code ao seu servidor Ollama local e configurá-lo para usar o modelo GLM 4.7 Flash.

Comece criando um diretório de trabalho para o seu projeto. É aqui que o Claude Code vai operar e gerenciar os arquivos:

mkdir <project-name>
cd <project-name>

O Ollama agora tem uma maneira integrada de abrir o Claude Code, que se configura automaticamente para se comunicar com o tempo de execução local do Ollama. Essa é a abordagem recomendada e mais confiável.

Para abrir o Claude Code de forma interativa usando o Ollama:

ollama launch claude

Para iniciar diretamente o Claude Code usando o modelo GLM 4.7 Flash, execute:

ollama launch claude --model glm-4.7-flash

Isso garante que o Claude Code use seu modelo GLM 4.7 Flash local em vez de um modelo remoto ou padrão.

Depois que tudo estiver configurado, você vai ver a interface do Claude Code direitinho no seu terminal.

Dentro do Claude Code, use o seguinte comando para confirmar que ele está usando seu modelo local:

/model

Se a saída mostrar “ glm-4.7-flash ”, sua configuração está completa e o Claude Code está funcionando direitinho no seu modelo Ollama local.

7. Usando o Claude Code com o Ollama

Com tudo configurado, agora você pode começar a usar o Claude Code com o seu modelo GLM 4.7 Flash local. A primeira coisa a tentar é uma saudação simples. Em um ou dois segundos, você deve receber uma resposta. A velocidade é bem rápida, principalmente quando tá rodando numa GPU.

Depois, tente uma tarefa de programação mais realista. Peça ao Claude Code para criar um jogo Snake CLI em Python. Antes de gerar o código, mude para o modo de planejamento para que o modelo esboce sua abordagem primeiro. Você pode alternar o modo de planejamento pressionandoShift + Tab duas vezes.

Depois que o plano estiver pronto, dá uma olhada nele. Se a abordagem parecer boa, diga ao Claude Code para colocar o plano em ação.

Em poucos minutos, ele criou os arquivos necessários, explicou o que o jogo Snake faz e forneceu instruções claras sobre como executá-lo.

Abra uma nova janela terminal e certifique-se de que você está no mesmo diretório do projeto. Então comece o jogo com:

python3 snake_game.py

O jogo funciona direto da caixa, sem precisar de nenhuma configuração extra. É um jogo Snake simples, tipo terminal, bem parecido com a versão clássica do Nokia 3310. Apesar de ser simples, é um ótimo exemplo de como a codificação local pode ser rápida e eficaz com o Claude Code e o Ollama.

Considerações finais

Executar o Claude Code com GLM 4.7 Flash no Ollama mostra o quanto a codificação local de agentes evoluiu. Você obtém respostas rápidas, geração de código robusta e controle total sobre seus dados, tudo isso sem depender de modelos hospedados na nuvem.

Depois de configurado, o fluxo de trabalho parece tranquilo e confiável, mesmo para tarefas de codificação com várias etapas.

Uma lição importante é que janelas de contexto maiores e configurações mais complexas nem sempre são melhores. Com as configurações padrão, a instalação toda leva uns cinco minutos, sem contar o tempo de download do modelo, que depende da sua conexão com a internet.

Se você já baixou o arquivo GGUF do modelo, a instalação vai ser ainda mais rápida. Nesse caso, você pode pular totalmente o download do modelo e só registrar o arquivo GGUF que já existe no Ollama, criando umarquivo de modelo .

Isso permite que você defina os parâmetros de geração uma vez e reutilize o modelo de forma consistente em todas as execuções e ferramentas.

Crie um arquivo chamado Modelfile no mesmo diretório do seu arquivo GGUF:

FROM ./glm-4.7-flash.gguf

PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

Você pode ajustar os parâmetros conforme necessário:

Temperatura: 0,7 a 1,0
Top-p: 0,95 a 1,0
Penalidade de repetição: desativada ou definida como 1,0

Cadastre o modelo no Ollama:

ollama create glm-4.7-flash-local -f Modelfile

Depois que o modelo estiver pronto, você pode rodá-lo direto no modo de bate-papo:

ollama run glm-4.7-flash-local

Agora, o modelo pode ser usado como qualquer outro modelo Ollama e integrado perfeitamente ao Claude Code.

Eu me diverti muito criando aplicativos e jogos usando o GLM 4.7 Flash dentro do Claude Code. É realmente empoderador trabalhar em um lugar remoto, sem internet ou com conexão instável. Tudo funciona localmente, nada dá errado e você ainda tem um poderoso agente de codificação ao seu alcance. É difícil superar essa sensação de controle e independência.

Se você quiser saber mais sobre as ferramentas que falamos neste artigo, recomendo os seguintes recursos:

Quais modelos locais funcionam melhor para a codificação agênica?

Executar o Claude Code com o Ollama é uma das configurações mais poderosas de “vibe-coding” para 2026. Isso permite que você use o agente de terminal avançado da Anthropic, mantendo seu código-fonte totalmente privado e evitando taxas caras de API.

Desde o Ollama v0.14, ele tem compatibilidade nativa com a API Anthropic Messages, o que significa que você pode trocar o backend na nuvem por um local com algumas variáveis de ambiente.

5 Perguntas frequentes gerais sobre Claude Code + Ollama

1. Como faço para apontar o Claude Code para o meu servidor Ollama local?

O Claude Code procura a API Anthropic por padrão. Para redirecioná-lo para o Ollama, você precisa definir essas três variáveis de ambiente no seu terminal antes de rodar o comando ` claude `:

Linux/macOS:

Bash 

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY="" 

Windows (PowerShell):

PowerShell 

$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = ""

Dica: Se você estiver usando a versão mais recente do Ollama, basta executar ollama launch claude para que essas variáveis sejam configuradas automaticamente para você.

2. Quais modelos locais funcionam melhor para a codificação agênica?

Nem todo modelo local consegue lidar com as instruções “agentes” complexas (chamada de ferramentas, leitura de arquivos e planejamento em várias etapas) que o Claude Code precisa. No começo de 2026, os favoritos da galera são:

GLM 4.7 Flash: Altamente otimizado para velocidade e janelas de contexto grandes (128k).
Codificador Qwen 2.5 (32B ou 7B): Atualmente, é o padrão ouro para raciocínio de codificação de código aberto.
Codestral: Ótimo para Python e lógica complexa, mas mais pesado no hardware.

Quais são os requisitos mínimos de hardware?

Por que o Claude Code fica tentando se conectar à internet?

Mesmo com um modelo local, o Claude Code pode tentar enviar tráfego “não essencial”, como telemetria ou verificações de atualização. Se você estiver em um ambiente totalmente offline ou quiser o máximo de privacidade, defina essa variável extra:

export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Isso garante que o agente não “ligue para casa” e fique só na sua rede local.

Posso usar o “Modo de Planejamento” com modelos locais?

Sim. Modelos locais que suportam o uso de ferramentas (como GLM 4.7 Flash ou Qwen 2.5 Coder) podem lidar com o modo de planejamento do Claude Code. Mas, se o modelo não for potente o suficiente, ele pode ficar preso num “loop de pensamento”, repetindo sempre a mesma etapa.

Fix: Se isso acontecer, tente uma quantização maior (por exemplo, passando de uma versão q4 para uma versão q8 ou fp16 do modelo) ou aumente seu num_ctx (janela de contexto) no seu arquivo Ollama Modelfile para pelo menos 32.000.

Author

Abid Ali Awan

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Agentes de IA

Cursos mais populares do DataCamp

Curso

Projetando Sistemas Agentes com LangChain

3 h

9.2K

Entenda os componentes básicos dos agentes LangChain e crie agentes de chat personalizados.

Ver detalhes

Iniciar curso

Curso

Introduction to Claude Models

3 h

1.6K

Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.

Ver detalhes

Iniciar curso

Curso

Building AI Agents with Google ADK

1 h

Build a customer-support assistant step-by-step with Google’s Agent Development Kit (ADK).

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Aprenda a criar um aplicativo RAG com o Llama 3.1 8B usando Ollama e Langchain, configurando o ambiente, processando documentos, criando embeddings e integrando um retriever.

Ryan Ong

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.

Abid Ali Awan

Tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.

Zoumana Keita

Tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.

Abid Ali Awan

Ver mais Ver mais

Pré-requisitos

1. Instalar o Ollama

2. Puxe e execute GLM-4.7-Flash

3. Definir comprimento do contexto

4. Instalar o Claude Code

5. Conecte o Claude Code ao Ollama

7. Usando o Claude Code com o Ollama

Considerações finais

Perguntas frequentes

5 Perguntas frequentes gerais sobre Claude Code + Ollama

1. Como faço para apontar o Claude Code para o meu servidor Ollama local?

2. Quais modelos locais funcionam melhor para a codificação agênica?

Por que o Claude Code fica tentando se conectar à internet?

Posso usar o “Modo de Planejamento” com modelos locais?

12 Alternativas de código aberto ao GPT-4

Primeiros passos com o Claude 3 e a API do Claude 3

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Como treinar um LLM com o PyTorch

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Projetando Sistemas Agentes com LangChain

Introduction to Claude Models

Building AI Agents with Google ADK

12 Alternativas de código aberto ao GPT-4

Primeiros passos com o Claude 3 e a API do Claude 3

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Como treinar um LLM com o PyTorch

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Projetando Sistemas Agentes com LangChain