Pular para o conteúdo principal

Usando o Claude Code com modelos locais do Ollama

Execute o GLM 4.7 Flash localmente (RTX 3090) com Claude Code e Ollama em minutos, sem nuvem, sem bloqueio, apenas velocidade e controle puros.
Atualizado 3 de fev. de 2026  · 8 min lido

O GLM 4.7 Flash está rapidamente se tornando uma escolha popular para codificação de agentes locais. Muitos desenvolvedores estão usando isso com ferramentas como llama.cpp e LM Studio. Mas, muita gente ainda tem problemas na hora de configurar, fazer o modelo funcionar direito e garantir que a chamada da ferramenta funcione como esperado.

Este tutorial mostra a maneira mais simples e segura de rodar o GLM 4.7 Flash localmente usando o Claude Code com o Ollama. O objetivo é eliminar o atrito e ajudar você a obter uma configuração funcional sem complexidade desnecessária.

Este guia funciona em todos os sistemas operacionais. Não importa se você está usando Linux, Windows ou macOS. No final, você vai ter o GLM 4.7 Flash rodando localmente e integrado corretamente com o Claude Code através do Ollama.

Pré-requisitos

Antes de começar, certifique-se de que seu sistema atenda aos requisitos mínimos de hardware e software abaixo. 

Hardware:

  • GPU NVIDIA com no mínimo 16 GB de VRAM
  • Recomenda-se 24 GB de VRAM para uma inferência mais suave em tamanhos de contexto maiores.
  • 16–32 GB de memória RAM do sistema
  • Pelo menos 25 GB de espaço livre em disco

Se você não tiver uma GPU, o modelo pode rodar em uma CPU, mas o desempenho vai ser bem mais lento e vai precisar de muita RAM.

Software:

  • Recomenda-se o uso do Linux ou macOS. Usuários do Windows: usem o WSL2 com o GPU passthrough ativado.
  • É preciso ter um driver de GPU NVIDIA instalado e compatível com a sua versão do CUDA.
  • Instale o CUDA Toolkit 13.1
  • Se o CUDA/driver estiver faltando ou for incompatível, o Ollama normalmente vai usar a CPU, que é bem mais lenta.

Se o kit de ferramentas CUDA ou os drivers NVIDIA estiverem faltando ou forem incompatíveis, o Ollama vai voltar pro modo CPU, que é bem mais lento.

Pra conferir se os drivers da sua GPU e CUDA estão instalados direitinho, dá uma olhada no seguinte comando no seu terminal:

nvidia-smi

Se tudo estiver configurado corretamente, você deverá ver sua GPU listada junto com a VRAM disponível e a versão CUDA.

Status da GPU Nvidia

1. Instalar o Ollama

O Ollama é o ambiente de execução que vamos usar pra rodar o GLM 4.7 Flash localmente e expô-lo de forma que o Claude Code possa interagir com ele de maneira confiável. A instalação é bem simples em todas as plataformas compatíveis.

No Linux, dá pra instalar o Ollama com um comando só:

curl -fsSL https://ollama.com/install.sh | sh

Para macOS e Windows, baixa o instalador direto do site da Ollama e siga as instruções na tela. 

Baixe o Ollama no site oficial

Fonte: Ollama

O Ollama funciona como um serviço em segundo plano e vai procurar atualizações automaticamente. Quando uma atualização estiver disponível, você pode aplicá-la selecionando “Reiniciar para atualizar” no menu do Ollama.

Depois de instalar, abra um terminal e veja se o Ollama tá instalado direitinho:

ollama -v

Você deve ver um resultado parecido com este:

ollama version is 0.15.2

Se você vir um erro ao rodar ollama -v, geralmente quer dizer que o serviço Ollama ainda não está funcionando. Inicie o servidor Ollama manualmente:

ollama serve

Deixe isso rodando, abra uma nova janela do terminal e execute:

ollama -v

Assim que o comando version funcionar, o Ollama estará pronto para ser usado nas próximas etapas do tutorial.

2. Puxe e execute GLM-4.7-Flash

Depois que o Ollama estiver instalado e funcionando, o próximo passo é baixar o modelo GLM 4.7 Flash e ver se ele tá funcionando direitinho. Essa etapa garante que o modelo funcione localmente antes de integrá-lo ao Claude Code.

Página do modelo GLM 4.7 Flash no Ollama

Fonte: glm-4.7-flash

Comece baixando o modelo do registro da Ollama:

ollama pull glm-4.7-flash

Isso vai baixar os arquivos do modelo e guardá-los no seu computador. Dependendo da velocidade da sua internet, isso pode demorar alguns minutos.

Depois que o download terminar, execute o modelo no modo de bate-papo interativo como uma rápida verificação de sanidade:

ollama run glm-4.7-flash

Digite um comando simples, tipo uma saudação, e aperte Enter. Em alguns segundos, você deve receber uma resposta. 

Se você estiver usando uma GPU, vai notar que as respostas são bem rápidas, e a saída pode incluir tokens de raciocínio interno ou traços de raciocínio, dependendo da configuração do modelo.

Interface de bate-papo CLI da Ollama Interactive

Você também pode testar o modelo através da API HTTP local do Ollama. Isso é útil para confirmar que as ferramentas externas podem se comunicar com o modelo.

Execute o seguinte comando:

curl http://localhost:11434/api/chat -d '{
  "model": "glm-4.7-flash",
  "messages": [{"role":"user","content":"Hello!"}]
}'

3. Definir comprimento do contexto 

O Claude Code e a maioria das ferramentas de codificação agentica funcionam melhor com janelas de contexto grandes, muitas vezes com até 64 mil tokens. Mas, com o GLM 4.7 Flash, escolher o comprimento de contexto certo é importante tanto para o desempenho quanto para a estabilidade.

Usar tamanhos de contexto muito grandes pode diminuir bastante a velocidade de geração. Na prática, a taxa de transferência de tokens pode cair de mais de 100 tokens por segundo para apenas 2 tokens por segundo. Às vezes, o modelo pode ficar preso em longos ciclos de reflexão se a janela de contexto estiver muito alta.

Testamos vários tamanhos de contexto e descobrimos que um contexto de 10k não era suficiente para os fluxos de trabalho do Claude Code. Um contexto de 20k proporcionou um bom equilíbrio. Era grande o suficiente para tarefas de codificação, mantendo tempos de resposta rápidos e reduzindo loops de pensamento desnecessários.

Primeiro, desligue o servidor Ollama. Você pode fazer isso pressionando Ctrl + C ” no terminal ou encerrando o processo.

Depois, reinicie o Ollama com um comprimento de contexto personalizado, definindo a variável de ambiente antes de iniciar o servidor:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

Isso diz ao Ollama para carregar modelos com uma janela de contexto máxima de 20.000 tokens.

Em uma nova janela do terminal, execute:

ollama ps

Isso confirma que o GLM 4.7 Flash está rodando na GPU e que o comprimento do contexto foi definido corretamente. Neste momento, o modelo está configurado para uso estável e rápido com o Claude Code.

NAME                    ID              SIZE     PROCESSOR    CONTEXT    UNTIL                   
glm-4.7-flash:latest    d1a8a26252f1    21 GB    100% GPU     20000      About a minute from now 

4. Instalar o Claude Code

Claude Code é o agente de codificação baseado em terminal da Anthropic que ajuda você a escrever, editar, refatorar e entender código usando linguagem natural. Ele foi feito pra fluxos de trabalho de agentes e dá pra lidar com tarefas de codificação de várias etapas direto da sua linha de comando.

Quando combinado com o Ollama, o Claude Code pode ser facilmente usado com modelos locais, como o GLM 4.7 Flash, permitindo que você execute tudo localmente e mantenha seu código em sua máquina.

No macOS, Linux ou Windows usando WSL, instale o Claude Code usando o script instalador oficial:

curl -fsSL https://claude.ai/install.sh | bash

Esse comando baixa e instala o Claude Code junto com as dependências necessárias. Quando a instalação terminar, o comando ` claude ` vai estar disponível no seu terminal.

Instalando o Claude Code

5. Conecte o Claude Code ao Ollama 

Agora que o Ollama e o Claude Code estão instalados, o próximo passo é conectar o Claude Code ao seu servidor Ollama local e configurá-lo para usar o modelo GLM 4.7 Flash.

Comece criando um diretório de trabalho para o seu projeto. É aqui que o Claude Code vai operar e gerenciar os arquivos:

mkdir <project-name>
cd <project-name>

O Ollama agora tem uma maneira integrada de abrir o Claude Code, que se configura automaticamente para se comunicar com o tempo de execução local do Ollama. Essa é a abordagem recomendada e mais confiável.

Para abrir o Claude Code de forma interativa usando o Ollama:

ollama launch claude

Para iniciar diretamente o Claude Code usando o modelo GLM 4.7 Flash, execute:

ollama launch claude --model glm-4.7-flash

Isso garante que o Claude Code use seu modelo GLM 4.7 Flash local em vez de um modelo remoto ou padrão.

Depois que tudo estiver configurado, você vai ver a interface do Claude Code direitinho no seu terminal.

Interface Claude Code no terminal

Dentro do Claude Code, use o seguinte comando para confirmar que ele está usando seu modelo local:

/model

Se a saída mostrar glm-4.7-flash ”, sua configuração está completa e o Claude Code está funcionando direitinho no seu modelo Ollama local.

Seleção de modelo no Código Claude

7. Usando o Claude Code com o Ollama

Com tudo configurado, agora você pode começar a usar o Claude Code com o seu modelo GLM 4.7 Flash local. A primeira coisa a tentar é uma saudação simples. Em um ou dois segundos, você deve receber uma resposta. A velocidade é bem rápida, principalmente quando tá rodando numa GPU.

Interagindo com o Código Claude

Depois, tente uma tarefa de programação mais realista. Peça ao Claude Code para criar um jogo Snake CLI em Python. Antes de gerar o código, mude para o modo de planejamento para que o modelo esboce sua abordagem primeiro. Você pode alternar o modo de planejamento pressionandoShift + Tab duas vezes.

Modo de planejamento no Claude CodeDepois que o plano estiver pronto, dá uma olhada nele. Se a abordagem parecer boa, diga ao Claude Code para colocar o plano em ação. 

Aprovando o plano no Claude CodeEm poucos minutos, ele criou os arquivos necessários, explicou o que o jogo Snake faz e forneceu instruções claras sobre como executá-lo.

Descrição do projeto e guia de uso no Claude CodeAbra uma nova janela terminal e certifique-se de que você está no mesmo diretório do projeto. Então comece o jogo com:

python3 snake_game.py

O jogo funciona direto da caixa, sem precisar de nenhuma configuração extra. É um jogo Snake simples, tipo terminal, bem parecido com a versão clássica do Nokia 3310. Apesar de ser simples, é um ótimo exemplo de como a codificação local pode ser rápida e eficaz com o Claude Code e o Ollama.

Jogo da Cobra baseado em CLI

Considerações finais

Executar o Claude Code com GLM 4.7 Flash no Ollama mostra o quanto a codificação local de agentes evoluiu. Você obtém respostas rápidas, geração de código robusta e controle total sobre seus dados, tudo isso sem depender de modelos hospedados na nuvem. 

Depois de configurado, o fluxo de trabalho parece tranquilo e confiável, mesmo para tarefas de codificação com várias etapas.

Uma lição importante é que janelas de contexto maiores e configurações mais complexas nem sempre são melhores. Com as configurações padrão, a instalação toda leva uns cinco minutos, sem contar o tempo de download do modelo, que depende da sua conexão com a internet.

Se você já baixou o arquivo GGUF do modelo, a instalação vai ser ainda mais rápida. Nesse caso, você pode pular totalmente o download do modelo e só registrar o arquivo GGUF que já existe no Ollama, criando umarquivo de modelo

Isso permite que você defina os parâmetros de geração uma vez e reutilize o modelo de forma consistente em todas as execuções e ferramentas.

Crie um arquivo chamado Modelfile no mesmo diretório do seu arquivo GGUF:

FROM ./glm-4.7-flash.gguf

PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

Você pode ajustar os parâmetros conforme necessário:

  • Temperatura: 0,7 a 1,0
  • Top-p: 0,95 a 1,0
  • Penalidade de repetição: desativada ou definida como 1,0

Cadastre o modelo no Ollama:

ollama create glm-4.7-flash-local -f Modelfile

Depois que o modelo estiver pronto, você pode rodá-lo direto no modo de bate-papo:

ollama run glm-4.7-flash-local

Agora, o modelo pode ser usado como qualquer outro modelo Ollama e integrado perfeitamente ao Claude Code.

Eu me diverti muito criando aplicativos e jogos usando o GLM 4.7 Flash dentro do Claude Code. É realmente empoderador trabalhar em um lugar remoto, sem internet ou com conexão instável. Tudo funciona localmente, nada dá errado e você ainda tem um poderoso agente de codificação ao seu alcance. É difícil superar essa sensação de controle e independência.

Se você quiser saber mais sobre as ferramentas que falamos neste artigo, recomendo os seguintes recursos: 

Perguntas frequentes

Quais modelos locais funcionam melhor para a codificação agênica?

Executar o Claude Code com o Ollama é uma das configurações mais poderosas de “vibe-coding” para 2026. Isso permite que você use o agente de terminal avançado da Anthropic, mantendo seu código-fonte totalmente privado e evitando taxas caras de API.

Desde o Ollama v0.14, ele tem compatibilidade nativa com a API Anthropic Messages, o que significa que você pode trocar o backend na nuvem por um local com algumas variáveis de ambiente.


5 Perguntas frequentes gerais sobre Claude Code + Ollama

1. Como faço para apontar o Claude Code para o meu servidor Ollama local?

O Claude Code procura a API Anthropic por padrão. Para redirecioná-lo para o Ollama, você precisa definir essas três variáveis de ambiente no seu terminal antes de rodar o comando ` claude `:

  • Linux/macOS:
    Bash
     
    export ANTHROPIC_BASE_URL="http://localhost:11434"
    export ANTHROPIC_AUTH_TOKEN="ollama"
    export ANTHROPIC_API_KEY="" 
    
  • Windows (PowerShell):
    PowerShell
     
    $env:ANTHROPIC_BASE_URL = "http://localhost:11434"
    $env:ANTHROPIC_AUTH_TOKEN = "ollama"
    $env:ANTHROPIC_API_KEY = ""
    

Dica: Se você estiver usando a versão mais recente do Ollama, basta executar ollama launch claude para que essas variáveis sejam configuradas automaticamente para você.

2. Quais modelos locais funcionam melhor para a codificação agênica?

Nem todo modelo local consegue lidar com as instruções “agentes” complexas (chamada de ferramentas, leitura de arquivos e planejamento em várias etapas) que o Claude Code precisa. No começo de 2026, os favoritos da galera são:

  • GLM 4.7 Flash: Altamente otimizado para velocidade e janelas de contexto grandes (128k).
  • Codificador Qwen 2.5 (32B ou 7B): Atualmente, é o padrão ouro para raciocínio de codificação de código aberto.
  • Codestral: Ótimo para Python e lógica complexa, mas mais pesado no hardware.

Quais são os requisitos mínimos de hardware?

Como o Claude Code manda um monte de comandos para o sistema (~16 mil tokens) para definir como ele funciona, o hardware é o principal problema:

  • Recomendado: GPU NVIDIA com 16 GB-24 GB de VRAM (por exemplo, RTX 3090/4090) ou um Mac da série M da Apple com 32 GB+ de RAM.
  • Mínimo: 16 GB de RAM no total. Se você não tiver uma GPU, pode rodar modelos menores (como o Qwen 7B) na sua CPU, mas espere que o “Modo de Planejamento” demore vários minutos por etapa.

Por que o Claude Code fica tentando se conectar à internet?

Mesmo com um modelo local, o Claude Code pode tentar enviar tráfego “não essencial”, como telemetria ou verificações de atualização. Se você estiver em um ambiente totalmente offline ou quiser o máximo de privacidade, defina essa variável extra:

export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Isso garante que o agente não “ligue para casa” e fique só na sua rede local.

Posso usar o “Modo de Planejamento” com modelos locais?

Sim. Modelos locais que suportam o uso de ferramentas (como GLM 4.7 Flash ou Qwen 2.5 Coder) podem lidar com o modo de planejamento do Claude Code. Mas, se o modelo não for potente o suficiente, ele pode ficar preso num “loop de pensamento”, repetindo sempre a mesma etapa.

  • Fix: Se isso acontecer, tente uma quantização maior (por exemplo, passando de uma versão q4 para uma versão q8 ou fp16 do modelo) ou aumente seu num_ctx (janela de contexto) no seu arquivo Ollama Modelfile para pelo menos 32.000.

Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Sou um cientista de dados certificado que gosta de criar aplicativos de aprendizado de máquina e escrever blogs sobre ciência de dados. No momento, estou me concentrando na criação e edição de conteúdo e no trabalho com modelos de linguagem de grande porte.

Tópicos

Cursos mais populares do DataCamp

Curso

Projetando Sistemas Agentes com LangChain

3 h
9.2K
Entenda os componentes básicos dos agentes LangChain e crie agentes de chat personalizados.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

RAG With Llama 3.1 8B, Ollama e Langchain: Tutorial

Aprenda a criar um aplicativo RAG com o Llama 3.1 8B usando Ollama e Langchain, configurando o ambiente, processando documentos, criando embeddings e integrando um retriever.
Ryan Ong's photo

Ryan Ong

Tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.
Abid Ali Awan's photo

Abid Ali Awan

Ver maisVer mais