Pular para o conteúdo principal

Como rodar o Kimi K2.7 Code localmente usando o llama.cpp

Aprenda a rodar o Kimi K2.7 Code localmente em cinco minutos com o binário pré-compilado do llama.cpp em quatro GPUs RTX PRO 6000, e use sua web UI e o agente de código Pi por meio de uma API compatível com OpenAI.
Atualizado 25 de jun. de 2026  · 8 min lido

Kimi K2.7 Code é o modelo agentic da Moonshot AI focado em código, criado a partir do Kimi K2.6 para fluxos de trabalho de engenharia de software mais longos e complexos. 

Ele usa uma arquitetura mixture-of-experts com 1 trilhão de parâmetros totais e 32 bilhões de parâmetros ativos por token, além de uma janela de contexto de 256 mil tokens. 

O modelo foi projetado para tarefas como navegar por grandes bases de código, depurar, planejar mudanças em múltiplas etapas e concluir trabalhos de programação de longo prazo, usando menos tokens de raciocínio do que seu antecessor.

Kimi K2.7 Code benchmark

Fonte: Kimi K2.7 Code: Open-Source Agentic Coding Model 

Neste guia, vou mostrar a forma mais simples e eficaz de baixar e rodar o Kimi K2.7 Code localmente usando um binário pré-compilado do llama.cpp e um único comando. 

Também vamos testar o modelo pela interface web do llama.cpp e conectá-lo ao agente de código Pi usando a extensão Pi para o servidor do llama.cpp. 

Se você está começando a programar com modelos de IA, recomendo conferir nosso curso AI-Assisted Coding for Developers.

1. Configure um ambiente RunPod multi-GPU para o Kimi K2.7

Crie um novo Pod no RunPod com 4 × NVIDIA RTX PRO 6000 GPUs e o template mais recente RunPod PyTorch 2.8.0. Esse template inclui o JupyterLab, que usaremos para todos os comandos deste guia em vez de SSH.

Configure o Pod com as seguintes definições:

  • Disco do container: 50 GB
  • Volume de rede: 500 GB
  • Expor portas HTTP: 8888,8910
  • Expor portas TCP: 22
  • Variável de ambiente: HF_TOKEN vinculado ao seu segredo do Hugging Face

Editing the Runpod Pytorch Template

O disco de 50 GB do container é usado para o sistema operacional, pacotes e arquivos temporários. O volume de rede de 500 GB é onde vamos armazenar o modelo Kimi K2.7 Code e o cache do Hugging Face. 

Como ele é montado em /workspace, os arquivos do modelo continuam disponíveis após parar e reiniciar o Pod.

Usar um token autenticado do Hugging Face ajuda a evitar limites de download anônimo. Com uma conexão rápida do RunPod, as velocidades de download podem chegar perto de 2 GB/s, o que reduz o tempo para baixar o modelo Kimi K2.7 Code em GGUF de 2 bits para cerca de 2,5 minutos em condições favoráveis de rede.

Expondo a porta HTTP 8910, poderemos rodar a web UI do llama.cpp e a API compatível com OpenAI nessa porta mais adiante. 

Essa configuração custa aproximadamente US$ 8,42 por hora no exemplo mostrado aqui, embora o preço exato dependa da disponibilidade de GPUs e da região do RunPod selecionada. 

Recomendo manter pelo menos US$ 20–US$ 30 em créditos para a configuração inicial, download e testes.

Runpod Pytorch pod summary

Depois de implantar o Pod:

  1. Abra o Pod no painel do RunPod.
  2. Clique em Connect.
  3. Abra o JupyterLab.
  4. No JupyterLab, selecione File → New → Terminal.

Use esse terminal para os demais comandos do guia.

2. Instale o llama.cpp

No terminal do JupyterLab, instale a versão pré-compilada mais recente do llama.cpp com o instalador oficial:

curl -LsSf https://llama.app/install.sh | sh

llama.cpp installed using the CURL command.

Esse comando baixa um binário pré-compilado do llama.cpp, então você não precisa compilar a partir do código-fonte. 

No nosso setup, a instalação levou cerca de cinco segundos, em comparação com aproximadamente 10 minutos compilando o llama.cpp do zero no mesmo ambiente. 

O instalador coloca o comando llama em ~/.local/bin. Adicione esse diretório ao seu PATH do shell e recarregue a configuração:

echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

Confirme que a instalação foi concluída com sucesso:

llama help

llama.cpp help menu

3. Baixe o modelo GGUF Kimi K2.7 Code pelo Hugging Face

O token do Hugging Face que você adicionou ao template do RunPod já está disponível como HF_TOKEN, então não é necessário fazer login novamente pelo terminal.

Primeiro, instale ou atualize a CLI do Hugging Face:

pip install -U huggingface_hub

Em seguida, crie um diretório persistente para o modelo e ative downloads Xet de alto desempenho:

mkdir -p /workspace/unsloth
export HF_XET_HIGH_PERFORMANCE=1

Baixe a quantização de 2 bits UD-Q2_K_XL usada neste guia:

hf download unsloth/Kimi-K2.7-Code-GGUF \
  --include "UD-Q2_K_XL/*" \
  --local-dir /workspace/unsloth

Downloading the unsloth/Kimi-K2.7-Code-GGUF UD-Q2_K_XL 2-bit quantization

O modelo é baixado diretamente para /workspace/unsloth, que fica no seu volume de rede e permanece disponível após parar ou reiniciar o Pod.

No nosso teste, a velocidade de download chegou momentaneamente a 3 GB/s, permitindo baixar o modelo completo em cerca de 2,5 minutos. Sua velocidade exata vai depender da região do RunPod, da banda disponível e das condições dos servidores do Hugging Face.

Depois que o download terminar, confirme que todos os shards do modelo estão presentes:

ls -lh /workspace/unsloth/UD-Q2_K_XL/

Você deve ver oito arquivos GGUF, começando com:

Kimi-K2.7-Code-UD-Q2_K_XL-00001-of-00008.gguf
Kimi-K2.7-Code-UD-Q2_K_XL-00002-of-00008.gguf
...
Kimi-K2.7-Code-UD-Q2_K_XL-00008-of-00008.gguf

4. Sirva o Kimi K2.7 Code em um setup com 4 GPUs

llama.cpp é um mecanismo de inferência leve para modelos GGUF com suporte nativo a múltiplas GPUs. Confira nosso tutorial de llama.cpp para saber mais. 

Seu modo de divisão por camadas distribui as camadas do modelo e o cache KV entre as quatro GPUs RTX PRO 6000, tornando possível carregar totalmente na VRAM o modelo Kimi K2.7 Code de 339 GB (2 bits).

Rode o comando abaixo no terminal do JupyterLab:

CUDA_VISIBLE_DEVICES=0,1,2,3 llama serve \
  -m /workspace/unsloth/UD-Q2_K_XL/Kimi-K2.7-Code-UD-Q2_K_XL-00001-of-00008.gguf \
  --alias kimi-k2.7-code-local \
  --host 0.0.0.0 \
  --port 8910 \
  --n-gpu-layers all \
  --split-mode layer \
  --tensor-split 1,1,1,1 \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --flash-attn on \
  --jinja \
  --reasoning on

Essa configuração disponibiliza as quatro GPUs para o llama.cpp, descarrega o modelo completo para a memória da GPU e o distribui igualmente entre as quatro placas. 

A janela de contexto de 8192 tokens é um ponto de partida confiável para essa quantização de 339 GB, mantendo folga de VRAM para o cache KV.

As principais opções são:

  • --host 0.0.0.0 permite que o proxy HTTP do RunPod acesse o servidor.
  • --port 8910 corresponde à porta exposta no template do Pod.
  • --split-mode layer distribui as camadas do modelo e o cache KV entre as quatro GPUs.
  • --tensor-split 1,1,1,1 atribui uma parte igual do modelo a cada GPU.
  • --cache-type-k q8_0 e --cache-type-v q8_0 reduzem o uso de memória do cache KV.
  • --flash-attn on ativa o Flash Attention.
  • --jinja carrega o template de chat do modelo, incluindo o formato de chamadas de ferramentas.
  • --reasoning on ativa o modo de raciocínio do Kimi.

Quando a inicialização terminar, o terminal deve exibir algo como:

Serving the Kimi-K2.7-Code-GGUF UD-Q2_K_XL 2-bit quantization using the llama.cpp serve

Mantenha esse terminal aberto enquanto usar o modelo. Fechar a janela interrompe o servidor.

A carga inicial levou aproximadamente 78 segundos no nosso teste. 

5. Teste o Kimi K2.7 Code na web UI do llama.cpp

Como expusemos a porta HTTP 8910 ao criar o Pod, o RunPod fornece uma URL de proxy pública para o servidor e a web UI do llama.cpp.

No painel do RunPod, abra o seu Pod, clique em Connect e selecione o link da porta 8910.

Accessing the llama.cpp webui form the Runpod proxy

Você também pode abrir a interface diretamente em:

https://<POD_ID>-8910.proxy.runpod.net

Substitua <POD_ID> pelo ID do seu Pod. Mantenha essa URL privada, pois ela permite acesso remoto ao seu modelo hospedado localmente. 

A página abre a web UI do llama.cpp, que funciona de forma semelhante ao ChatGPT. Selecione kimi-k2.7-code-local e comece a conversar com o modelo.

Testing the Kimi-K2.7-Code-GGUF UD-Q2_K_XL 2-bit model within the llama.cpp Web UI

No nosso teste, o Kimi K2.7 Code gerou a cerca de 55 tokens por segundo, um ótimo resultado para um modelo de 339 GB rodando em quatro GPUs. 

Para testar a habilidade de código, pedi ao modelo que criasse um dashboard do mercado de ações em um único arquivo HTML. 

Testing the Kimi-K2.7-Code-GGUF UD-Q2_K_XL 2-bit model within the llama.cpp Web UI

Ele gerou uma interface caprichada com painel de portfólio, busca por ticker, gráfico de preços e controles de período, como mostrado abaixo. 

Kimi-K2.7-Code-GGUF UD-Q2_K_XL 2-bit model has generated the Stock Price dashboard

6. Conecte o agente de código Pi usando o plugin do llama.cpp

Pi é um agente de código leve que permite usar o modelo Kimi hospedado localmente para tarefas reais de programação direto do terminal.

Abra um segundo terminal do JupyterLab e mantenha o primeiro terminal rodando o llama serve

Instale o Pi com:

curl -fsSL https://pi.dev/install.sh | sh

Installing the Pi Coding agentO instalador pode pedir para instalar o Node.js. Aceite o prompt e aguarde. No meu setup, o Pi foi instalado em poucos segundos.

Pi Coding agent is installed

Recarregue a configuração do terminal e confirme que o Pi está disponível:

source ~/.bashrc
pi --version

Na minha instalação retornou 0.80.1, mas a sua versão pode ser mais recente.

Agora instale o plugin pi-llama:

pi install git:github.com/huggingface/pi-llama

O plugin pi-llama transforma um servidor do llama.cpp em execução em um provider do Pi e descobre automaticamente o modelo disponível localmente.

Por padrão, o Pi espera que o llama.cpp use a porta 8080. Como nosso servidor roda na porta 8910, aponte o plugin para o endpoint local compatível com OpenAI:

export LLAMA_BASE_URL="http://127.0.0.1:8910/v1"

7. Rode tarefas de programação com o Pi e o Kimi K2.7 Code

Para uma experiência melhor no terminal, mude o JupyterLab para o modo escuro em Settings → Theme → JupyterLab Dark.

Crie um workspace de teste e inicie o Pi:

mkdir -p /workspace/kimi-agent-test
cd /workspace/kimi-agent-test
git init
pi

Dentro do Pi, abra o seletor de modelos:

/model

Selecting the local running model within the Pi Coding Agent

Selecione kimi-k2.7-code-local no provider llama-cpp e passe ao Pi a tarefa abaixo:

"Create a Python CLI application that reads a CSV file and prints basic summary statistics. 
Add a requirements.txt file, a README, and a sample CSV file. 
Run the application to verify it works."

O Pi pode usar ferramentas para criar e editar arquivos, inspecionar o projeto e executar comandos no terminal. 

Pi Coding Agent using the write command to create files for the project

Neste teste, ele criou os arquivos da aplicação, executou o programa, verificou que tudo funcionou e forneceu um resumo do projeto concluído.

Pi Coding Agent project summary generated with the Kimi K2.7 Code

No entanto, a tarefa usou quase toda a janela de contexto de 8K

Isso é suficiente para tarefas menores, mas agentes de código podem consumir contexto rapidamente, pois incluem chamadas de ferramentas, conteúdo de arquivos, saída de comandos e instruções anteriores na conversa.

Para dar mais espaço ao Pi em projetos maiores e pedidos de acompanhamento, pare o servidor do llama.cpp com Ctrl+C no primeiro terminal. Depois, execute novamente o comando do Passo 4, alterando apenas esta linha:

--ctx-size 65000 \

Aguarde o servidor carregar novamente, depois saia e reinicie o Pi:

pi

Kimi K2.7 Code context window has been increased form 8k to 64K

O Pi agora deve detectar uma janela de contexto de 64K.

Com o contexto maior disponível, pedi ao Pi para adicionar uma interface web ao aplicativo de CSV. 

Kimi K2.7 Code has generated files, run test, tested the webUI, and provide the summary of the project.

Ele criou um app web local onde usuários podem enviar um arquivo CSV e revisar informações de resumo como nomes das colunas, contagem de valores ausentes, estatísticas numéricas e outros detalhes do dataset.

Kimi K2.7 Code generate web app to summaries the CSV files

Considerações finais

Neste guia, configuramos um ambiente RunPod com quatro GPUs, instalamos o binário pré-compilado do llama.cpp, baixamos o modelo GGUF Kimi K2.7 Code de 2 bits, iniciamos o servidor multi-GPU, testamos na web UI do llama.cpp e conectamos tudo ao Pi como agente de código local.

Todo o processo foi surpreendentemente simples. Usando o binário pré-compilado do llama.cpp, levamos cerca de cinco minutos para instalar o runtime e subir o servidor, em vez de gastar aproximadamente 10 minutos compilando a partir do código-fonte. 

A CLI do Hugging Face também facilitou o download do modelo grande, enquanto o volume de rede do RunPod garantiu a persistência dos arquivos entre reinícios do Pod.

A parte mais útil desse setup é o ecossistema em torno do modelo. O llama.cpp oferece um servidor local leve compatível com OpenAI, a web UI facilita testes rápidos e o Pi transforma o mesmo endpoint em um agente de código poderoso no terminal.

Acredito que esse é o caminho da IA local: não apenas rodar um modelo isolado, mas conectar um servidor de inferência local a agentes de código, extensões de IDE, interfaces web e outras ferramentas de desenvolvimento.

Dito isso, o Kimi K2.7 Code é extremamente grande. Para rodá-lo localmente neste guia, foram necessárias quatro GPUs RTX PRO 6000 e uma quantização de 339 GB em 2 bits, algo difícil de justificar para a maioria dos desenvolvedores individuais ou times pequenos. 

A menos que você precise especificamente da capacidade de longo contexto ou do desempenho agentic em programação, modelos menores de código que rodam em uma única GPU geralmente vão responder mais rápido, custar menos e oferecer um setup local mais prático.

FAQs

O Kimi K2.7 Code é totalmente open-source?

Kimi K2.7 Code foi lançado como um modelo de "open-weight" sob uma licença MIT modificada. Embora isso permita baixar, executar e auto-hospedar o modelo exatamente como mostrado neste guia, a natureza "modificada" da licença pode impor restrições específicas de uso comercial dependendo da escala do seu deploy. Sempre confira o model card oficial da Moonshot AI para ver restrições para empresas.

O Kimi K2.7 Code aceita entradas multimodais como imagens?

Sim. Embora o Kimi K2.7 Code seja fortemente otimizado para engenharia de software baseada em texto, ele tem uma arquitetura multimodal nativa que aceita entradas de texto, imagens e até vídeo. Isso o torna muito capaz para desenvolvedores front-end que querem fornecer ao modelo uma captura de tela de um mockup de UI e pedir que ele gere o HTML/CSS correspondente ou componentes React.

O que diferencia o "modo de raciocínio" do Kimi K2.7 Code de outros modelos?

A Moonshot AI projetou explicitamente o K2.7 Code para sofrer menos com "overthinking". Ele usa aproximadamente 30% menos tokens de raciocínio em comparação com seu antecessor, o K2.6. Como tarefas de programação agentic exigem ciclos de planos, novas tentativas e verificações — em que você paga o custo (em tempo ou taxas de API) a cada passo de pensamento — essa eficiência acelera drasticamente os fluxos de trabalho no CLI local e libera mais espaço na janela de contexto para o código em si.

Quão bem o Kimi K2.7 lida com chamadas a ferramentas externas?

O Kimi K2.7 Code foi construído especificamente para fluxos de trabalho agentic de longo prazo usando o Model Context Protocol (MCP). Ele se destaca em chamadas de ferramentas multi-turn, ou seja, consegue invocar comandos de terminal, rodar checks de CI, ler documentação e editar arquivos em um único loop contínuo sem perder o fio da tarefa principal.


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Sou um cientista de dados certificado que gosta de criar aplicativos de aprendizado de máquina e escrever blogs sobre ciência de dados. No momento, estou me concentrando na criação e edição de conteúdo e no trabalho com modelos de linguagem de grande porte.

Tópicos

Principais cursos da DataCamp

Programa

Associate AI Engineer para desenvolvedores

26 h
Aprenda a integrar IA em aplicações de software usando APIs e bibliotecas de código aberto. Comece hoje sua jornada para se tornar um AI Engineer!
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow