Cách chạy Kimi K2.7 Code cục bộ bằng llama.cpp

Tìm hiểu cách chạy Kimi K2.7 Code cục bộ trong năm phút với binary llama.cpp dựng sẵn trên bốn GPU RTX PRO 6000, sau đó sử dụng giao diện web của nó và tác tử lập trình Pi qua API tương thích OpenAI.

Đã cập nhật 25 thg 6, 2026 · 8 phút đọc

Kimi K2.7 Code là mô hình định hướng tác vụ viết mã của Moonshot AI, được phát triển dựa trên Kimi K2.6 để xử lý các quy trình công việc kỹ thuật phần mềm dài hơn và phức tạp hơn.

Mô hình sử dụng kiến trúc mixture-of-experts với tổng 1 nghìn tỷ tham số và 32 tỷ tham số kích hoạt trên mỗi token, cùng với cửa sổ ngữ cảnh 256K token.

Mô hình được thiết kế cho các nhiệm vụ như điều hướng codebase lớn, gỡ lỗi, lên kế hoạch thay đổi nhiều bước và hoàn thành công việc lập trình dài hạn trong khi sử dụng ít token suy luận hơn so với phiên bản trước.

Nguồn: Kimi K2.7 Code: Mô hình mã hoá tác tử nguồn mở

Trong hướng dẫn này, tôi sẽ chỉ cho bạn cách đơn giản và hiệu quả nhất để tải xuống và chạy Kimi K2.7 Code cục bộ bằng binary llama.cpp dựng sẵn và chỉ với một lệnh.

Chúng ta cũng sẽ kiểm thử mô hình qua giao diện web của llama.cpp và kết nối nó với tác tử lập trình Pi bằng tiện ích mở rộng Pi cho máy chủ llama.cpp.

Nếu bạn mới bắt đầu lập trình với các mô hình AI, tôi khuyên bạn nên xem qua khóa học AI-Assisted Coding for Developers của chúng tôi.

1. Thiết lập môi trường RunPod đa GPU cho Kimi K2.7

Tạo một Pod RunPod mới với 4 × NVIDIA RTX PRO 6000 GPUs và template RunPod PyTorch 2.8.0 mới nhất. Template này bao gồm JupyterLab, chúng ta sẽ dùng cho mọi lệnh trong hướng dẫn này thay vì SSH.

Cấu hình Pod với các thiết lập sau:

Container Disk: 50 GB
Network Volume: 500 GB
Expose HTTP Ports: 8888,8910
Expose TCP Ports: 22
Environment Variable: HF_TOKEN liên kết với bí mật Hugging Face của bạn

Ổ đĩa container 50 GB dùng cho hệ điều hành, gói cài đặt và tệp tạm. Network Volume 500 GB là nơi chúng ta lưu trữ mô hình Kimi K2.7 Code và bộ nhớ đệm của Hugging Face.

Vì được gắn tại /workspace, các tệp mô hình vẫn khả dụng sau khi dừng và khởi động lại Pod.

Sử dụng token Hugging Face đã xác thực giúp tránh giới hạn tải xuống ẩn danh. Với kết nối RunPod nhanh, tốc độ tải có thể đạt gần 2 GB/s, có thể rút ngắn thời gian tải mô hình Kimi K2.7 Code dạng GGUF 2-bit xuống khoảng 2,5 phút trong điều kiện mạng thuận lợi.

Chúng ta đã mở cổng HTTP 8910 vì sau này sẽ chạy giao diện web llama.cpp và API tương thích OpenAI trên cổng này.

Cấu hình này có chi phí khoảng $8,42 mỗi giờ trong ví dụ minh họa ở đây, tuy nhiên giá chính xác phụ thuộc vào tình trạng sẵn có của GPU và khu vực RunPod được chọn.

Tôi khuyên bạn nên giữ tối thiểu $20–$30 tín dụng cho bước thiết lập ban đầu, tải xuống và kiểm thử.

Sau khi triển khai Pod:

Mở Pod từ bảng điều khiển RunPod.
Nhấp Connect.
Mở JupyterLab.
Trong JupyterLab, chọn File → New → Terminal.

Hãy dùng terminal này cho các lệnh còn lại trong hướng dẫn.

2. Cài đặt llama.cpp

Trong terminal của JupyterLab, cài đặt phiên bản dựng sẵn mới nhất của llama.cpp bằng trình cài đặt chính thức:

curl -LsSf https://llama.app/install.sh | sh

Lệnh này tải xuống một binary llama.cpp dựng sẵn, vì vậy bạn không cần biên dịch từ mã nguồn.

Trong thiết lập của chúng tôi, quá trình cài đặt hoàn tất trong khoảng năm giây, so với khoảng 10 phút khi build llama.cpp từ mã nguồn trong cùng môi trường.

Trình cài đặt đặt lệnh llama tại ~/.local/bin. Thêm thư mục này vào biến PATH của shell, sau đó nạp lại cấu hình:

echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

Xác nhận việc cài đặt đã hoàn tất thành công:

llama help

3. Tải mô hình GGUF Kimi K2.7 Code qua Hugging Face

Token Hugging Face bạn đã thêm vào template RunPod đã khả dụng dưới tên HF_TOKEN, nên bạn không cần đăng nhập lại từ terminal.

Trước tiên, cài đặt hoặc cập nhật CLI của Hugging Face:

pip install -U huggingface_hub

Tiếp theo, tạo thư mục lưu trữ bền vững cho mô hình và bật chế độ tải Xet hiệu năng cao:

mkdir -p /workspace/unsloth
export HF_XET_HIGH_PERFORMANCE=1

Tải lượng tử hóa 2-bit UD-Q2_K_XL được dùng trong hướng dẫn này:

hf download unsloth/Kimi-K2.7-Code-GGUF \
  --include "UD-Q2_K_XL/*" \
  --local-dir /workspace/unsloth

Mô hình được tải trực tiếp về /workspace/unsloth, nằm trên Network Volume của bạn và sẽ còn đó sau khi Pod bị dừng hoặc khởi động lại.

Trong thử nghiệm của chúng tôi, tốc độ tải có lúc chạm gần 3 GB/s, cho phép tải toàn bộ mô hình trong khoảng 2,5 phút. Tốc độ thực tế phụ thuộc vào khu vực RunPod, băng thông sẵn có và điều kiện máy chủ Hugging Face.

Sau khi tải xong, xác nhận rằng mọi shard của mô hình đều có mặt:

ls -lh /workspace/unsloth/UD-Q2_K_XL/

Bạn sẽ thấy tám tệp GGUF, bắt đầu với:

Kimi-K2.7-Code-UD-Q2_K_XL-00001-of-00008.gguf
Kimi-K2.7-Code-UD-Q2_K_XL-00002-of-00008.gguf
...
Kimi-K2.7-Code-UD-Q2_K_XL-00008-of-00008.gguf

4. Phục vụ Kimi K2.7 Code trên thiết lập 4 x GPU

llama.cpp là một engine suy luận gọn nhẹ cho các mô hình GGUF với hỗ trợ đa GPU tích hợp. Bạn có thể xem hướng dẫn llama.cpp của chúng tôi để biết thêm.

Chế độ chia lớp của nó phân bổ các lớp mô hình và KV cache trên cả bốn GPU RTX PRO 6000, giúp tải toàn bộ mô hình Kimi K2.7 Code 2-bit 339 GB vào bộ nhớ GPU.

Chạy lệnh sau trong terminal JupyterLab của bạn:

CUDA_VISIBLE_DEVICES=0,1,2,3 llama serve \
  -m /workspace/unsloth/UD-Q2_K_XL/Kimi-K2.7-Code-UD-Q2_K_XL-00001-of-00008.gguf \
  --alias kimi-k2.7-code-local \
  --host 0.0.0.0 \
  --port 8910 \
  --n-gpu-layers all \
  --split-mode layer \
  --tensor-split 1,1,1,1 \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --flash-attn on \
  --jinja \
  --reasoning on

Cấu hình này giúp tất cả bốn GPU sẵn sàng cho llama.cpp, đẩy toàn bộ mô hình lên bộ nhớ GPU và phân bổ đều trên bốn card.

Cửa sổ ngữ cảnh 8192 token là điểm khởi đầu đáng tin cậy cho lượng tử hóa 339 GB này, đồng thời để dư VRAM cho KV cache.

Các thiết lập chính gồm:

--host 0.0.0.0 cho phép proxy HTTP của RunPod truy cập máy chủ.
--port 8910 khớp với cổng đã mở trong template Pod.
--split-mode layer phân bổ các lớp mô hình và KV cache trên bốn GPU.
--tensor-split 1,1,1,1 chia đều phần mô hình cho mỗi GPU.
--cache-type-k q8_0 và --cache-type-v q8_0 giảm sử dụng bộ nhớ KV-cache.
--flash-attn on bật Flash Attention.
--jinja nạp template chat của mô hình, bao gồm định dạng tool-call.
--reasoning on bật chế độ suy nghĩ của Kimi.

Khi khởi động xong, terminal sẽ hiển thị đầu ra tương tự như sau:

Giữ terminal này mở khi sử dụng mô hình. Đóng nó sẽ dừng máy chủ.

Lần tải ban đầu mất khoảng 78 giây trong thử nghiệm của chúng tôi.

5. Kiểm thử Kimi K2.7 Code trong giao diện web của llama.cpp

Vì chúng ta đã mở cổng HTTP 8910 khi tạo Pod, RunPod cung cấp URL proxy công khai cho máy chủ và giao diện web của llama.cpp.

Từ bảng điều khiển RunPod, mở Pod của bạn, nhấp Connect, và chọn liên kết cho cổng 8910.

Bạn cũng có thể mở giao diện trực tiếp tại:

https://<POD_ID>-8910.proxy.runpod.net

Thay <POD_ID> bằng ID Pod của bạn. Giữ URL này riêng tư, vì nó cung cấp quyền truy cập từ xa vào mô hình được lưu trữ cục bộ của bạn.

Trang sẽ mở giao diện web của llama.cpp, hoạt động tương tự như ChatGPT. Chọn kimi-k2.7-code-local và bắt đầu trò chuyện với mô hình.

Trong thử nghiệm của chúng tôi, Kimi K2.7 Code tạo ra khoảng 55 token mỗi giây, đây là kết quả rất tốt cho một mô hình 339 GB chạy trên bốn GPU.

Để kiểm thử khả năng lập trình, tôi yêu cầu mô hình xây dựng một bảng điều khiển thị trường chứng khoán trong một tệp HTML duy nhất.

Nó đã tạo một giao diện chỉn chu với bảng danh mục, ô tìm mã cổ phiếu, biểu đồ giá và điều khiển khung thời gian như dưới đây.

6. Kết nối tác tử lập trình Pi bằng plugin llama.cpp

Pi là một tác tử lập trình gọn nhẹ cho phép bạn dùng mô hình Kimi được lưu trữ cục bộ cho các tác vụ lập trình thực tế trực tiếp từ terminal.

Mở một terminal JupyterLab thứ hai và để terminal đầu tiên tiếp tục chạy llama serve.

Cài đặt Pi bằng:

curl -fsSL https://pi.dev/install.sh | sh

Trình cài đặt có thể yêu cầu cài Node.js. Hãy chấp nhận và để quá trình hoàn tất. Trong thiết lập của tôi, Pi được cài trong vài giây.

Khởi động lại cấu hình terminal, sau đó xác nhận Pi đã sẵn sàng:

source ~/.bashrc
pi --version

Cài đặt của tôi trả về 0.80.1, phiên bản của bạn có thể mới hơn.

Tiếp theo, cài plugin pi-llama:

pi install git:github.com/huggingface/pi-llama

Plugin pi-llama biến một máy chủ llama.cpp đang chạy thành nhà cung cấp cho Pi và tự động phát hiện mô hình khả dụng cục bộ.

Pi mặc định kỳ vọng llama.cpp dùng cổng 8080. Vì máy chủ của chúng ta chạy trên cổng 8910, hãy trỏ plugin đến endpoint tương thích OpenAI cục bộ:

export LLAMA_BASE_URL="http://127.0.0.1:8910/v1"

7. Chạy tác vụ lập trình AI với Pi và Kimi K2.7 Code

Để trải nghiệm terminal tốt hơn, chuyển JupyterLab sang chế độ tối tại Settings → Theme → JupyterLab Dark.

Tạo một không gian làm việc thử nghiệm, rồi khởi chạy Pi:

mkdir -p /workspace/kimi-agent-test
cd /workspace/kimi-agent-test
git init
pi

Bên trong Pi, mở bộ chọn mô hình:

/model

Chọn kimi-k2.7-code-local từ nhà cung cấp llama-cpp, rồi giao cho Pi tác vụ sau:

"Create a Python CLI application that reads a CSV file and prints basic summary statistics. 
Add a requirements.txt file, a README, and a sample CSV file. 
Run the application to verify it works."

Pi có thể dùng các công cụ để tạo và chỉnh sửa tệp, kiểm tra dự án và chạy lệnh terminal.

Trong lần thử này, nó đã tạo các tệp ứng dụng, chạy chương trình, kiểm tra mọi thứ hoạt động và cung cấp bản tóm tắt dự án đã hoàn thành.

Tuy nhiên, tác vụ này đã sử dụng gần như toàn bộ cửa sổ ngữ cảnh 8K.

Điều này đủ cho các tác vụ nhỏ, nhưng các tác tử lập trình có thể tiêu tốn ngữ cảnh rất nhanh vì chúng đưa vào cuộc hội thoại các lệnh công cụ, nội dung tệp, đầu ra lệnh và hướng dẫn trước đó.

Để dành thêm không gian cho các dự án lớn hơn và yêu cầu tiếp theo, hãy dừng máy chủ llama.cpp đang chạy bằng Ctrl+C trong terminal thứ nhất. Sau đó chạy lại lệnh ở Bước 4, chỉ thay dòng này:

--ctx-size 65000 \

Đợi máy chủ tải lại, sau đó thoát và khởi chạy lại Pi:

pi

Pi giờ đây sẽ phát hiện cửa sổ ngữ cảnh 64K.

Với ngữ cảnh lớn hơn, tôi yêu cầu Pi bổ sung giao diện web cho ứng dụng CSV.

Nó đã tạo một ứng dụng web cục bộ cho phép người dùng tải lên tệp CSV và xem thông tin tóm tắt như tên cột, số lượng giá trị thiếu, thống kê số và các chi tiết khác của tập dữ liệu.

Kết luận

Trong hướng dẫn này, chúng ta đã thiết lập môi trường RunPod với bốn GPU, cài đặt binary llama.cpp dựng sẵn, tải xuống mô hình GGUF Kimi K2.7 Code 2-bit, khởi chạy nó qua máy chủ đa GPU, kiểm thử trong giao diện web llama.cpp và kết nối nó với Pi như một tác tử lập trình cục bộ.

Toàn bộ quá trình thiết lập diễn ra khá đơn giản. Nhờ binary llama.cpp dựng sẵn, mất khoảng năm phút để cài đặt môi trường chạy và khởi động máy chủ, thay vì khoảng 10 phút để biên dịch từ mã nguồn.

CLI của Hugging Face cũng giúp việc tải mô hình lớn trở nên dễ dàng, trong khi Network Volume của RunPod đảm bảo tệp tồn tại giữa các lần khởi động lại Pod.

Phần hữu ích nhất của thiết lập này là hệ sinh thái xung quanh mô hình. llama.cpp cung cấp cho bạn một máy chủ cục bộ tương thích OpenAI gọn nhẹ, giao diện web giúp thử nghiệm nhanh chóng, và Pi biến cùng endpoint đó thành một tác tử lập trình dựa trên terminal mạnh mẽ.

Theo tôi, AI cục bộ đang đi theo hướng này: không chỉ chạy mô hình một cách biệt lập, mà còn kết nối máy chủ suy luận cục bộ với các tác tử lập trình, tiện ích IDE, giao diện web và các công cụ phát triển khác.

Tuy nhiên, Kimi K2.7 Code cực kỳ lớn. Chạy cục bộ theo hướng dẫn này yêu cầu bốn GPU RTX PRO 6000 và lượng tử hóa 2-bit 339 GB, điều này khó hợp lý đối với hầu hết các nhà phát triển cá nhân hoặc đội nhỏ.

Trừ khi bạn thực sự cần khả năng ngữ cảnh dài hoặc hiệu năng mã hoá tác tử của nó, các mô hình lập trình nhỏ hơn chạy trên một GPU thường sẽ cho phản hồi nhanh hơn, chi phí thấp hơn và thiết lập cục bộ thực tế hơn.

Kimi K2.7 Code có hoàn toàn mã nguồn mở không?

Kimi K2.7 Code được phát hành dưới dạng mô hình "mở trọng số" theo Giấy phép MIT sửa đổi. Mặc dù điều này cho phép bạn tải xuống, chạy và tự lưu trữ mô hình đúng như trong hướng dẫn này, tính chất "sửa đổi" của giấy phép có nghĩa là có thể có những hạn chế sử dụng thương mại cụ thể tùy theo quy mô triển khai. Luôn kiểm tra thẻ mô hình chính thức của Moonshot AI cho các ràng buộc doanh nghiệp.

Kimi K2.7 Code có hỗ trợ đầu vào đa phương thức như hình ảnh không?

Điều gì khiến "chế độ suy nghĩ" của Kimi K2.7 Code khác với các mô hình khác?

Moonshot AI đã thiết kế K2.7 Code để giảm tình trạng "overthinking". Nó sử dụng khoảng ít hơn 30% token suy luận so với phiên bản tiền nhiệm K2.6. Vì các tác vụ mã hoá tác tử yêu cầu lặp qua kế hoạch, thử lại và xác minh, nơi bạn phải trả chi phí (thời gian hoặc phí API) cho mỗi bước suy nghĩ, hiệu quả này giúp tăng tốc đáng kể các quy trình CLI cục bộ và để lại nhiều không gian hơn trong cửa sổ ngữ cảnh cho phần mã thực tế.

Kimi K2.7 xử lý việc gọi công cụ bên ngoài tốt đến mức nào?

Author

Abid Ali Awan

Là một nhà khoa học dữ liệu được chứng nhận, tôi đam mê tận dụng công nghệ tiên tiến để tạo ra các ứng dụng học máy đổi mới. Với nền tảng vững chắc về nhận dạng giọng nói, phân tích và báo cáo dữ liệu, MLOps, AI hội thoại và NLP, tôi đã rèn giũa kỹ năng phát triển các hệ thống thông minh có thể tạo ra tác động thực sự. Bên cạnh chuyên môn kỹ thuật, tôi cũng là một người truyền đạt tốt, có khả năng chắt lọc các khái niệm phức tạp thành ngôn ngữ rõ ràng, súc tích. Nhờ đó, tôi trở thành một blogger được nhiều người quan tâm trong lĩnh vực khoa học dữ liệu, chia sẻ góc nhìn và kinh nghiệm với cộng đồng các chuyên gia dữ liệu ngày càng lớn. Hiện tại, tôi tập trung vào sáng tạo và biên tập nội dung, làm việc với các mô hình ngôn ngữ lớn để phát triển nội dung mạnh mẽ và hấp dẫn, giúp doanh nghiệp và cá nhân tận dụng tối đa dữ liệu của mình.

Chủ đề

Trí tuệ Nhân tạo

Mô hình Ngôn ngữ Lớn

Các khóa học hàng đầu trên DataCamp

Tracks

Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên

26 giờ

Học cách tích hợp trí tuệ nhân tạo (AI) vào các ứng dụng phần mềm thông qua việc sử dụng các giao diện lập trình ứng dụng (API) và các thư viện mã nguồn mở. Hãy bắt đầu hành trình trở thành Kỹ sư Trí tuệ Nhân tạo ngay hôm nay!

Xem chi tiết

Bắt đầu khóa học

Courses

Lập trình hỗ trợ bởi AI nâng cao cho nhà phát triển

1 giờ 30 phút

503

Học cách dùng AI như một đối tác kỹ thuật cấp cao cho phân tích mã, tối ưu hiệu năng, bảo mật và quyết định kiến trúc phần mềm.

Xem chi tiết

Bắt đầu khóa học

Courses

Google: Deploy Your First Agent

1 giờ

Deploy ADK agents to production using Vertex AI Agent Engine and Cloud Run. Add persistent cross-session memory with Memory Bank.

Xem chi tiết

Bắt đầu khóa học

Xem thêm

1. Thiết lập môi trường RunPod đa GPU cho Kimi K2.7

2. Cài đặt llama.cpp

3. Tải mô hình GGUF Kimi K2.7 Code qua Hugging Face

4. Phục vụ Kimi K2.7 Code trên thiết lập 4 x GPU

5. Kiểm thử Kimi K2.7 Code trong giao diện web của llama.cpp

6. Kết nối tác tử lập trình Pi bằng plugin llama.cpp

7. Chạy tác vụ lập trình AI với Pi và Kimi K2.7 Code

Kết luận

FAQs

Điều gì khiến "chế độ suy nghĩ" của Kimi K2.7 Code khác với các mô hình khác?

Kimi K2.7 xử lý việc gọi công cụ bên ngoài tốt đến mức nào?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên

Lập trình hỗ trợ bởi AI nâng cao cho nhà phát triển

Google: Deploy Your First Agent

Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên