Sử dụng Claude Code với các mô hình cục bộ Ollama

Chạy GLM 4.7 Flash cục bộ (RTX 3090) với Claude Code và Ollama chỉ trong vài phút, không đám mây, không ràng buộc, chỉ tốc độ và quyền kiểm soát.

Đã cập nhật 5 thg 6, 2026 · 8 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

GLM 4.7 Flash đang nhanh chóng trở thành lựa chọn phổ biến cho lập trình agentic cục bộ. Nhiều nhà phát triển đang dùng nó với các công cụ như llama.cpp và LM Studio. Tuy nhiên, nhiều người vẫn gặp vấn đề trong quá trình thiết lập, chạy mô hình đúng cách và đảm bảo việc gọi công cụ hoạt động như mong đợi.

Hướng dẫn này tập trung vào cách đơn giản và đáng tin cậy nhất để chạy GLM 4.7 Flash cục bộ bằng Claude Code với Ollama. Mục tiêu là loại bỏ rào cản và giúp bạn có một bản thiết lập hoạt động mà không phức tạp không cần thiết.

Hướng dẫn này dùng được trên mọi hệ điều hành. Không quan trọng bạn dùng Linux, Windows hay macOS. Kết thúc bài, bạn sẽ chạy GLM 4.7 Flash cục bộ và tích hợp đúng với Claude Code thông qua Ollama.

Yêu cầu tiên quyết

Trước khi bắt đầu, hãy đảm bảo hệ thống của bạn đáp ứng các yêu cầu phần cứng và phần mềm tối thiểu dưới đây.

Phần cứng:

GPU NVIDIA với tối thiểu 16 GB VRAM
Khuyến nghị 24 GB VRAM để suy luận mượt mà hơn ở kích thước ngữ cảnh lớn
16–32 GB RAM hệ thống
Ít nhất 25 GB dung lượng đĩa trống

Nếu bạn không có GPU, mô hình có thể chạy trên CPU, nhưng hiệu năng sẽ chậm hơn đáng kể và cần RAM cao.

Phần mềm:

Khuyến nghị Linux hoặc macOS. Người dùng Windows: dùng WSL2 với GPU passthrough được bật.
Phải cài đặt driver GPU NVIDIA và tương thích với phiên bản CUDA của bạn
Cài đặt CUDA Toolkit 13.1
Nếu thiếu CUDA/driver hoặc không tương thích, Ollama thường sẽ chuyển sang CPU, vốn chậm hơn rất nhiều.

Nếu thiếu bộ công cụ CUDA hoặc driver NVIDIA không tương thích, Ollama sẽ chuyển sang chế độ CPU, vốn chậm hơn rất nhiều.

Để xác minh GPU và driver CUDA được cài đúng, hãy chạy lệnh sau trong terminal:

nvidia-smi

Nếu mọi thứ được thiết lập đúng, bạn sẽ thấy GPU của mình cùng VRAM khả dụng và phiên bản CUDA.

1. Cài đặt Ollama

Ollama là môi trường chạy mà chúng ta sẽ dùng để chạy GLM 4.7 Flash cục bộ và phơi bày nó theo cách Claude Code có thể tương tác một cách đáng tin cậy. Việc cài đặt đơn giản trên tất cả nền tảng được hỗ trợ.

Trên Linux, bạn có thể cài Ollama với một lệnh:

curl -fsSL https://ollama.com/install.sh | sh

Với macOS và Windows, tải trình cài đặt trực tiếp từ trang web Ollama và làm theo hướng dẫn trên màn hình.

Nguồn: Ollama

Ollama chạy như một dịch vụ nền và sẽ tự động kiểm tra bản cập nhật. Khi có bản cập nhật, bạn có thể áp dụng bằng cách chọn “Khởi động lại để cập nhật” từ menu Ollama.

Sau khi cài đặt, mở terminal và kiểm tra Ollama được cài đúng chưa:

ollama -v

Bạn sẽ thấy đầu ra tương tự:

ollama version is 0.15.2

Nếu bạn thấy lỗi khi chạy ollama -v, thường là do dịch vụ Ollama chưa chạy. Khởi động máy chủ Ollama thủ công:

ollama serve

Giữ tiến trình này chạy, mở một cửa sổ terminal mới, rồi chạy:

ollama -v

Khi lệnh kiểm tra phiên bản hoạt động, Ollama đã sẵn sàng cho các bước tiếp theo của hướng dẫn.

2. Tải và chạy GLM-4.7-Flash

Khi Ollama đã được cài và chạy, bước tiếp theo là tải mô hình GLM 4.7 Flash và xác minh nó hoạt động đúng. Bước này đảm bảo mô hình chạy cục bộ trước khi tích hợp với Claude Code.

Nguồn: glm-4.7-flash

Bắt đầu bằng cách tải mô hình từ registry của Ollama:

ollama pull glm-4.7-flash

Lệnh này sẽ tải các tệp mô hình và lưu cục bộ. Tùy tốc độ mạng, có thể mất vài phút.

Sau khi tải xong, chạy mô hình ở chế độ chat tương tác như một phép thử nhanh:

ollama run glm-4.7-flash

Gõ một lời chào đơn giản rồi nhấn enter. Trong vài giây, bạn sẽ nhận được phản hồi.

Nếu bạn chạy trên GPU, bạn sẽ thấy phản hồi rất nhanh, và đầu ra có thể bao gồm các token suy nghĩ nội bộ hoặc dấu vết lập luận tùy cấu hình mô hình.

Bạn cũng có thể thử mô hình thông qua API HTTP cục bộ của Ollama. Điều này hữu ích để xác nhận công cụ bên ngoài có thể giao tiếp với mô hình.

Chạy lệnh sau:

curl http://localhost:11434/api/chat -d '{
  "model": "glm-4.7-flash",
  "messages": [{"role":"user","content":"Hello!"}]
}'

3. Thiết lập độ dài ngữ cảnh

Claude Code và hầu hết công cụ lập trình agentic hoạt động tốt nhất với cửa sổ ngữ cảnh lớn, thường lên tới 64k token. Tuy nhiên, với GLM 4.7 Flash, chọn độ dài ngữ cảnh phù hợp rất quan trọng cho cả hiệu năng và độ ổn định.

Dùng kích thước ngữ cảnh rất lớn có thể làm chậm đáng kể tốc độ sinh token. Trên thực tế, thông lượng token có thể giảm từ hơn 100 token/giây xuống chỉ còn khoảng 2 token/giây. Trong một số trường hợp, mô hình cũng có thể mắc kẹt trong các vòng suy nghĩ dài nếu cửa sổ ngữ cảnh đặt quá cao.

Chúng tôi đã thử nhiều kích thước ngữ cảnh và thấy rằng 10k là không đủ cho quy trình làm việc của Claude Code. 20k cho cân bằng tốt: đủ lớn cho tác vụ lập trình trong khi vẫn giữ tốc độ phản hồi nhanh và giảm các vòng suy nghĩ không cần thiết.

Trước tiên, dừng máy chủ Ollama đang chạy. Bạn có thể làm điều này bằng cách nhấn Ctrl + C trong terminal hoặc kết thúc tiến trình.

Tiếp theo, khởi động lại Ollama với độ dài ngữ cảnh tùy chỉnh bằng cách đặt biến môi trường trước khi chạy máy chủ:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

Điều này báo cho Ollama tải các mô hình với cửa sổ ngữ cảnh tối đa 20.000 token.

Trong một cửa sổ terminal mới, chạy:

ollama ps

Điều này xác nhận GLM 4.7 Flash đang chạy trên GPU và độ dài ngữ cảnh đã được đặt đúng. Tại thời điểm này, mô hình đã được cấu hình để dùng với Claude Code một cách ổn định và nhanh.

NAME                    ID              SIZE     PROCESSOR    CONTEXT    UNTIL                   
glm-4.7-flash:latest    d1a8a26252f1    21 GB    100% GPU     20000      About a minute from now

4. Cài đặt Claude Code

Claude Code là tác nhân lập trình dựa trên terminal của Anthropic, giúp bạn viết, chỉnh sửa, tái cấu trúc và hiểu mã bằng ngôn ngữ tự nhiên. Nó được xây dựng cho quy trình agentic và có thể xử lý các tác vụ lập trình nhiều bước trực tiếp từ dòng lệnh của bạn.

Kết hợp với Ollama, Claude Code có thể dễ dàng dùng với các mô hình cục bộ như GLM 4.7 Flash, cho phép bạn chạy mọi thứ cục bộ và giữ mã nguồn trên máy của mình.

Trên macOS, Linux hoặc Windows dùng WSL, cài Claude Code bằng script cài đặt chính thức:

curl -fsSL https://claude.ai/install.sh | bash

Lệnh này tải và cài Claude Code cùng các phụ thuộc cần thiết. Sau khi cài xong, lệnh claude sẽ khả dụng trong terminal của bạn.

5. Kết nối Claude Code với Ollama

Giờ khi cả Ollama và Claude Code đã được cài, bước tiếp theo là kết nối Claude Code với máy chủ Ollama cục bộ và cấu hình để dùng mô hình GLM 4.7 Flash.

Bắt đầu bằng cách tạo thư mục làm việc cho dự án. Đây là nơi Claude Code sẽ hoạt động và quản lý tệp:

mkdir <project-name>
cd <project-name>

Ollama hiện cung cấp cách tích hợp sẵn để khởi chạy Claude Code, tự động cấu hình để trò chuyện với runtime Ollama cục bộ. Đây là cách được khuyến nghị và đáng tin cậy nhất.

Để khởi chạy Claude Code tương tác bằng Ollama:

ollama launch claude

Để khởi chạy trực tiếp Claude Code với mô hình GLM 4.7 Flash, chạy:

ollama launch claude --model glm-4.7-flash

Điều này đảm bảo Claude Code dùng mô hình GLM 4.7 Flash cục bộ thay vì mô hình từ xa hay mặc định.

Khi mọi thứ đã thiết lập xong, bạn sẽ thấy giao diện Claude Code trực tiếp trong terminal.

Trong Claude Code, dùng lệnh sau để xác nhận nó đang dùng mô hình cục bộ:

/model

Nếu đầu ra hiển thị glm-4.7-flash, cấu hình của bạn đã hoàn tất và Claude Code đang chạy thành công trên mô hình Ollama cục bộ.

7. Sử dụng Claude Code với Ollama

Khi đã thiết lập xong, bạn có thể bắt đầu dùng Claude Code được vận hành bởi mô hình GLM 4.7 Flash cục bộ. Việc đầu tiên nên thử là một lời chào đơn giản. Trong khoảng một hai giây, bạn sẽ nhận được phản hồi. Tốc độ rất đáng chú ý, đặc biệt khi chạy trên GPU.

Tiếp theo, thử một tác vụ lập trình thực tế hơn. Yêu cầu Claude Code xây dựng trò chơi Rắn săn mồi (Snake) dạng CLI bằng Python. Trước khi sinh mã, chuyển sang chế độ lập kế hoạch để mô hình phác thảo cách tiếp cận trước. Bạn có thể bật chế độ lập kế hoạch bằng cách nhấn Shift + Tab hai lần.

Khi kế hoạch được tạo, hãy xem lại. Nếu cách tiếp cận ổn, yêu cầu Claude Code thực thi kế hoạch.

Trong vài phút, nó đã tạo các tệp cần thiết, giải thích trò chơi Snake làm gì và cung cấp hướng dẫn rõ ràng về cách chạy.

Mở một cửa sổ terminal mới và đảm bảo bạn đang ở cùng thư mục dự án. Sau đó khởi động trò chơi với:

python3 snake_game.py

Trò chơi chạy ngay không cần thiết lập thêm. Đây là trò Snake trên terminal đơn giản, rất giống phiên bản trên Nokia 3310 cổ điển. Dù đơn giản, nó là ví dụ tuyệt vời cho việc lập trình agentic cục bộ nhanh và hiệu quả với Claude Code và Ollama.

Kết luận

Chạy Claude Code với GLM 4.7 Flash trên Ollama cho thấy lập trình agentic cục bộ đã tiến xa thế nào. Bạn nhận được phản hồi nhanh, khả năng sinh mã mạnh mẽ và toàn quyền kiểm soát dữ liệu, tất cả mà không cần dựa vào mô hình lưu trữ trên đám mây.

Khi đã cấu hình xong, quy trình làm việc mượt mà và đáng tin cậy, kể cả với các tác vụ lập trình nhiều bước.

Điều rút ra quan trọng là cửa sổ ngữ cảnh lớn hơn và thiết lập phức tạp hơn không phải lúc nào cũng tốt hơn. Với các giá trị mặc định hợp lý, toàn bộ thiết lập mất khoảng năm phút, không tính thời gian tải mô hình (phụ thuộc vào kết nối internet của bạn).

Nếu bạn đã có tệp GGUF của mô hình, thiết lập còn nhanh hơn. Trong trường hợp này, bạn có thể bỏ qua việc tải mô hình và chỉ cần đăng ký tệp GGUF hiện có với Ollama bằng cách tạo một Modelfile.

Điều này cho phép bạn định nghĩa tham số sinh một lần và tái sử dụng mô hình nhất quán trong các lần chạy và công cụ khác nhau.

Tạo tệp tên Modelfile trong cùng thư mục với tệp GGUF của bạn:

FROM ./glm-4.7-flash.gguf

PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

Bạn có thể điều chỉnh các tham số khi cần:

Temperature: 0,7 đến 1,0
Top-p: 0,95 đến 1,0
Repeat penalty: tắt hoặc đặt 1,0

Đăng ký mô hình với Ollama:

ollama create glm-4.7-flash-local -f Modelfile

Khi mô hình đã được tạo, bạn có thể chạy nó trực tiếp ở chế độ chat:

ollama run glm-4.7-flash-local

Giờ đây mô hình có thể dùng như bất kỳ mô hình Ollama nào khác và tích hợp liền mạch với Claude Code.

Tôi đã có rất nhiều niềm vui khi xây dựng ứng dụng và trò chơi bằng GLM 4.7 Flash trong Claude Code. Thực sự cảm giác rất “đã” khi làm việc ở nơi xa xôi không có internet hoặc kết nối chập chờn. Mọi thứ chạy cục bộ, không bị gián đoạn, và bạn vẫn có một tác nhân lập trình mạnh mẽ ngay trong tầm tay. Cảm giác kiểm soát và độc lập đó thật khó sánh được.

Nếu bạn muốn tìm hiểu thêm về các công cụ được đề cập trong bài, tôi khuyến nghị các tài nguyên sau:

Những mô hình cục bộ nào phù hợp nhất cho lập trình agentic?

Chạy Claude Code với Ollama là một trong những thiết lập “vibe-coding” mạnh mẽ nhất cho năm 2026. Nó cho phép bạn dùng tác nhân terminal tiên tiến của Anthropic đồng thời giữ mã nguồn hoàn toàn riêng tư và tránh phí API tốn kém.

Kể từ Ollama v0.14, nó có khả năng tương thích gốc với Anthropic Messages API, nghĩa là bạn có thể thay thế backend đám mây bằng backend cục bộ chỉ với vài biến môi trường.

5 câu hỏi thường gặp chung cho Claude Code + Ollama

1. Làm thế nào để trỏ Claude Code tới máy chủ Ollama cục bộ của tôi?

Claude Code mặc định sẽ tìm Anthropic API. Để chuyển hướng nó sang Ollama, bạn phải đặt ba biến môi trường này trong terminal trước khi chạy lệnh claude:

Linux/macOS:

Bash 

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY="" 

Windows (PowerShell):

PowerShell 

$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = ""

Mẹo: Nếu bạn dùng Ollama bản mới nhất, bạn chỉ cần chạy ollama launch claude để các biến này được cấu hình tự động cho bạn.

2. Những mô hình cục bộ nào phù hợp nhất cho lập trình agentic?

Không phải mô hình cục bộ nào cũng xử lý được chỉ dẫn “agentic” phức tạp (gọi công cụ, đọc tệp và lập kế hoạch nhiều bước) mà Claude Code yêu cầu. Tính đến đầu 2026, các lựa chọn được cộng đồng ưa chuộng là:

GLM 4.7 Flash: Tối ưu cao cho tốc độ và cửa sổ ngữ cảnh lớn (128k).
Qwen 2.5 Coder (32B hoặc 7B): Hiện là chuẩn vàng cho lập luận lập trình mã nguồn mở.
Codestral: Tuyệt vời cho Python và logic phức tạp, nhưng yêu cầu phần cứng nặng hơn.

Yêu cầu phần cứng tối thiểu là gì?

Vì sao Claude Code cứ cố kết nối internet?

Ngay cả với mô hình cục bộ, Claude Code vẫn có thể cố gắng gửi lưu lượng “không thiết yếu” như telemetry hoặc kiểm tra cập nhật. Nếu bạn ở môi trường hoàn toàn ngoại tuyến hoặc muốn tối đa quyền riêng tư, hãy đặt thêm biến này:

export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Điều này đảm bảo tác nhân không “gọi về” và chỉ hoạt động trong mạng cục bộ của bạn.

Tôi có thể dùng “Chế độ lập kế hoạch” với mô hình cục bộ không?

Có. Các mô hình cục bộ hỗ trợ sử dụng công cụ (như GLM 4.7 Flash hoặc Qwen 2.5 Coder) có thể xử lý chế độ lập kế hoạch của Claude Code. Tuy nhiên, nếu mô hình không đủ mạnh, nó có thể mắc kẹt trong “vòng suy nghĩ” lặp đi lặp lại cùng một bước.

Cách khắc phục: Nếu xảy ra, hãy thử lượng tử hóa lớn hơn (ví dụ chuyển từ bản q4 sang q8 hoặc fp16) hoặc tăng num_ctx (cửa sổ ngữ cảnh) trong Modelfile của Ollama lên ít nhất 32.000.

Author

Abid Ali Awan

Là một nhà khoa học dữ liệu được chứng nhận, tôi đam mê tận dụng công nghệ tiên tiến để tạo ra các ứng dụng học máy đổi mới. Với nền tảng vững chắc về nhận dạng giọng nói, phân tích và báo cáo dữ liệu, MLOps, AI hội thoại và NLP, tôi đã rèn giũa kỹ năng phát triển các hệ thống thông minh có thể tạo ra tác động thực sự. Bên cạnh chuyên môn kỹ thuật, tôi cũng là một người truyền đạt tốt, có khả năng chắt lọc các khái niệm phức tạp thành ngôn ngữ rõ ràng, súc tích. Nhờ đó, tôi trở thành một blogger được nhiều người quan tâm trong lĩnh vực khoa học dữ liệu, chia sẻ góc nhìn và kinh nghiệm với cộng đồng các chuyên gia dữ liệu ngày càng lớn. Hiện tại, tôi tập trung vào sáng tạo và biên tập nội dung, làm việc với các mô hình ngôn ngữ lớn để phát triển nội dung mạnh mẽ và hấp dẫn, giúp doanh nghiệp và cá nhân tận dụng tối đa dữ liệu của mình.

Chủ đề

Trí tuệ Nhân tạo

Mô hình Ngôn ngữ Lớn

AI Agents

Khóa học hàng đầu trên DataCamp

Courses

Thiết kế Hệ thống Agentic với LangChain

3 giờ

12.9K

Nắm vững các thành phần nền tảng của agent LangChain và xây dựng agent chat tùy chỉnh.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Nhập môn các mô hình Claude

3 giờ

12.5K

Tìm hiểu cách làm việc với Claude bằng cách sử dụng Anthropic API để giải quyết các tác vụ thực tế và xây dựng các ứng dụng tích hợp AI.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Xây dựng AI Agent với Google ADK

1 giờ

6.9K

Xây dựng trợ lý hỗ trợ khách hàng từng bước với Agent Development Kit (ADK) của Google.

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Yêu cầu tiên quyết

1. Cài đặt Ollama

2. Tải và chạy GLM-4.7-Flash

3. Thiết lập độ dài ngữ cảnh

4. Cài đặt Claude Code

5. Kết nối Claude Code với Ollama

7. Sử dụng Claude Code với Ollama

Kết luận

FAQs

5 câu hỏi thường gặp chung cho Claude Code + Ollama

1. Làm thế nào để trỏ Claude Code tới máy chủ Ollama cục bộ của tôi?

2. Những mô hình cục bộ nào phù hợp nhất cho lập trình agentic?

Vì sao Claude Code cứ cố kết nối internet?

Tôi có thể dùng “Chế độ lập kế hoạch” với mô hình cục bộ không?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Thiết kế Hệ thống Agentic với LangChain

Nhập môn các mô hình Claude

Xây dựng AI Agent với Google ADK

Thiết kế Hệ thống Agentic với LangChain