Chuyển đến nội dung chính

Chạy LLM cục bộ: 6 phương pháp đơn giản

Chạy LLM cục bộ (Windows, macOS, Linux) bằng các framework LLM dễ sử dụng này: Ollama, LM Studio, vLLM, llama.cpp, Jan và llamafile.
Đã cập nhật 5 thg 6, 2026  · 14 phút đọc

Việc sử dụng các mô hình ngôn ngữ lớn (LLM) trên hệ thống cục bộ ngày càng phổ biến nhờ quyền riêng tư, khả năng kiểm soát và độ tin cậy được cải thiện. Đôi khi, các mô hình này còn có thể chính xác và nhanh hơn ChatGPT.

Chúng tôi sẽ giới thiệu bảy cách để chạy LLM cục bộ với tăng tốc GPU trên Windows 11, nhưng các phương pháp này cũng hoạt động trên macOS và Linux.

Nếu bạn muốn tìm hiểu về LLM từ đầu, một điểm khởi đầu tốt là khóa học về Large Learning Models (LLMs).

Hãy bắt đầu bằng cách khám phá framework LLM đầu tiên.

1. Ollama

Ollama là hệ sinh thái chủ đạo để chạy các LLM như Llama 4, Mistral 3 Gemma 3 trên máy cục bộ.

Ngoài ra, nhiều ứng dụng hỗ trợ tích hợp Ollama, khiến đây trở thành công cụ tuyệt vời để truy cập nhanh và dễ hơn vào các mô hình ngôn ngữ trên máy của chúng ta.

Ollama nay đã tương thích hoàn toàn với OpenAI API, cho phép thay thế trực tiếp dịch vụ đám mây của OpenAI. Các tính năng mới gồm có function calling, xuất JSON có cấu trúc, Flash Attention cho mô hình thị giác và suy luận nhanh hơn 30% trên Apple Silicon và GPU AMD.

A. Cài đặt Ollama

Bạn có thể tải Ollama từ trang tải xuống.

Sau khi cài đặt (với thiết lập mặc định), logo Ollama sẽ hiện ở khay hệ thống.

B. Chạy Ollama

Bạn có thể tải mô hình Llama 3 bằng cách gõ lệnh terminal sau:

$ ollama run llama3

Llama 3 đã sẵn sàng! Bên dưới là danh sách lệnh cần dùng nếu bạn muốn sử dụng các LLM khác:

Various ollama commands for using various LLMs

C. Chạy mô hình tùy chỉnh

Để truy cập các mô hình đã tải về và có sẵn trong thư mục llama.cpp, chúng ta cần:

  • Đi tới thư mục llama.cpp bằng lệnh cd.
$ cd C:/Repository/GitHub/llama.cpp
  • Tạo một tệp tên Modelfile và thêm dòng "FROM ./Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf".
$ echo "FROM ./Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf" > Modelfile
  • Build mô hình bằng cách cung cấp tên mô hình.
$ ollama create NHM-7b -f Modelfile

creating the custom model

  • Chạy mô hình NHM-7b.
$ ollama run NHM-7b
  • Sử dụng như bất kỳ ứng dụng chat nào khác.

Với phương pháp này, chúng ta có thể tải bất kỳ LLM nào từ Hugging Face với phần mở rộng .gguf và dùng trong terminal. Nếu muốn tìm hiểu thêm, hãy xem khóa học Working with Hugging Face.

2. LM Studio

LM Studio là một bàn làm việc tất cả-trong-một để chạy LLM cục bộ và hỗ trợ fine-tuning nguyên bản. Bên cạnh đó, nó hỗ trợ nhiều mô hình đồng thời, speculative decoding (tốc độ token nhanh hơn 1.5x-3x) và tích hợp RAG cho tài liệu.

A. Cài đặt

Bạn có thể tải trình cài đặt từ trang chủ của LM Studio.

Sau khi tải xong, cài ứng dụng với các tùy chọn mặc định.

Cuối cùng, khởi chạy LM Studio!

LM Studio on windows

B. Tải mô hình

Bạn có thể tải bất kỳ mô hình nào từ Hugging Face bằng chức năng tìm kiếm.

Trong ví dụ này, chúng tôi sẽ tải mô hình nhỏ nhất, Gemma 2B Instruct của Google.

Downloading the Gemma 2B model on LM studio

C. Sinh phản hồi

Bạn có thể chọn mô hình đã tải từ menu thả xuống phía trên và trò chuyện như bình thường. LM Studio cung cấp nhiều tùy chọn tùy biến hơn GPT4All.

Using LM Studio

D. Máy chủ suy luận cục bộ

Tương tự GPT4All, bạn có thể tùy chỉnh mô hình và khởi chạy máy chủ API chỉ với một cú nhấp. Để truy cập mô hình, bạn có thể dùng gói Python OpenAI API, CURL hoặc tích hợp trực tiếp với bất kỳ ứng dụng nào.

Running Local Inference Server

E. Dùng nhiều mô hình

Tính năng chủ chốt của LM Studio là cho phép chạy và phục vụ nhiều mô hình cùng lúc. Điều này giúp người dùng so sánh kết quả giữa các mô hình và dùng cho nhiều ứng dụng. Để chạy nhiều phiên mô hình, chúng ta cần VRAM GPU cao.

Running multiple LLM models

Fine-tuning là một cách khác để tạo phản hồi theo ngữ cảnh và tùy biến. Bạn có thể học cách fine-tune mô hình Google Gemma bằng hướng dẫn Fine Tuning Google Gemma: Nâng cao LLM với hướng dẫn tùy chỉnh. Bạn sẽ học chạy suy luận trên GPU/TPU và fine-tune mô hình Gemma 7b-it mới nhất trên bộ dữ liệu nhập vai (role-play).

3. vLLM

vLLM là một engine suy luận mã nguồn mở để chạy LLM ở quy mô sản xuất. Khác với Ollama hoặc LM Studio, vLLM ưu tiên thông lượng và độ trễ cho kịch bản nhiều người dùng.

Đổi mới cốt lõi của nó là PagedAttention, quản lý bộ nhớ GPU như bộ nhớ ảo, tái sử dụng các trang nhỏ thay vì dành sẵn các khối lớn, kết hợp batching liên tục. Các benchmark thực tế cho thấy vLLM đạt 793 token mỗi giây trên Llama 70B so với 41 token mỗi giây của Ollama dưới tải đồng thời.

vLLM cũng hỗ trợ song song tensor trên nhiều GPU, prefix caching và multi-LoRA batching để phục vụ đồng thời các biến thể đã fine-tune.

A. Cài đặt

Trên Mac và Linux, vLLM có thể cài dễ dàng bằng pip.

Trên Linux với CUDA 11.8+:

pip install vllm

Trên macOS với Apple Silicon:

python3.11 -m venv vllm_env
source vllm_env/bin/activate
pip install vllm

Hiện chưa có hỗ trợ chính thức cho Windows. Tuy nhiên, có thể dùng WSL2 hoặc Docker như giải pháp tạm.

B. Chạy mô hình

Khởi động máy chủ tương thích OpenAI:

vllm serve meta-llama/Llama-2-7b-hf --port 8000 --gpu-memory-utilization 0.9

Với mô hình 70B trên nhiều GPU:

vllm serve meta-llama/Llama-2-70b-hf --tensor-parallel-size 2 --port 8000

Xử lý theo lô trong Python:

from vllm import LLM, SamplingParams
llm = LLM(model="meta-llama/Llama-2-7b-hf", dtype="bfloat16")
sampling_params = SamplingParams(temperature=0.8, max_tokens=256)
outputs = llm.generate(["Write hello world", "Explain AI"], sampling_params)

C. Chạy suy luận

Để truy vấn, dùng SDK OpenAI:

from openai import OpenAI

client = OpenAI(base_url='http://localhost:8000/v1', api_key='any')
response = client.chat.completions.create(
    model='meta-llama/Llama-2-7b-hf',
    messages=[{'role': 'user', 'content': 'What is ML?'}],
    max_tokens=200
)
print(response.choices[0].message.content)

Một tùy chọn khác là chạy qua cURL:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "meta-llama/Llama-2-7b-hf", "messages": [{"role": "user", "content": "Hello"}]}'

Chọn vLLM cho API sản xuất phục vụ hàng trăm người dùng đồng thời; dùng Ollama cho phát triển cục bộ.

4. Jan

Một trong những ứng dụng LLM cục bộ phổ biến và đẹp mắt nhất là Jan. Đây là lựa chọn ưu tiên quyền riêng tư thay thế cho ChatGPT.

A. Cài đặt

Bạn có thể tải trình cài từ Jan.ai.

Sau khi cài ứng dụng Jan với thiết lập mặc định, bạn đã sẵn sàng khởi chạy ứng dụng.

Jan AI Windows application

B. Nhập mô hình

Khi đề cập GPT4All và LM Studio, chúng ta đã tải hai mô hình. Thay vì tải thêm, chúng ta sẽ nhập các mô hình sẵn có bằng cách vào trang mô hình và nhấp nút Import Model.

Importing the model file

Sau đó, vào thư mục ứng dụng, chọn các mô hình của GPT4All và LM Studio, rồi nhập từng mô hình.

  • GPT4All: "C:/Users/<user_name>/AppData/Local/nomic.ai/GPT4All/"
  • LM Studio: "C:/Users/<user_name>/.cache/lm-studio/models"

C. Truy cập các mô hình cục bộ

Để truy cập mô hình cục bộ, vào giao diện trò chuyện và mở phần mô hình ở bảng bên phải.

Selecting the Nous-Hermess-2-Mistral-7b model

Bạn sẽ thấy các mô hình đã nhập có sẵn. Chọn mô hình mong muốn và bắt đầu sử dụng ngay!

D. Sinh phản hồi

Tốc độ sinh phản hồi rất nhanh. Giao diện người dùng tự nhiên, tương tự ChatGPT, và không làm chậm laptop hay PC của bạn.

generating the response in the Jan AI

Điểm độc đáo của Jan là cho phép cài tiện ích mở rộng và dùng các mô hình sở hữu độc quyền từ OpenAI, MistralAI, Groq, TensorRT và Triton RT.

E. Máy chủ API cục bộ

Giống LM Studio, bạn cũng có thể dùng Jan như một máy chủ API cục bộ. Nó cung cấp khả năng ghi log tốt hơn và kiểm soát phản hồi LLM, đồng thời tích hợp OpenAI, Mistral AI, Groq, Claude và DeepSeek qua thiết lập khóa API đơn giản trong phần cài đặt.

Running the Jan AI local server

5. llama.cpp

Một framework LLM mã nguồn mở phổ biến khác là llama.cpp. Nó được viết hoàn toàn bằng C/C++, giúp nhanh và hiệu quả.

Nhiều ứng dụng AI cục bộ và trên web dựa trên llama.cpp. Do đó, học cách sử dụng nó cục bộ sẽ giúp bạn hiểu cách các ứng dụng LLM khác vận hành phía sau hậu trường.

A. Tải llama.cpp

Trước tiên, chúng ta cần đi đến thư mục dự án bằng lệnh cd trong shell—bạn có thể tìm hiểu thêm về terminal trong khóa học Introduction to Shell.

Sau đó, clone tất cả tệp từ máy chủ GitHub bằng lệnh dưới đây:

$ git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

B. Dùng MakeFile trên Windows

Công cụ dòng lệnh make có sẵn theo mặc định trên Linux và MacOS. Với Windows, chúng ta cần thực hiện các bước sau:

  • Tải phiên bản Fortran mới nhất của w64devkit cho Windows.Downloading the w64devkit zip file
  • Giải nén w64devkit vào thư mục cục bộ.
  • Trong thư mục chính, tìm tệp w64devkit.exe và chạy nó.
  • Dùng lệnh $ cd C:/Repository/GitHub/llama.cpp để vào thư mục llama.cpp.
  • $ make và nhấn Enter để cài đặt llama.cpp.

running the make file to install necessary packages

B. Khởi động máy chủ WebUI của llama.cpp

Sau khi hoàn tất cài đặt, chúng ta chạy máy chủ web UI của llama.cpp bằng lệnh dưới đây. (Lưu ý: Chúng tôi đã sao chép tệp mô hình từ thư mục GPT4All sang thư mục llama.cpp để tiện truy cập mô hình).

$ ./server -m Nous-Hermes-2-Mistral-7B-DPO.Q4_0.gguf -ngl 27 -c 2048 --port 6589

launching the llama.cpp web server

Máy chủ web chạy tại http://127.0.0.1:6589/. Bạn có thể sao chép URL này và dán vào trình duyệt để truy cập giao diện web của llama.cpp.

Trước khi tương tác với chatbot, chúng ta nên điều chỉnh cài đặt và tham số của mô hình.

llama.cpp web app running in the browserXem thêm hướng dẫn llama.cpp nếu bạn muốn học sâu hơn!

D. Sinh phản hồi

Tốc độ sinh phản hồi chậm vì chúng ta chạy trên CPU, không phải GPU. Cần cài một phiên bản khác của llama.cpp để chạy trên GPU.

$ make LLAMA_CUDA=1

using the llama.cpp web application

6. llamafile

Nếu bạn thấy llama.cpp hơi phức tạp, hãy thử llamafile. Framework này đơn giản hóa LLM cho cả nhà phát triển và người dùng cuối bằng cách kết hợp llama.cpp với Cosmopolitan Libc thành một file thực thi đơn lẻ. Nó loại bỏ mọi phức tạp liên quan đến LLM, giúp dễ tiếp cận hơn.

A. Tải tệp mô hình

Bạn có thể tải tệp mô hình mong muốn từ kho GitHub của llamafile.

Chúng ta sẽ tải LLaVA 1.5 vì nó cũng có thể hiểu hình ảnh.

downloading the LLaVA 1.5 llamafile

B. Thay đổi cho Windows

Người dùng Windows cần thêm .exe vào tên tệp trong terminal. Để làm điều này, nhấp chuột phải vào tệp đã tải và chọn Rename.

renaming the llamafile

C. Chạy LlamaFile

Đầu tiên, vào thư mục llamafile bằng lệnh cd trong terminal. Sau đó, chạy lệnh dưới đây để khởi động máy chủ web llama.cpp.

$ ./llava-v1.5-7b-q4.llamafile -ngl 9999

Máy chủ web sử dụng GPU mà không cần bạn cài đặt hay cấu hình gì thêm.

llamafile running in the terminal

Nó cũng sẽ tự động mở trình duyệt mặc định với ứng dụng web llama.cpp đang chạy. Nếu không, bạn có thể dùng URL http://127.0.0.1:8080/ để truy cập trực tiếp.

D. Sinh phản hồi

Sau khi chốt cấu hình mô hình, bạn có thể bắt đầu dùng ứng dụng web.

llamafile web application

Chạy llama.cpp bằng llamafile dễ hơn và hiệu quả hơn. Chúng tôi tạo phản hồi với tốc độ 53,18 token/giây (không dùng llamafile, tốc độ là 10,99 token/giây).

using the llama.cpp web app

Kết luận

Cài đặt và sử dụng LLM cục bộ có thể là trải nghiệm thú vị và hấp dẫn. Chúng ta có thể tự mình thử nghiệm các mô hình mã nguồn mở mới nhất, tận hưởng quyền riêng tư, khả năng kiểm soát và trải nghiệm trò chuyện tốt hơn.

Việc dùng LLM cục bộ cũng có nhiều ứng dụng thiết thực, như tích hợp với các ứng dụng khác qua máy chủ API và kết nối thư mục cục bộ để cung cấp phản hồi theo ngữ cảnh. Trong một số trường hợp, việc dùng LLM cục bộ là thiết yếu, đặc biệt khi quyền riêng tư và bảo mật là yếu tố then chốt.

Bạn có thể tìm hiểu thêm về LLM và xây dựng ứng dụng AI qua các tài nguyên sau:


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Là một nhà khoa học dữ liệu được chứng nhận, tôi đam mê tận dụng công nghệ tiên tiến để tạo ra các ứng dụng học máy đổi mới. Với nền tảng vững chắc về nhận dạng giọng nói, phân tích và báo cáo dữ liệu, MLOps, AI hội thoại và NLP, tôi đã rèn giũa kỹ năng phát triển các hệ thống thông minh có thể tạo ra tác động thực sự. Bên cạnh chuyên môn kỹ thuật, tôi cũng là một người truyền đạt tốt, có khả năng chắt lọc các khái niệm phức tạp thành ngôn ngữ rõ ràng, súc tích. Nhờ đó, tôi trở thành một blogger được nhiều người quan tâm trong lĩnh vực khoa học dữ liệu, chia sẻ góc nhìn và kinh nghiệm với cộng đồng các chuyên gia dữ liệu ngày càng lớn. Hiện tại, tôi tập trung vào sáng tạo và biên tập nội dung, làm việc với các mô hình ngôn ngữ lớn để phát triển nội dung mạnh mẽ và hấp dẫn, giúp doanh nghiệp và cá nhân tận dụng tối đa dữ liệu của mình.

Chủ đề

Xây dựng sự nghiệp AI của bạn với DataCamp!

Tracks

Cơ bản về Kinh doanh Trí tuệ Nhân tạo

12 giờ
Tăng tốc hành trình trí tuệ nhân tạo của quý vị, làm chủ ChatGPT và xây dựng một chiến lược trí tuệ nhân tạo toàn diện.
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow