Cách chạy DeepSeek V4 Flash cục bộ

Học cách chạy toàn bộ mô hình DeepSeek V4 Flash trên một GPU duy nhất bằng bản dựng llama.cpp đã chỉnh sửa và tệp GGUF tương thích trong hướng dẫn thực hành này.

Đã cập nhật 5 thg 5, 2026 · 9 phút đọc

DeepSeek V4 Flash là mô hình nhỏ hơn, nhanh hơn và tiết kiệm chi phí hơn trong loạt bản xem trước DeepSeek V4. Mô hình được thiết kế cho các khối lượng công việc suy luận thực tế, với số tham số hoạt động thấp hơn DeepSeek V4 Pro và hỗ trợ các tác vụ ngữ cảnh dài. Phiên bản GGUF dùng trong hướng dẫn này lưu trọng số dày đặc ở FP8 và trọng số MoE ở FP4, phù hợp để suy luận cục bộ thông qua bản dựng tuỳ chỉnh llama.cpp.

Trong hướng dẫn này, chúng ta sẽ chạy DeepSeek V4 Flash cục bộ trên RunPod bằng GPU RTX PRO 6000 và bản dựng llama.cpp đã chỉnh sửa. Bạn sẽ học cách thiết lập GPU pod, cài đặt các phụ thuộc cần thiết, biên dịch llama.cpp với hỗ trợ DeepSeek V4, tải mô hình GGUF FP4/FP8 từ Hugging Face và phục vụ mô hình qua giao diện Web UI của llama.cpp trên trình duyệt.

Trước khi bắt đầu, hãy đảm bảo bạn có:

Một tài khoản RunPod
Tối thiểu $5 tín dụng RunPod
Hiểu biết cơ bản về lệnh terminal Linux
Một tài khoản Hugging Face
Một mã truy cập Hugging Face lưu dưới dạng HF_TOKEN

Bạn sẽ dùng token Hugging Face để tải mô hình nhanh hơn và ổn định hơn.

Nếu bạn muốn xem mô hình so sánh như thế nào với các đối thủ độc quyền từ OpenAI, tôi khuyên bạn đọc bài DeepSeek V4 Flash vs GPT-5.4 Mini and Nano so sánh của chúng tôi.

Bước 1: Thiết lập môi trường RunPod

Trước tiên, tạo một GPU pod mới trên RunPod.

Trong hướng dẫn này, chúng tôi sử dụng GPU RTX PRO 6000 vì nó cung cấp 96GB VRAM với chi phí thấp hơn nhiều so với H100. Điều này giúp bạn có thể chạy toàn bộ mô hình DeepSeek V4 Flash trên một GPU duy nhất mà không phải trả mức giá cao của H100.

Trong bảng điều khiển RunPod, chọn một pod RTX PRO 6000 GPU và dùng mẫu PyTorch mới nhất làm image nền tảng.

Trước khi triển khai pod, hãy chỉnh sửa cài đặt mẫu và cấu hình dung lượng lưu trữ, cổng mở và biến môi trường.

Sử dụng cấu hình khuyến nghị sau:

Cài đặt	Giá trị khuyến nghị
GPU	RTX PRO 6000
Container Disk	50 GB
Volume Disk	300 GB
Exposed Port	8910
Template	Mẫu PyTorch mới nhất
Biến môi trường	`HF_TOKEN`

Cổng mở 8910 rất quan trọng vì đây là cổng bạn sẽ dùng để truy cập Web UI của llama.cpp từ trình duyệt.

Khi pod được triển khai, đợi vài giây để bảng điều khiển RunPod hiển thị liên kết JupyterLab.

Mở JupyterLab, sau đó khởi chạy một terminal. Để xác nhận GPU khả dụng, chạy:

nvidia-smi

Lệnh này sẽ hiển thị thông tin về GPU, bộ nhớ, phiên bản CUDA và phiên bản driver.

Tiếp theo, cài đặt các phụ thuộc hệ thống cần thiết để build và chạy llama.cpp.

apt-get update

apt-get install -y \
 pciutils \
 build-essential \
 cmake \
 git \
 curl \
 wget \
 libcurl4-openssl-dev \
 tmux \
 python3 \
 python3-pip \
 Python3-venv

Các gói này bao gồm công cụ build, CMake, Git, Python và các tiện ích khác cần để biên dịch llama.cpp từ mã nguồn.

Bước 2: Cài đặt bản dựng llama.cpp đã chỉnh sửa

DeepSeek V4 Flash vẫn còn rất mới, nên hỗ trợ cục bộ chưa đơn giản như các mô hình cũ hơn. Tại thời điểm viết bài, chưa có bản phát hành GGUF chính thức được cộng đồng lớn như Unsloth chấp nận rộng rãi để chạy toàn bộ mô hình qua llama.cpp upstream tiêu chuẩn.

Mô hình DeepSeek V4 Flash chính thức có trên Hugging Face, nhưng phương án GGUF cục bộ vẫn phụ thuộc vào chuyển đổi từ cộng đồng và hỗ trợ runtime thử nghiệm. GGUF dùng trong hướng dẫn này nêu rõ rằng llama.cpp upstream gốc không thể tải nó và cần một bản dựng đang phát triển có hỗ trợ kiến trúc DeepSeek V4 Flash, FP8 gốc và MXFP4.

Vì vậy, thiết lập này sử dụng một nhánh llama.cpp đã chỉnh sửa của một cộng tác viên mã nguồn mở thay vì phiên bản upstream tiêu chuẩn. Hiện tại đây là cách thực tế để thử nghiệm GGUF đầy đủ của DeepSeek V4 Flash cục bộ.

Dự án llama.cpp upstream cũng có yêu cầu hỗ trợ mô hình mở cho DeepSeek V4, cho thấy hỗ trợ chính thức vẫn đang được triển khai thay vì đã hợp nhất hoàn toàn vào dự án chính.

Chuyển vào thư mục workspace:

cd /workspace

Clone kho mã đã chỉnh sửa:

git clone -b wip/deepseek-v4-support https://github.com/nisparks/llama.cpp.git llama.cpp-deepseek-v4

Bây giờ cấu hình build bằng CMake:

cmake llama.cpp-deepseek-v4 \
 -B llama.cpp-deepseek-v4/build \
 -DBUILD_SHARED_LIBS=OFF \
 -DGGML_CUDA=ON \
 -DCMAKE_BUILD_TYPE=Release

Thiết lập này bật hỗ trợ CUDA để mô hình có thể dùng tăng tốc GPU.

Build các binary cần thiết:

cmake --build llama.cpp-deepseek-v4/build \
 --config Release \
 -j \
 --clean-first \
 --target llama-cli llama-server llama-gguf-split

Sau khi build xong, sao chép các binary vào thư mục dự án chính:

cp llama.cpp-deepseek-v4/build/bin/llama-* llama.cpp-deepseek-v4/

Cuối cùng, kiểm tra binary server hoạt động:

llama.cpp-deepseek-v4/llama-server --help

Nếu menu trợ giúp xuất hiện, quá trình build đã thành công.

Bước 3: Tải mô hình DeepSeek V4 Flash

Tiếp theo, cài đặt công cụ tải xuống của Hugging Face. Đây là lúc HF_TOKEN bạn đã thêm trước đó trở nên quan trọng. Vì đây là tệp mô hình lớn, đăng nhập bằng token Hugging Face giúp cải thiện độ ổn định tải xuống và cho phép dùng các phương thức tải nhanh hơn.

Cài đặt các gói cần thiết:

pip install -U "huggingface_hub[hf_xet]" hf-xet hf_transfer

Bật tính năng tải nhanh của Hugging Face:

export HF_HUB_ENABLE_HF_TRANSFER=1

Tạo thư mục cho mô hình:

mkdir -p /workspace/models/deepseek-v4-flash-fp4-fp8

Tải tệp mô hình GGUF:

hf download nsparks/DeepSeek-V4-Flash-FP4-FP8-GGUF \
 DeepSeek-V4-Flash-FP4-FP8-native.gguf \
 --local-dir /workspace/models/deepseek-v4-flash-fp4-fp8

Với hf_transfer được bật và HF_TOKEN đã được thiết lập sẵn trong môi trường RunPod, tốc độ tải mô hình có thể đạt rất cao.

Trong thiết lập này, tốc độ tải đạt gần 2 GB mỗi giây, giúp việc tải tệp GGUF lớn thực tế hơn nhiều. Tốc độ này chỉ khả thi khi token Hugging Face của bạn được cấu hình đúng và pod có thể xác thực với Hugging Face.

Khi tải xong, hãy kiểm tra tệp:

ls -lh /workspace/models/deepseek-v4-flash-fp4-fp8

Bạn sẽ thấy một tệp tương tự như sau:

total 146G
-rw-rw-rw- 1 root root 146G May  3 18:27 DeepSeek-V4-Flash-FP4-FP8-native.gguf

Bước 4: Phục vụ DeepSeek V4 Flash với llama.cpp

Giờ đây, khi mô hình đã được tải xuống và bản dựng llama.cpp đã sẵn sàng, bước tiếp theo là khởi chạy máy chủ suy luận cục bộ để bạn có thể truy cập DeepSeek V4 Flash qua Web UI trên trình duyệt và qua endpoint API.

Chuyển vào thư mục llama.cpp:

cd /workspace/llama.cpp-deepseek-v4

Khởi động máy chủ mô hình:

./llama-server \
 --model /workspace/models/deepseek-v4-flash-fp4-fp8/DeepSeek-V4-Flash-FP4-FP8-native.gguf \
 --alias "DeepSeek-V4-Flash" \
 --host 0.0.0.0 \
 --port 8910 \
 --jinja \
 --fit on \
 --threads 16 \
 --threads-batch 16 \
 --ctx-size 32768 \
 --batch-size 2048 \
 --ubatch-size 512 \
 --flash-attn on \
 --temp 0.7 \
 --top-p 0.95 \
 --cont-batching \
 --metrics \
 --perf

Lệnh này tải mô hình GGUF, mở máy chủ tại 0.0.0.0:8910, áp dụng mẫu chat Jinja, dùng --fit on để nhét mô hình vào bộ nhớ GPU và hệ thống hiện có, đặt cửa sổ ngữ cảnh 32K, bật batching thân thiện với CUDA và Flash Attention để tăng tốc suy luận, và bật ghi log chỉ số cùng hiệu năng để bạn theo dõi quá trình chạy.

Mô hình có thể mất ít nhất một phút để nạp vào bộ nhớ GPU và CPU.

Khi máy chủ sẵn sàng, bạn sẽ thấy thông báo “listening on http://0.0.0.0:8910”.

Điều này có nghĩa là máy chủ mô hình đang chạy và đã sẵn sàng nhận yêu cầu.

Quay lại bảng điều khiển RunPod của bạn. Tìm cổng mở 8910, rồi nhấp vào liên kết cổng.

Thao tác này sẽ mở Web UI của llama.cpp trong trình duyệt. Giao diện trông giống một giao diện chat kiểu ChatGPT cơ bản.

Khi trang mở, mô hình sẽ được nạp sẵn. Bạn có thể bắt đầu trò chuyện trực tiếp từ trình duyệt.

Bước 5: Kiểm thử DeepSeek V4 Flash cục bộ

Sau khi máy chủ chạy, bạn có thể kiểm thử mô hình bằng nhiều loại prompt khác nhau.

Mục tiêu là kiểm tra mức độ hiệu quả của mô hình với:

Tạo UI
Viết và giải thích
Lý luận toán
Tạo dự án hoàn chỉnh

Bài kiểm thử 1: Tạo UI và trang web

Dùng prompt sau:

Build a simple, single-screen HTML landing page for a fictional company called NovaGrid AI, with a centered headline, one short paragraph, three feature cards, and a "Get Started" button, using clean modern styling with no scrolling.

Trong bài kiểm thử này, mô hình tạo trang HTML trong khoảng 2 phút, một thời gian hợp lý.

Để xem trước trang đã tạo, tìm biểu tượng con mắt gần phần mã trong Web UI. Nhấp vào đó để mở trang web đã render.

Trang hoạt động, nhưng chất lượng thị giác không ấn tượng. Bố cục ổn nhưng thiết kế khá cơ bản. Các mô hình nhỏ hơn đôi khi cho ra giao diện frontend chỉn chu hơn, nên kết quả này chưa thuyết phục cho tác vụ tạo UI.

Bài kiểm thử 2: Viết và giải thích

Tiếp theo, kiểm thử khả năng viết của mô hình.

Dùng prompt này:

Write an 800-word report on Agentic Skills, explaining what they are, why they matter for AI agents, key examples such as tool use, planning, memory, reflection, and task execution, and how they can help businesses automate complex workflows.

Mô hình tạo ra một báo cáo rõ ràng và có cấu trúc tốt. Nội dung giải thích ý chính đơn giản và có ví dụ hữu ích về sử dụng công cụ, lập kế hoạch, bộ nhớ, phản tư và tự động hoá trong kinh doanh.

Tuy nhiên, một vài chỗ cảm giác hơi chung chung và mang tính quảng bá, nhất là gần phần kết. Ngoài ra có vài lỗi định dạng và chính tả, như bôi đậm không nhất quán và lỗi từ ngữ như “Mainate Context.”

Bài kiểm thử 3: Toán và lý luận

Giờ hãy kiểm tra khả năng lý luận của mô hình với một bài toán đại số đơn giản.

Dùng prompt sau:

Solve the following math problem step by step. Show your reasoning clearly, check your work, and provide the final answer in a boxed format.
Problem:
A small online store sells notebooks and pens. A notebook costs $4 more than a pen. On Monday, the store sold 12 notebooks and 30 pens for a total of $156. What is the price of one notebook and one pen?

Mô hình giải đúng bài toán.

Mô hình định nghĩa biến đúng, lập phương trình chính xác, thế giá trị đúng và kiểm tra đáp án cuối.

Đáp án chính xác là:

Bút = 18/7 đô la
Vở = 46/7 đô la

Dưới dạng thập phân, xấp xỉ:

Bút ≈ $2.57
Vở ≈ $6.57

Các giá trị cộng lại chính xác bằng tổng $156.

Bài kiểm thử 4: Tạo dự án Python hoàn chỉnh

Cuối cùng, kiểm tra xem mô hình có thể tạo một dự án lập trình thân thiện cho người mới bắt đầu hay không.

Dùng prompt sau:

Create a complete beginner-friendly Python project called Expense Tracker CLI.

Requirements:
- Use only Python standard libraries.
- Create a command-line app where users can add expenses, view all expenses, filter expenses by category, and see the total spending.
- Store expenses in a local JSON file called expenses.json.
- Include a clear file structure.
- Provide the full code for each file.
- Add comments where helpful.
- Include setup instructions and example commands to run the app.
- Keep the code clean, simple, and easy to understand.

Phản hồi ban đầu có vẻ đầy đủ và cấu trúc dự án hợp lý. Tuy nhiên, mã sinh ra có vài vấn đề nghiêm trọng.

Kết quả bao gồm:

Tên hàm bị sai
Lỗi chính tả trong biến
Cú pháp Python không hợp lệ
f-string bị lỗi
Tên tệp không nhất quán
Mã không thể chạy nếu không gỡ lỗi thủ công

Với một dự án thân thiện cho người mới, đây là vấn đề lớn. Người mới nên có thể sao chép, chạy và hiểu mã với ít chỉnh sửa nhất. Trong trường hợp này, dự án sinh ra cần gỡ lỗi đáng kể trước khi có thể dùng được.

Đánh giá tổng thể DeepSeek V4 Flash cục bộ

Sau khi kiểm thử DeepSeek V4 Flash ở các tác vụ tạo UI, viết, lý luận và tạo dự án, mô hình cho kết quả lẫn lộn.

Mô hình thể hiện tốt ở suy luận có cấu trúc và viết giải thích cơ bản. Nó cũng có thể tạo đầu ra nhanh qua Web UI của llama.cpp.

Tuy nhiên, mô hình gặp khó với thiết kế frontend chỉn chu và tạo mã dự án hoàn chỉnh đáng tin cậy. Dự án Python trông có vẻ đủ nhưng chứa quá nhiều lỗi cú pháp và đặt tên để có thể dùng mà không gỡ lỗi thủ công.

Nhiệm vụ	Hiệu năng
Tạo UI	Trung bình
Viết và giải thích	Tốt
Lý luận toán	Mạnh
Tạo dự án hoàn chỉnh	Yếu
Tốc độ	Tốt
Độ tin cậy tổng thể	Lẫn lộn

Tổng kết

Thành thật mà nói, chạy DeepSeek V4 Flash cục bộ là một cơn ác mộng.

Lúc đầu tôi thử chạy trên cấu hình 4x H100 dùng sglang Docker Compose cấu hình, nhưng vẫn thất bại. Sau đó tôi thử chạy với vLLM trên 4x H100 RunPod bằng Python, nhưng cũng thất bại. Lỗi luôn trỏ tới hỗ trợ DeepSeek V4 trong phiên bản transformers mới nhất, dù tôi đã dùng bản mới nhất. Điều này cho thấy hỗ trợ framework phù hợp vẫn chưa đầy đủ.

Ngay cả trang mô hình chính thức trên Hugging Face cũng không cung cấp ví dụ suy luận tiêu chuẩn, đơn giản. Thay vào đó, họ hướng người dùng tới cách dùng torchrun tuỳ chỉnh, nặng nề hơn và tốn nhiều công thiết lập hơn.

Tôi cũng thử các tệp GGUF do cộng đồng cung cấp, nhưng gặp vấn đề tương thích với llama.cpp. Thông thường, tôi thích dùng GGUF của Unsloth vì nhanh, ổn định và dễ chạy, nhưng với DeepSeek V4 Flash, không có con đường plug-and-play đơn giản.

Sau tất cả thử nghiệm, phương pháp trong hướng dẫn này là cách dễ và đáng tin cậy nhất tôi tìm được để chạy toàn bộ mô hình cục bộ. Nó vẫn phụ thuộc vào tệp GGUF của cộng đồng và bản dựng llama.cpp đã chỉnh sửa, nhưng so với các lựa chọn khác, thiết lập này thực sự hoạt động.

Dù vậy, tôi không nghĩ DeepSeek V4 Flash đáng để chạy cục bộ ở thời điểm hiện tại. Thiết lập quá vất vả, hỗ trợ framework còn non và chất lượng đầu ra không xứng đáng với công sức bỏ ra.

Nếu bạn muốn trải nghiệm mô hình cục bộ mượt mà hơn, tôi khuyên thử các mô hình như MiniMax M2.7 hoặc các mô hình lượng tử hoá mạnh như Qwen3.6-27B. Chúng dễ chạy hơn, được hỗ trợ tốt trên các framework lớn, nhanh hơn trong thực tế và thường cho ra kết quả chất lượng cao hơn với ít phiền toái thiết lập.

Tôi có cần token Hugging Face để tải mô hình không?

Hiện tại DeepSeek V4 Flash có đáng để chạy cục bộ không?

Cờ --fit on trong lệnh llama-server có tác dụng gì?

Author

Abid Ali Awan

Là một nhà khoa học dữ liệu được chứng nhận, tôi đam mê tận dụng công nghệ tiên tiến để tạo ra các ứng dụng học máy đổi mới. Với nền tảng vững chắc về nhận dạng giọng nói, phân tích và báo cáo dữ liệu, MLOps, AI hội thoại và NLP, tôi đã rèn giũa kỹ năng phát triển các hệ thống thông minh có thể tạo ra tác động thực sự. Bên cạnh chuyên môn kỹ thuật, tôi cũng là một người truyền đạt tốt, có khả năng chắt lọc các khái niệm phức tạp thành ngôn ngữ rõ ràng, súc tích. Nhờ đó, tôi trở thành một blogger được nhiều người quan tâm trong lĩnh vực khoa học dữ liệu, chia sẻ góc nhìn và kinh nghiệm với cộng đồng các chuyên gia dữ liệu ngày càng lớn. Hiện tại, tôi tập trung vào sáng tạo và biên tập nội dung, làm việc với các mô hình ngôn ngữ lớn để phát triển nội dung mạnh mẽ và hấp dẫn, giúp doanh nghiệp và cá nhân tận dụng tối đa dữ liệu của mình.

Chủ đề

Trí tuệ Nhân tạo

Mô hình Ngôn ngữ Lớn

Các khóa học LLM hàng đầu

Tracks

Phát triển các mô hình ngôn ngữ quy mô lớn

16 giờ

Học cách phát triển các mô hình ngôn ngữ lớn (LLMs) bằng PyTorch và Hugging Face, áp dụng các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất.

Xem chi tiết

Bắt đầu khóa học

Courses

Các khái niệm về Large Language Models (LLMs)

2 giờ

93.2K

Khám phá toàn bộ tiềm năng của LLM với khóa học khái niệm của chúng tôi, bao gồm các ứng dụng LLM, phương pháp đào tạo, cân nhắc đạo đức và nghiên cứu mới nhất.

Xem chi tiết

Bắt đầu khóa học

Courses

Làm việc với Llama 3

2 giờ

13K

Khám phá các kỹ thuật mới nhất để chạy Llama LLM tại chỗ và tích hợp nó vào hệ thống của bạn.

Xem chi tiết

Bắt đầu khóa học

Xem thêm

Bước 1: Thiết lập môi trường RunPod

Bước 2: Cài đặt bản dựng llama.cpp đã chỉnh sửa

Bước 3: Tải mô hình DeepSeek V4 Flash

Bước 4: Phục vụ DeepSeek V4 Flash với llama.cpp

Bước 5: Kiểm thử DeepSeek V4 Flash cục bộ

Bài kiểm thử 1: Tạo UI và trang web

Bài kiểm thử 2: Viết và giải thích

Bài kiểm thử 3: Toán và lý luận

Bài kiểm thử 4: Tạo dự án Python hoàn chỉnh

Đánh giá tổng thể DeepSeek V4 Flash cục bộ

Tổng kết

Chạy DeepSeek V4 Flash cục bộ - Câu hỏi thường gặp

Cờ --fit on trong lệnh llama-server có tác dụng gì?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Phát triển các mô hình ngôn ngữ quy mô lớn

Các khái niệm về Large Language Models (LLMs)

Làm việc với Llama 3

Phát triển các mô hình ngôn ngữ quy mô lớn