Tracks
Sau nhiều tháng đồn đoán và ngay sau khi GPT-5.5 và Claude Opus 4.7 ra mắt, DeepSeek cuối cùng đã phát hành DeepSeek V4. Bản phát hành gồm hai mô hình xem trước, V4-Pro và V4-Flash, xuất hiện trên thị trường với mức giá cạnh tranh mạnh và hiệu năng tiệm cận nhóm dẫn đầu.
DeepSeek V4-Pro có tổng cộng 1,6 nghìn tỷ tham số với cửa sổ ngữ cảnh 1 triệu token theo mặc định. DeepSeek cho biết mô hình này chỉ đi sau các mô hình đóng tối tân khoảng 3 đến 6 tháng trong khi chi phí chỉ bằng một phần nhỏ so với đối thủ như OpenAI và Anthropic.
Trong bài viết này, tôi sẽ điểm qua bản phát hành DeepSeek V4, tập trung vào các tính năng chính, hiệu năng điểm chuẩn và cách mô hình này so sánh với các đối thủ. Bạn cũng có thể xem hướng dẫn của chúng tôi về GPT-5.5 và Claude Opus 4.7.
Tóm tắt nhanh về DeepSeek V4
- V4 có hai phiên bản: Pro (1,6 nghìn tỷ tham số) và Flash (284 tỷ tham số).
- Cả hai mô hình đều có cửa sổ ngữ cảnh mặc định 1 triệu token.
- Pro có giá $1,74 đầu vào / $3,48 đầu ra mỗi triệu token, rẻ hơn đáng kể so với GPT-5.5 và Opus 4.7.
- Có sẵn qua API, giao diện web và trọng số mở (Giấy phép MIT).
DeepSeek V4 là gì?
DeepSeek V4 là dòng mô hình ngôn ngữ lớn trọng số mở mới rất được mong đợi từ phòng thí nghiệm AI Trung Quốc DeepSeek. Phát hành ngày 24 tháng 4 năm 2026, dòng V4 có hai phiên bản: DeepSeek-V4-Pro và DeepSeek-V4-Flash. Cả hai mô hình đều sử dụng a Mixture of Experts (MoE) architecture và cung cấp cửa sổ ngữ cảnh khổng lồ 1 triệu token theo mặc định.
Điều khiến DeepSeek V4 trở thành một bản phát hành quan trọng cho ngành là sự kết hợp giữa hiệu năng tiệm cận nhóm tiên phong và mức giá siêu cạnh tranh. Mô hình V4-Pro có tổng cộng 1,6 nghìn tỷ tham số (49 tỷ kích hoạt), trở thành mô hình trọng số mở lớn nhất hiện có.
Bất chấp quy mô, DeepSeek cho biết mô hình này chỉ đi sau các mô hình đóng tối tân khoảng 3 đến 6 tháng trong khi chi phí chỉ bằng một phần nhỏ so với đối thủ như OpenAI và Anthropic.
Các tính năng chính của DeepSeek V4
Hãy xem một số điểm nổi bật của bản phát hành mới nhất:
Đổi mới kiến trúc và hiệu quả ngữ cảnh 1M
Điểm nổi bật của DeepSeek V4 là khả năng xử lý ngữ cảnh dài cực kỳ hiệu quả.
Theo ghi chú kỹ thuật, dòng V4 sử dụng Kiến trúc Attention Lai (Hybrid Attention) kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA).
Nhờ những thay đổi cấu trúc này, ngữ cảnh 1 triệu token nay trở thành tiêu chuẩn trên tất cả dịch vụ của DeepSeek.
DeepSeek cho biết trong kịch bản ngữ cảnh 1M token, DeepSeek-V4-Pro chỉ cần 27% FLOPs suy luận cho mỗi token và chỉ 10% bộ nhớ đệm KV so với phiên bản tiền nhiệm, DeepSeek-V3.2.
Ba chế độ nỗ lực suy luận
Để giúp người dùng kiểm soát chi tiết độ trễ và hiệu năng, DeepSeek V4 có ba chế độ suy luận:
- Non-think: Phản hồi nhanh, trực giác cho các tác vụ thường ngày và quyết định rủi ro thấp.
- Think High: Phân tích lý tính có ý thức, chậm hơn nhưng rất chính xác cho các bài toán phức tạp.
- Think Max: Khai thác khả năng suy luận đến mức tối đa để khám phá ranh giới năng lực của mô hình.
Nâng cao năng lực tác tử (agentic)
DeepSeek V4 được cho là đã được tối ưu cho lập trình theo kiểu tác tử. Ghi chú phát hành cho biết nó tích hợp mượt mà với các tác tử AI hàng đầu như Claude Code, OpenClaw và OpenCode, và hiện đang vận hành hạ tầng lập trình tác tử nội bộ của DeepSeek.
Tối ưu hóa huấn luyện nâng cao
Ở tầng lõi, DeepSeek đã giới thiệu Manifold-Constrained Hyper-Connections (mHC) để gia cường các kết nối dư và ổn định truyền tín hiệu. Họ cũng chuyển sang Trình tối ưu Muon để hội tụ nhanh hơn và ổn định huấn luyện tốt hơn, tiền huấn luyện mô hình trên hơn 32 nghìn tỷ token đa dạng.
Điểm chuẩn DeepSeek V4
Theo kết quả nội bộ của DeepSeek, DeepSeek V4 thể hiện hiệu năng ấn tượng, đặc biệt khi được đẩy đến giới hạn suy luận tối đa (DeepSeek-V4-Pro-Max).
Theo ghi chú phát hành chính thức, đây là cách mô hình so với phần còn lại của ngành:
Kiến thức và suy luận
Pro-Max vượt trội dễ dàng so với các mô hình mã nguồn mở khác và đánh bại các mô hình dẫn đầu cũ như GPT-5.2. Mô hình đạt 87,5% trên MMLU-Pro và 90,1% trên GPQA Diamond, cùng với 92,6% trên GSM8K cho toán học. Dù vẫn đi sau nhóm mũi nhọn tuyệt đối (GPT-5.4 và Gemini-3.1-Pro) vài tháng, khoảng cách kiến thức đã được thu hẹp đáng kể.
Tác vụ tác tử
Pro-Max ngang ngửa các mô hình mở hàng đầu, đạt 67,9% trên Terminal Bench 2.0 và 55,4% trên SWE-Bench Pro. Dù kém một chút so với các mô hình đóng mới nhất trên bảng xếp hạng công khai, kiểm thử nội bộ cho thấy nó vượt Claude Sonnet 4.5 và tiệm cận mức Opus 4.5.
Ngữ cảnh dài
Cửa sổ 1 triệu token không chỉ để làm màu. Pro-Max cho kết quả cực kỳ mạnh ở mảng này, đạt 83,5% trên MRCR 1M (MMR) cho bài kiểm tra truy xuất “kim trong đống rơm”. Điều này thậm chí vượt Gemini-3.1-Pro trên các điểm chuẩn học thuật về ngữ cảnh dài.
DeepSeek V4 Pro so với Flash
Do kích thước nhỏ hơn, Flash-Max tự nhiên có điểm thấp hơn về kiến thức thuần và gặp khó với các quy trình tác tử phức tạp nhất. Tuy nhiên, nếu cấp cho nó “ngân sách suy nghĩ” lớn hơn, nó đạt điểm suy luận tương đương các mô hình nhóm dẫn đầu cũ, trở thành lựa chọn siêu tiết kiệm chi phí cho khối lượng công việc nặng.

Tôi có thể truy cập DeepSeek V4 như thế nào?
Hiện có một số cách để truy cập DeepSeek V4:
- Giao diện web: Bạn có thể dùng thử cả hai mô hình ngay tại chat.deepseek.com qua Chế độ Nhanh (Instant Mode) hoặc Chế độ Chuyên gia (Expert Mode).
- Truy cập API: API đã khả dụng từ hôm nay. Nhà phát triển chỉ cần cập nhật tham số model thành
deepseek-v4-prohoặcdeepseek-v4-flash. API duy trì khả năng tương thích với cả OpenAI ChatCompletions và định dạng API của Anthropic. (Lưu ý: các mô hình cũdeepseek-chatvàdeepseek-reasonersẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026). - Trọng số mở: Cả hai mô hình được phát hành theo Giấy phép MIT. Bạn có thể tải trọng số trực tiếp từ Hugging Face hoặc ModelScope. Bản Pro có dung lượng tải về 865GB, còn Flash nhẹ hơn nhiều ở mức 160GB.
DeepSeek V4 so với đối thủ
Trong tuần qua, chúng ta đã chứng kiến OpenAI ra mắt GPT-5.5 và Anthropic ra mắt Claude Opus 4.7. Dù những mô hình đó có năng lực hàng đầu, đặc biệt ở suy luận ngữ cảnh dài và lập trình tác tử, DeepSeek V4 cạnh tranh mạnh về giá trị và khả năng tiếp cận mở.
Dưới đây là cách DeepSeek-V4-Pro so với các mô hình đầu bảng mới từ OpenAI và Anthropic:
|
Tính năng/Điểm chuẩn |
DeepSeek V4 Pro |
GPT-5.5 |
Claude Opus 4.7 |
|
Giá API (Đầu vào / Đầu ra mỗi 1M) |
$1,74 / $3,48 |
$5,00 / $30,00 |
$5,00 / $25,00 |
|
Cửa sổ ngữ cảnh |
1M token |
~1M token |
~1M token |
|
SWE-bench Pro (Lập trình) |
55,4% |
58,6% |
64,3% |
|
Terminal-Bench 2.0 (Tác tử) |
67,9% |
82,7% |
69,4% |
|
Trọng số mở |
Có (Giấy phép MIT) |
Không (Đóng) |
Không (Đóng) |
Lưu ý: Với người dùng ưu tiên ngân sách, DeepSeek V4 Flash chỉ tốn $0,14 mỗi 1M token đầu vào và $0,28 mỗi 1M token đầu ra, rẻ hơn cả các mô hình nhỏ như GPT-5.4 Nano.
DeepSeek V4 tốt đến mức nào?
DeepSeek V4 là một bản phát hành gây xáo trộn mạnh. Theo các điểm chuẩn tự báo cáo của DeepSeek, bản Pro chỉ đi sau các mô hình tiên phong tối tân (như GPT-5.4 và Gemini-3.1-Pro) khoảng 3 đến 6 tháng trên lộ trình phát triển.
Tuy nhiên, nhìn rộng hơn trong ngành, hiệu năng thô chỉ là một nửa câu chuyện. Tiêu đề lớn của DeepSeek V4 nằm ở hiệu quả ngữ cảnh siêu cao và mức giá cực thấp.
Cung cấp năng lực gần mức tiên phong, bao gồm cửa sổ ngữ cảnh 1M token, với chi phí chỉ bằng một phần so với GPT-5.5 hoặc Opus 4.7 khiến DeepSeek V4 trở thành lựa chọn hấp dẫn nhất cho các tác vụ doanh nghiệp khối lượng lớn, nhà nghiên cứu mã nguồn mở và nhà phát triển cân đối ngân sách.
Trường hợp sử dụng DeepSeek V4
Với những điểm mạnh đó, dưới đây là một vài lĩnh vực tôi thấy V4 tỏ ra vượt trội:
- Kỹ nghệ phần mềm tự động: Điểm chuẩn tác tử mạnh và tích hợp với các công cụ như OpenClaw khiến V4-Pro là ứng viên vững vàng cho tự động tái cấu trúc và gỡ lỗi mã nguồn.
- Xử lý tài liệu khối lượng lớn: Chi phí giảm trong tính toán ngữ cảnh 1M token đồng nghĩa nhà phân tích tài chính và nhóm pháp lý có thể xử lý núi tài liệu PDF, 10-K và hợp đồng với chi phí rất thấp.
- Triển khai cục bộ và nghiên cứu: Vì sử dụng giấy phép MIT, nhà nghiên cứu có thể chạy lượng tử hóa (đặc biệt trên mẫu Flash 160GB) để thử nghiệm AI mức tiên phong ngay trên phần cứng tiêu dùng cao cấp.
Kết luận
DeepSeek V4 là một bước tiến lớn cho cộng đồng AI mã nguồn mở. Dù GPT-5.5 và Claude Opus 4.7 có thể nhỉnh hơn ở các bài kiểm tra lập trình và suy luận khó nhất, DeepSeek V4 dân chủ hóa khả năng truy cập cửa sổ ngữ cảnh 1 triệu token và các quy trình tác tử phức tạp.
Nếu bạn muốn đón đầu xu hướng và học cách triển khai các mô hình tối tân này vào quy trình của mình, tôi khuyến nghị xem qua một số tài nguyên của chúng tôi. Đặc biệt, khóa Understanding Prompt Engineering để cải thiện cách bạn giao tiếp với các mô hình như DeepSeek, hoặc lộ trình kỹ năng AI Agent Fundamentals nếu bạn muốn bắt đầu xây dựng các hệ thống tác tử có thể mở rộng.
DeepSeek V4 FAQs
DeepSeek V4 có mã nguồn mở không?
Có. Cả DeepSeek-V4-Pro và DeepSeek-V4-Flash đều là các mô hình trọng số mở, phát hành theo Giấy phép MIT có tính cho phép cao. Điều này cho phép nhà phát triển và nhà nghiên cứu sử dụng, sửa đổi và triển khai thương mại các mô hình.
Cửa sổ ngữ cảnh của DeepSeek V4 là bao nhiêu?
Cả bản Pro và Flash đều có cửa sổ ngữ cảnh mặc định 1 triệu token. Nhờ Kiến trúc Attention Lai mới, DeepSeek V4 xử lý khối ngữ cảnh khổng lồ này với chi phí tính toán và bộ nhớ chỉ bằng một phần so với các mô hình cũ.
API DeepSeek V4 có giá bao nhiêu?
Mức giá rất cạnh tranh. DeepSeek-V4-Flash chỉ tốn $0,14 cho mỗi 1M token đầu vào và $0,28 cho mỗi 1M token đầu ra. DeepSeek-V4-Pro có giá $1,74 cho mỗi 1M token đầu vào và $3,48 cho mỗi 1M token đầu ra.
Kích thước các mô hình DeepSeek V4 là bao nhiêu?
DeepSeek sử dụng kiến trúc Mixture of Experts (MoE). Bản Pro có tổng cộng 1,6 nghìn tỷ tham số (49 tỷ kích hoạt) và cần tải 865GB. Bản Flash có 284 tỷ tham số (13 tỷ kích hoạt) và cần tải 160GB.
DeepSeek V4 có vượt GPT-5.5 và Claude Opus 4.7 không?
Về năng lực thuần túy thì không. Dữ liệu tự báo cáo của DeepSeek cho thấy V4-Pro đi sau các mô hình đóng tối tân khoảng 3 đến 6 tháng ở các bài kiểm tra lập trình và suy luận khó nhất. Tuy nhiên, nó mang lại hiệu năng gần mức tiên phong với chi phí API chỉ khoảng một phần ba, khiến nó có tác động gây xáo trộn lớn.

Biên tập viên cấp cao trong lĩnh vực AI và công nghệ giáo dục. Cam kết khám phá các xu hướng dữ liệu và AI.