Chuyển đến nội dung chính

Hướng dẫn MiniMax M2.5: Cách hoạt động, Trường hợp sử dụng & hơn thế nữa

Tìm hiểu cách MiniMax 2.5 đạt điểm số hàng đầu trên các benchmark lập trình và agent với chi phí chỉ bằng một phần nhỏ thông thường. So sánh với các mô hình đóng như GPT-5.2 và Gemini 3.
Đã cập nhật 16 thg 4, 2026  · 7 phút đọc

Giữa căng thẳng công nghệ Mỹ - Trung và làn sóng các mô hình Trung Quốc giá phải chăng như GLM-5 của Zhipu và Kimi K2.5 của Moonshot, một cái tên mới nổi bật với các benchmark SOTA ở mức chi phí thấp hơn nhiều so với kỳ vọng. 

Mô hình MiniMax 2.5 đáng chú ý một phần vì giá. Nó nằm trong xu hướng chung của ngành hướng tới “trí tuệ rẻ đến mức khó đo đếm”, cách diễn đạt lại một câu nói cũ về năng lượng hạt nhân. 

MiniMax 2.5 có hai biến thể: bản đầy đủ M2.5 với tốc độ 50 token/giây và bản Lightning với tốc độ 100 token/giây khá ấn tượng. Ngoài khác biệt về tốc độ, cả hai biến thể có năng lực giống hệt nhau.

Trong bài viết này, tôi sẽ giải thích M2.5 là gì và các tính năng chính, gợi ý ý tưởng để bạn tự thử nghiệm, đồng thời đưa ra vài so sánh thẳng thắn với các mẫu GPT và Gemini mới nhất.

MiniMax M2.5 là gì? 

MiniMax M2.5 là một mô hình ngôn ngữ lớn open-weight rất mới từ công ty MinMax AI có trụ sở tại Thượng Hải. Nó được công bố chính vào ngày 12 tháng 2, 2026, chỉ vài tuần sau khi công ty IPO tại Hồng Kông. 

MiniMax AI được xây dựng cho năng suất thực tế, nên nổi trội ở lập trình, sử dụng công cụ theo kiểu agent, tìm kiếm web và tự động hóa văn phòng. M2.5 được huấn luyện bằng học tăng cường trong hơn 200 nghìn môi trường phức tạp. Điều này giúp nó đủ vững để lập kế hoạch như một kiến trúc sư phần mềm và tự động thực thi.

Các tính năng chính của MiniMax M2.5

Mô hình mới mang đến nhiều điểm khác biệt giúp nó nổi bật so với các LLM khác. Phần này tôi sẽ nêu một vài điểm.

Hỗ trợ lập trình đa ngôn ngữ

MiniMax M2.5 được huấn luyện trên bộ dữ liệu thưa, cho phép xử lý hơn 10 ngôn ngữ lập trình như Python, Rust, Java, Go và các ngôn ngữ khác trong nhiều môi trường phát triển full-stack. Kỹ năng của nó trải rộng từ thiết kế hệ thống đến rà soát mã, bao phủ ứng dụng web, Android, iOS và Windows.

Sử dụng công cụ agent và tìm kiếm

Mô hình M2.5 dẫn đầu ở bài toán gọi hàm nhiều lượt với 76,9% trên BFCL, và điều hướng web với 76,3% trên BrowseComp, đồng thời dùng ít hơn 20% số lượt so với các thế hệ trước để phân rã nhiệm vụ hiệu quả.

Tích hợp năng suất văn phòng

Bên cạnh khả năng dùng công cụ agent và tìm kiếm, M2.5 tạo đầu ra có định dạng cho Word, PowerPoint và Excel, như trong trường hợp mô hình tài chính với tỷ lệ thắng 59% so với các mô hình phổ biến trên benchmark GDPval-MM.

Hiệu suất và huấn luyện RL

Được hỗ trợ bởi khung Forge RL và thuật toán CISPO, nó hoàn thành tác vụ nhanh hơn 37% so với M2.1 trong khi tiêu thụ ít token hơn, cụ thể là 3,52 triệu cho mỗi tác vụ SWE-Bench.

Trải nghiệm MiniMax M2.5 

Tôi đã quyết định tự thử MiniMax M2.5. Lấy cảm hứng từ những tuyên bố lớn của MiniMax M2.5 về công cụ agent và tìm kiếm, cũng như trọng tâm vào năng suất văn phòng, tôi giao cho nó một nhiệm vụ nghiên cứu có thể dễ dàng xuất hiện trong công việc của ai đó. 

Tại đây, tôi dùng lời nhắc sau để tổng hợp thông tin về các quỹ tài sản quốc gia lớn. Để biên soạn bảng này, MiniMax M2.5 sẽ phải tổng hợp nghiên cứu từ nhiều nơi. Lưu ý tôi cũng yêu cầu tìm hệ số Gini của quốc gia, điều mà tôi rất nghi ngờ là có trên các trang web của quỹ tài sản quốc gia.

Tôi kiểm tra ngẫu nhiên thông tin bằng cách truy cập các trang web tương ứng. 

For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Đây chỉ là một thử nghiệm nhỏ nhưng rất thực tế. MiniMax 2.5 đã làm tốt việc tổng hợp nghiên cứu từ nhiều nguồn thành một bảng chính xác.

Tiếp theo, tôi xem kỹ các demo và benchmark độc lập để tìm hiểu những trình diễn khác.

Phát triển web full-stack

Bạn cũng có thể thử kiểm tra kỹ M2.5 trên các tác vụ kỹ nghệ phần mềm và xem cách nó lập kế hoạch, thực thi trong một phạm vi khép kín. Tôi gợi ý dùng lời nhắc này:

Build a React app with Node.js backend for user authentication, including database schema.

M2.5 sẽ xuất ra một kế hoạch spec-first hoàn chỉnh với wireframe UI và các endpoint API. Sau đó, nó sẽ thêm hơn 1.200 dòng mã TypeScript/JavaScript. Bài kiểm thử vượt qua ngay ở lần chạy đầu trong 22 phút, nhanh hơn mức trung bình của Claude Opus 4.6. Kết quả là một ứng dụng hoạt động với xác thực JWT và tích hợp MongoDB.

Ảnh chụp màn hình quá trình thực thi trong minimax agents sử dụng mô hình M2.5

Hình này minh họa ví dụ và lời nhắc trong môi trường MiniMax Agent sử dụng mô hình M2.5.

Mô hình tài chính trên Excel

Để kiểm tra khả năng tạo tài liệu, bạn có thể thử lời nhắc như sau:

Create an Excel model for startup valuation using DCF, with sensitivity analysis

M2.5 được xây dựng để xuất ra tệp có định dạng với công thức và biểu đồ hoạt động. Điều này phù hợp với điểm benchmark GDPval-MM cao của nó. (Tôi sẽ đề cập thêm về benchmark ở phần tiếp theo.)

MiniMax đã đầu tư nghiêm túc vào kỹ năng năng suất văn phòng để làm những việc hữu ích như xây dựng mô hình tài chính trên Excel. Đội ngũ làm việc trực tiếp với chuyên gia tài chính, pháp luật và khoa học xã hội để xây dựng dữ liệu huấn luyện phản ánh tiêu chuẩn ngành thực tế thay vì các mẫu chung chung.

Một bài thử tốt tiếp theo là đưa cho nó một yêu cầu cố ý mơ hồ hoặc thiếu đặc tả. Hãy nghĩ về một lời nhắc mà một nhà phân tích trẻ có thể nhận từ một đối tác. Xem liệu nó có đặt câu hỏi làm rõ hay đưa ra giả định hợp lý và nêu rõ các giả định đó.

Sinh ảnh SVG và lập luận

Điều đáng chú ý ở đây là cách M2.5 bắt đầu nhiệm vụ. 

Một điểm thú vị trong ghi chú phát hành là hành vi viết spec nổi lên một cách tự nhiên trong quá trình huấn luyện. Như tôi đã nói, trước khi sinh bất kỳ mã nào, M2.5 có xu hướng phân rã dự án và lập kế hoạch cấu trúc, thiết kế UI và endpoint API từ góc nhìn của kiến trúc sư phần mềm.

Việc lập kế hoạch đó có thực sự tạo ra đầu ra tốt hơn hay không là điều tôi vẫn đang tự đánh giá.

MiniMax M2.5 và nền tảng MiniMax Agent

MiniMax cung cấp M2.5 trong một nền tảng agent, cho phép người không phải lập trình viên truy cập ngay các khả năng của nó thông qua cái gọi là chuyên gia dựng sẵn. Đây là các agent chuyên môn hóa, cấu hình cho tác vụ cụ thể. Nền tảng hoạt động như một cửa hàng ứng dụng: bạn duyệt chuyên gia theo danh mục, chọn một cái và có ngay agent sẵn sàng cho quy trình.

Các chuyên gia được dùng nhiều nhất khi ra mắt là Trình tạo Landing Page, Trình tạo PPTX, Bộ xử lý Excel, và vài công cụ khác có vẻ thực sự hữu ích. Nhìn tổng thể, bạn có thể thấy vì sao MiniMax có tiếng về năng suất văn phòng.

Điều còn thú vị hơn là lớp cộng đồng. Người dùng có thể xây dựng và xuất bản chuyên gia của riêng mình. Thực tế, dường như đã có hơn 10.000 chuyên gia được tạo ra.

Benchmark của MiniMax M2.5 

M2.5 đạt con số mạnh trên các benchmark quan trọng nhất cho lập trình và công việc agent. Nó đạt 80,2% trên SWE-Bench Verified — một bài kiểm tra xử lý issue GitHub trong thế giới thực — đồng thời hoàn thành tác vụ nhanh hơn 37% so với tiền nhiệm M2.1.

Ở các tác vụ đa ngôn ngữ và đa kho mã, nó đứng đầu trên Multi-SWE-Bench với 51,3%. Khi ra mắt, mức 76,3% trên BrowseComp đặt nó vào nhóm mô hình hàng đầu cho nhiệm vụ tìm kiếm web và nghiên cứu, nhưng bảng xếp hạng từ đó đã thay đổi. Gemini 3.1 Pro hiện dẫn đầu với 85,9%, theo sau là Claude Opus 4.6 ở 84,0% và GPT-5.2 Pro ở 77,9%. Cả Gemini 3.1 Pro và Opus 4.6 đều ra mắt trong vòng một tuần so với M2.5, là minh họa rõ cho tốc độ tiến bộ ở mũi nhọn hiện nay.

Khép lại, nó đạt 79,7% trên benchmark Droid cho lập trình agent và hiện đứng thứ 4 trên OpenHands Index cho các tác vụ chạy dài như xây dựng ứng dụng.

Benchmark của MiniMax M2.5

Hình ảnh này giúp bạn dễ quan sát hơn các kết quả điểm số của M2.5. 

Tôi có thể truy cập MiniMax M2.5 như thế nào? 

Có 3 cách chính để dùng mô hình này. Cụ thể, bạn có thể dùng:

  • Trọng số mã nguồn mở mà bạn có thể tải về từ Hugging Face và triển khai cục bộ với vLLM, SGLang, Ollama hoặc công cụ khác. GGUF quantization có sẵn cho phần cứng phổ thông.
  • Truy cập API từ trang web chính thức với giá $0,3/M token đầu vào và $2,4/M token đầu ra cho bản Lightning. Điều này có nghĩa bạn có thể đạt $1/giờ ở 100 token/giây liên tục. Hỗ trợ caching cũng như gói doanh nghiệp cho nhu cầu khối lượng lớn.
  • Tích hợp với các IDE khác nhau như VS Code, Cline CLI hoặc Fireworks AI với hỗ trợ ngay từ ngày đầu.

Dĩ nhiên, với trọng số thì không có giới hạn tầng miễn phí, nhưng API tính phí theo mức sử dụng.

MiniMax M2.5 so với đối thủ

M2.5 nhắm vào các ngách lập trình và agent đồng thời hạ giá với hiệu năng tương đương. So sánh nhanh như sau:

Tính năng/Benchmark MiniMax M2.5 Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
SWE-Bench Verified 80.2% 80.8% 80% 78%
Multi-SWE 51.3% 50.3% 49.1% 42.7%
BrowseComp (Tìm kiếm) 76.3% (đứng đầu open-weight) 84.0% 65.8% 73.2%
Chi phí đầu ra (/M token) $2.4 $25 $14 $15
Tốc độ (token/giây) 100 60 80 70
Open Weights? Có (MIT) Không Không Không
Lập trình đa ngôn ngữ 10+ ngôn ngữ Nghiêng về tiếng Anh Mạnh Trung bình

Dữ liệu này được lấy từ các đánh giá chính thức và Artificial Analysis, cũng như từ việc đọc các bản phát hành gần đây của các mô hình khác. M2.5 thắng về hiệu suất và tính mở, nhưng mô hình đóng nhỉnh hơn về kiến thức rộng.

MiniMax M2.5 tốt đến mức nào? 

Trong bối cảnh ngành rộng lớn, M2.5 cực kỳ tốt cho năng suất có mục tiêu. Điểm SWE-Bench 80,2% và mức giá $1/giờ có thể thực sự gây xáo trộn AI doanh nghiệp, nơi rào cản chi phí làm chậm việc áp dụng. Cách tiếp cận open-weight là bước ngoặt trong lập trình ở mũi nhọn và gây áp lực thực sự lên lợi thế hào lũy của các mô hình đóng.

Điều đó thể hiện rõ nhất trên BrowseComp, nơi M2.5 dẫn đầu mọi mô hình open-weight với 76,3% — vượt GLM-5 và Kimi K2.5 dù cả hai là mô hình lớn hơn đáng kể. Bốn mô hình xếp trên đều là mô hình độc quyền, điều này nói lên nhiều điều về những gì MiniMax đã làm được với bản phát hành theo giấy phép MIT.

Trọng tâm về agent cũng định vị nó tốt cho nền kinh tế agent, nơi quyền tự chủ và hiệu quả quan trọng hơn quy mô thô.

Dẫu vậy, M2.5 vẫn có điểm yếu. Nó thua kém về tư duy sáng tạo so với các mô hình thiên về tổng quát hơn, phản ánh ở điểm 42/100 trên Artificial Analysis Intelligence Index. Nó là một chuyên gia, không phải tay toàn năng.

Tôi sẽ chấm A+ cho nhà phát triển và B+ cho sử dụng đa năng. Hãy theo dõi các bản fine-tune, nhiều khả năng sẽ mở rộng đáng kể phạm vi của nó.

Trường hợp sử dụng MiniMax M2.5 

Có rất nhiều trường hợp sử dụng tùy biến với mô hình này. Chẳng hạn, MiniMax M2.5 có thể dùng cho các tác vụ kỹ nghệ phần mềm như tự động hóa PR trên GitHub, sửa lỗi và phát triển ứng dụng hoàn chỉnh. (Rõ ràng, 80% mã nguồn của chính MiniMax do AI tạo ra!) 

MiniMax M2.5  cũng có thể dùng cho công việc văn phòng doanh nghiệp, như mô hình tài chính, tạo báo cáo và chỉnh sửa PPT cho đội ngũ tài chính hoặc pháp lý. Ngoài ra, bạn có thể xây dựng chuyên gia agent AI tùy chỉnh cho nghiên cứu hoặc bán hàng qua nền tảng MiniMax Agent. 

Kết luận

MiniMax M2.5 có tiềm năng trở thành cỗ máy năng suất kết hợp agent SOTA với khả năng tiếp cận mở, ở mức giá có thể định hình lại kinh tế AI.

Để học thực hành nhiều hơn, hãy xem khóa AI for Developers của chúng tôi. Hãy thử nghiệm ngay hôm nay vì tương lai của trí tuệ giá rẻ đã ở đây.


Iheb Gafsi's photo
Author
Iheb Gafsi
LinkedIn

Tôi làm việc trên các hệ thống AI tăng tốc, cho phép trí tuệ ở biên với các pipeline ML liên kết (federated) trên dữ liệu phi tập trung và khối lượng công việc phân tán.  Công việc của tôi tập trung vào Mô hình Lớn, Xử lý Giọng nói, Thị giác Máy tính, Học tăng cường và các cấu trúc tô-pô ML tiên tiến.

Chủ đề

Học cùng DataCamp

Courses

Hiểu về Trí tuệ Nhân tạo

2 giờ
391K
Tìm hiểu các khái niệm cơ bản về Trí tuệ Nhân tạo như học máy, học sâu, NLP, AI tạo sinh và hơn thế nữa.
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow
Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.
Matt Crabtree's photo

Matt Crabtree

10 phút

Xem thêmXem thêm