Qwen3.5: Tính năng, Cách truy cập và Điểm chuẩn

Tìm hiểu về dòng mô hình Qwen3.5 mới, bao gồm các tính năng chính, chi phí, cách truy cập và so sánh với các mô hình tương tự khác.

Đã cập nhật 16 thg 4, 2026 · 8 phút đọc

Alibaba vừa ra mắt mô hình ngôn ngữ lớn mới nhất, Qwen3.5. Mô hình này xuất hiện sau các bản phát hành mới như GPT-5.3 Codex và Claude Opus 4.6, cả hai đều đã gây ấn tượng mạnh với chúng tôi.

Theo Alibaba, Qwen 3.5 được “xây dựng cho kỷ nguyên AI tác tử”, và mô hình ngôn ngữ–thị giác này được cho là rẻ hơn và hiệu quả hơn thế hệ trước, đạt một số chỉ số hiệu năng ấn tượng ở nhiều bài kiểm tra chuẩn cấp độ tiên phong.

Alibaba cũng ra mắt Qwen3.5-Plus, phiên bản cao cấp của mô hình với cửa sổ ngữ cảnh 1 triệu token, hướng thẳng tới đối thủ Gemini 3.

Trong bài viết này, tôi sẽ giới thiệu các tính năng mới quan trọng của Qwen3.5 và Qwen3.5-Plus, đánh giá chúng so với đối thủ, xem xét các điểm chuẩn và cách bạn có thể truy cập các mô hình mới.

Bạn cũng nên xem các hướng dẫn về những mô hình cạnh tranh mới nhất, như Claude Sonnet 4.6 hoặc GPT-5.3 Instant.

Qwen3.5 là gì?

Qwen3.5 là thế hệ mới nhất trong dòng mô hình ngôn ngữ lớn (LLM) của Alibaba, Qwen3.5-397B-A17B. Khác với họ mô hình Qwen3 trước đó, Qwen3.5 kết hợp các mô hình chuyên biệt thành một mô hình ngôn ngữ–thị giác bản địa duy nhất. Giống các phiên bản Qwen trước, nó là mã nguồn mở theo giấy phép Apache 2.0.

Mô hình được định vị là mô hình nền tảng đa dụng cho cả người dùng cá nhân và doanh nghiệp, được thiết kế cho quy trình làm việc đa phương thức và tác tử bản địa. Qwen3.5-397B-A17B cung cấp hai chế độ:

“Thinking” cho các tác vụ cần suy luận sâu
“Fast” cho suy luận nhanh với các tác vụ thường lệ

Qwen3.5 so với Qwen3.5-Plus

Qwen3.5-Plus là dịch vụ được lưu trữ, chỉ truy cập qua API, tương ứng với Qwen3.5-397B-A17B và bản thân không phải mô hình mở trọng số. Ghi chú phát hành có phần gây nhầm lẫn: việc nhắc tới Qwen3.5-Plus có thể được hiểu là một mô hình riêng, nhưng thực tế đây là dịch vụ độc quyền của Alibaba xây dựng trên cùng mô hình.

Dù Qwen3.5-Plus dựa trên mô hình Qwen3.5-397B-A17B, vẫn có một số khác biệt đáng chú ý. Nó chỉ có thể truy cập qua Alibaba Cloud Model Studio theo hình thức trả phí theo token, và qua giao diện Qwen Chat với quyền truy cập hạn chế.

Qwen3.5-Plus dùng cửa sổ ngữ cảnh mở rộng 1 triệu token, so với 256K token của Qwen3.5 tiêu chuẩn. Bên cạnh “Thinking” và “Fast”, Qwen3.5-Plus còn có chế độ “Auto” với tư duy thích ứng, ngoài tư duy còn có thể dùng công cụ như tìm kiếm và trình thông dịch mã.

Các tính năng chính của Qwen3.5

Hãy xem một số tính năng mới của Qwen3.5:

Khả năng đa phương thức bản địa

Tương tự việc OpenAI hợp nhất mô hình tiêu chuẩn và Codex trong bản phát hành GPT-5.3 Codex gần đây, Alibaba kết hợp văn bản, thị giác và tương tác UI trong một mô hình duy nhất.

Qwen3.5 được huấn luyện chung trên văn bản, hình ảnh, ảnh chụp màn hình UI và nội dung có cấu trúc. Nó hỗ trợ hỏi đáp trực quan, hiểu tài liệu, diễn giải biểu đồ/bảng, và xử lý liên kết ở cấp độ điểm ảnh để nhận diện và tương tác với phần tử trên màn hình.

Năng lực tác tử trực quan

Đây là trọng tâm tiếp theo của Qwen3.5. Nhờ huấn luyện rộng rãi trên ảnh chụp UI, mô hình có thể nhận diện và thao tác trên giao diện di động và máy tính. Điều này cho phép mô hình thực thi các quy trình nhiều bước như:

Điền biểu mẫu
Điều hướng ứng dụng
Thay đổi cài đặt hệ thống
Tổ chức tệp tin

Điều này khiến Qwen3.5 lý tưởng cho tự động hóa năng suất. Bằng hướng dẫn ngôn ngữ tự nhiên, bạn có thể cho tác tử trực quan của Qwen hành động trên nhiều ứng dụng, hoàn tất các quy trình phức tạp. Nó còn có thể duy trì trạng thái qua các chuỗi tương tác dài, cho phép điều phối công cụ và ứng dụng một cách vững chắc.

Hiệu năng và hiệu quả được tăng cường

Qwen3.5 là mô hình khá lớn, với tổng 397 tỷ tham số, dù chỉ 17 tỷ tham số được kích hoạt trên mỗi token nhờ kiến trúc mixture-of-experts. Về bản chất, điều này có nghĩa là nó có trí tuệ của mô hình khổng lồ, nhưng tốc độ và chi phí như mô hình nhỏ hơn nhiều.

Thực tế, so với Qwen3-Max, Qwen3.5 397B-A17B nhanh hơn 19 lần khi giải mã tác vụ ngữ cảnh dài (256k token) và nhanh hơn 8,6 lần cho quy trình tiêu chuẩn. Quan trọng là tốc độ này không làm giảm trí tuệ; nó vẫn ngang bằng về suy luận và lập trình so với Qwen3-Max và vượt Qwen3-VL nhờ kết hợp sớm văn bản và video.

Tối ưu chi phí

Cùng với hiệu năng cải thiện, mô hình này cũng mang lại hiệu quả chi phí.

Tương tự, pipeline FP8 bản địa (xử lý dữ liệu ở độ chính xác 8-bit thay vì chuẩn 16-bit) giúp Qwen3.5 cắt giảm 50% bộ nhớ cần thiết để chạy. Điều này cho phép tính toán nhanh hơn, cải thiện tốc độ hơn 10% ở quy mô nghìn tỷ token.

Qwen3.5 còn có bộ từ vựng 250 nghìn ấn tượng, cho phép diễn đạt khái niệm phức tạp với ít token hơn. Cùng với dự đoán đa token, mô hình có thể “đoán” nhiều từ tiếp theo trong một bước, giảm chi phí token từ 10–60% trên 201 ngôn ngữ.

Qwen3.5 được phát triển như thế nào

Quy trình phát triển Qwen3.5 sử dụng hạ tầng tùy chỉnh giúp huấn luyện mô hình đa phương thức và tác tử nhanh và rẻ (gần) như mô hình thuần văn bản. Cách tiếp cận đặc biệt trong huấn luyện Qwen3.5 nằm ở ba thành phần chính:

Chất lượng dữ liệu
Hạ tầng dị thể
Học tăng cường bất đồng bộ (RL)

Chất lượng dữ liệu

Đội ngũ Alibaba thu thập dữ liệu văn bản–hình ảnh nhiều hơn đáng kể so với họ mô hình Qwen3, nhưng lọc rất nghiêm ngặt để đảm bảo đầu vào chất lượng cao. Bộ dữ liệu chất lượng này giúp mô hình 397B tham số đạt mức thông minh tương đương những mô hình 1T tham số lớn hơn, như Qwen3-Max.

Hạ tầng dị thể

Phần thị giác và ngôn ngữ được huấn luyện tách biệt nhưng đồng thời. Vì không phần nào phải chờ phần kia tính toán, sự chồng lấp này đem lại thông lượng huấn luyện gần như 100% so với mô hình thuần văn bản.

Học tăng cường bất đồng bộ

Sử dụng nén FP8 (về cơ bản là lưu trữ số với một nửa số bit) và giải mã suy đoán (đoán trước), các tác tử chạy hàng nghìn tác vụ đồng thời trong khi huấn luyện diễn ra nền mà không cần chờ. Điều này tăng tốc huấn luyện mà không suy giảm chất lượng đáng kể, nên Qwen3.5 học các kỹ năng tác tử phức tạp, như bấm UI hoặc tác vụ nhiều bước, nhanh hơn 3–5 lần.

Điểm chuẩn Qwen3.5

Hiệu năng của mô hình mới từ Alibaba đã được kiểm chứng trên nhiều tác vụ. Chúng tôi sẽ tập trung vào kết quả trong các lĩnh vực quy trình tác tử và đa phương thức, cũng như kỹ năng suy luận tổng quát.

Quy trình tác tử

Lĩnh vực Qwen3.5 cải thiện nhiều nhất so với họ Qwen3 là các quy trình tác tử.

Lập trình tác tử trên terminal: Bước nhảy lớn nhất diễn ra ở Terminal-Bench 2.0, nơi Qwen3.5 đạt 52,5 so với chỉ 22,5 của Qwen3-Max-Thinking, và có thể cạnh tranh với Gemini 3 Pro (54,2). Dẫu vậy, nó vẫn tụt khá xa so với quán quân hiện tại, GPT-5.3 Codex (77,3).
Tác tử tìm kiếm: Đây có vẻ là thế mạnh lớn nhất của Qwen3.5. Nó đạt 78,6 ở BrowseComp, vượt xa Gemini 3 Pro (59,2) và đứng thứ hai, chỉ sau Claude Opus 4.6 (84,0)

Đa phương thức

Đa phương thức cũng được cải thiện đáng kể so với họ mô hình trước. Điều này đặc biệt đúng với suy luận nhập vai và nhận dạng tài liệu:

Suy luận nhập vai: Qwen3.5 đạt 67,5 ở ERQA, cao hơn đáng kể so với Qwen3-VL (52,5); gần ngang bằng Gemini 3 Pro (70,5)
Nhận dạng tài liệu: Qwen3.5 vượt ngưỡng 90% ở OmniDocBench v1.5 với 90,8, vượt GPT-5.2 (85,7), Claude Opus 4.5 (87,7) và Gemini 3 Pro (88,5)
Suy luận trực quan: Ở đây, Qwen3.5 chỉ kém nhẹ Gemini 3 Pro, đạt 79,0 ở MMMU-Pro và 87,5 ở Video-MME (Gemini 3 Pro: 81,0 và 88,4)

Suy luận, kiến thức và độ tin cậy

Suy luận và kiến thức rõ ràng không phải trọng tâm chính của bản phát hành này. Dù vậy, vẫn có những cải tiến nhỏ, đặc biệt về độ tin cậy.

Tuân thủ hướng dẫn: Với 76,5 ở IFBench, Qwen3.5 tỏ ra rất đáng tin cậy và xếp hạng cao. So sánh, đứng đầu hiện tại, AWS Nova 2.0 Pro, đạt 79,0
Suy luận trình độ sau đại học: Điểm GPQA Diamond 88,4 chỉ là cải thiện nhỏ so với Qwen3-Max-Thinking (87,4)
Kiến thức đa ngôn ngữ: Qwen3.5 đạt điểm MMMLU 88,5, thấp hơn Gemini 3 Pro (90,6), nhưng cải thiện đáng kể so với mô hình trước (84,4)

Cách truy cập Qwen3.5

Tương tự các mô hình trước, Qwen3.5 là mã nguồn mở và có thể dùng theo nhiều cách: trực tiếp trong ứng dụng chat, qua API, tải về để triển khai cục bộ, hoặc tích hợp vào thiết lập tùy chỉnh.

Giao diện chat

Bạn có thể truy cập Qwen3.5 trực tiếp tại chat.qwen.ai với giao diện quen thuộc.

Danh sách chọn mô hình gồm cả Qwen3.5-397B-A17B và Qwen3.5-Plus, cùng một vài mô hình trước thuộc họ Qwen3 và Qwen2.5-Max.

Truy cập API

Truy cập API Qwen 3.5 hoạt động giống Qwen3: endpoint tương thích OpenAI qua ModelScope (miễn phí, hạn ngạch hằng ngày) hoặc DashScope/Model Studio (trả phí, bao gồm Qwen3.5-Plus). Cập nhật ID mô hình thành qwen3.5-397b-a17b hoặc qwen3.5-plus là bạn có thể bắt đầu.

Trọng số mở và triển khai cục bộ

Như đã đề cập, trọng số mô hình Qwen3.5-397B-A17B được phát hành theo giấy phép Apache 2.0. Bạn có thể chạy Qwen3.5 cục bộ bằng các công cụ như Ollama, LM Studio, hoặc vLLM.

Bạn có thể tải trọng số từ:

Kết luận

Với các tác tử trực quan mới, hiệu năng cao hơn và tối ưu chi phí, Qwen3.5 là một bản phát hành ấn tượng, tạo áp lực không chỉ lên các mô hình Trung Quốc khác mà còn thách thức cả mô hình từ OpenAI và Anthropic.

Giống nhiều bản phát hành năm nay như GPT-5.3-Codex và Claude Opus 4.6, trọng tâm đang chuyển dịch rõ rệt sang AI tác tử. Thành công nhanh chóng của OpenClaw cho thấy mọi người đang khao khát các ứng dụng AI thực tiễn, và những mô hình như Qwen3.5, Seedance 2.0, cùng tin đồn về bản phát hành sắp tới từ DeepSeek cho thấy Trung Quốc đang nhanh chóng trở thành thị trường dẫn đầu về mô hình AI.

Sự khác biệt giữa Qwen3.5 và Qwen3.5-Plus là gì?

Qwen3.5-397B-A17B là mô hình mở trọng số mà bạn có thể tải về và tự chạy. Nó có cửa sổ ngữ cảnh 256k và hỗ trợ các chế độ "Thinking" (suy luận sâu) và "Fast". Qwen3.5-Plus là phiên bản API được lưu trữ. Nó dùng cùng kiến trúc nhưng bổ sung cửa sổ ngữ cảnh 1 triệu token và chế độ độc quyền "Auto", có thể linh hoạt dùng các công cụ như tìm kiếm web và trình thông dịch mã mà không cần nhắc lệnh thủ công.

Tôi có thể chạy Qwen3.5 cục bộ không, và cần phần cứng gì?

Có, nhưng cần phần cứng đáng kể. Dù Qwen3.5 chỉ kích hoạt 17B tham số trên mỗi token (giúp nhanh), bạn vẫn cần nạp tổng 397B tham số vào bộ nhớ.

Mô hình đầy đủ (FP16/BF16): Cần ~800GB VRAM (yêu cầu cụm máy cấp doanh nghiệp).
Định lượng (4-bit): Cần ~220GB bộ nhớ hợp nhất. Bạn có thể chạy trên Mac Studio/Pro với chip M-series Ultra (256GB RAM) hoặc giàn đa GPU (ví dụ, 3x A100 80GB hoặc 10x RTX 3090/4090).

Qwen3.5 có miễn phí cho mục đích thương mại không?

"Đa phương thức bản địa" thực sự nghĩa là gì?

Hầu hết mô hình đa phương thức (như Qwen3-VL trước đây) dùng cách tiếp cận "ghép thêm", trong đó mô hình thị giác riêng xử lý ảnh và chuyển thành đặc trưng văn bản cho mô hình ngôn ngữ. Đa phương thức bản địa nghĩa là Qwen3.5 được huấn luyện ngay từ đầu để "nhìn" và "đọc" đồng thời bằng một mô hình duy nhất. Kết quả là xử lý nhanh hơn và độ chính xác cao hơn nhiều cho các tác vụ đòi hỏi liên kết hình ảnh sâu, như hiểu các màn hình UI phức tạp.

Qwen3.5 so với Qwen3-Max lớn hơn như thế nào?

Author

Author

Chủ đề

Các khóa học AI hàng đầu

Tracks

Cơ bản về Trợ lý Trí tuệ Nhân tạo

6 giờ

Khám phá cách các tác nhân trí tuệ nhân tạo (AI) có thể thay đổi cách làm việc của quý vị và mang lại giá trị cho tổ chức của quý vị!

Xem chi tiết

Bắt đầu khóa học

Courses

Thiết kế Hệ thống Agentic với LangChain

3 giờ

10.9K

Nắm vững các thành phần nền tảng của agent LangChain và xây dựng agent chat tùy chỉnh.

Xem chi tiết

Bắt đầu khóa học

Courses

AI Agents with Hugging Face smolagents

3 giờ

Learn how to build intelligent agents that reason, act, and solve real-world tasks using Python.

Xem chi tiết

Bắt đầu khóa học

Xem thêm

Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.

Matt Crabtree

10 phút

Xem thêm Xem thêm

Qwen3.5 là gì?

Qwen3.5 so với Qwen3.5-Plus

Các tính năng chính của Qwen3.5

Khả năng đa phương thức bản địa

Năng lực tác tử trực quan

Hiệu năng và hiệu quả được tăng cường

Tối ưu chi phí

Qwen3.5 được phát triển như thế nào

Chất lượng dữ liệu

Hạ tầng dị thể

Học tăng cường bất đồng bộ

Điểm chuẩn Qwen3.5

Quy trình tác tử

Đa phương thức

Suy luận, kiến thức và độ tin cậy

Cách truy cập Qwen3.5

Giao diện chat

Truy cập API

Trọng số mở và triển khai cục bộ

Kết luận

Qwen3.5 FAQs

Qwen3.5 có miễn phí cho mục đích thương mại không?

"Đa phương thức bản địa" thực sự nghĩa là gì?

Qwen3.5 so với Qwen3-Max lớn hơn như thế nào?

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Cơ bản về Trợ lý Trí tuệ Nhân tạo

Thiết kế Hệ thống Agentic với LangChain

AI Agents with Hugging Face smolagents

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Cơ bản về Trợ lý Trí tuệ Nhân tạo