Chuyển đến nội dung chính

Claude Fable 5 vs. Gemini 3.5 Flash: Bài kiểm thử, giá, và hơn thế nữa

Claude Fable 5 vượt trội về năng lực thuần, còn Gemini 3.5 Flash mang đến hiệu năng gần mức tiên phong với chi phí chỉ bằng một phần nhỏ và tốc độ nhanh gấp nhiều lần. Đọc tiếp để tìm hiểu thêm.
Đã cập nhật 11 thg 6, 2026  · 9 phút đọc

Nếu bạn đang phân vân giữa Claude Fable 5 (xin lưu ý, model này mới ra mắt cách đây hai ngày) và Gemini 3.5 Flash, thì thực chất bạn đang lựa chọn giữa hai triết lý khác nhau về một model tiên phong nên là gì.

Claude Fable 5 là trần năng lực của Anthropic: model công khai mạnh nhất trên hầu hết các bài đo, được định giá tương ứng ở mức $10/$50 cho mỗi triệu token, và được bọc trong một hệ thống phân loại có thể chuyển hướng các truy vấn nhạy cảm sang một model khác ngay trong phiên.

Gemini 3.5 Flash là canh bạc của Google vào điểm ngọt giữa tốc độ-chi phí-trí tuệ: một model hạng "Flash" vượt trội hơn chính Gemini 3.1 Pro lớn hơn của Google ở các bài đo mã hóa và năng lực agent. Nó chạy nhanh hơn khoảng 4 lần so với các model tiên phong tương đương, và có giá $1,50/$9 cho mỗi triệu token - tức rẻ hơn rất nhiều.

Trong bài viết này, tôi sẽ so sánh hai model theo năm khía cạnh:

  • hiệu năng mã hóa và năng lực agent
  • tốc độ và độ trễ
  • khả năng làm việc với ngữ cảnh dài
  • giá

Nếu bạn đang cân đo Fable 5 với mẫu đầu bảng của OpenAI, hãy xem bài viết riêng: Claude Fable 5 vs GPT-5.5.

Chúng tôi cập nhật cho độc giả những tin tức mới nhất về AI qua The Median, bản tin miễn phí mỗi thứ Sáu, giúp bạn nắm bắt các câu chuyện chính trong tuần. Hãy nhấp vào liên kết phía trên để đăng ký và luôn sắc bén chỉ với vài phút mỗi tuần.

Claude Fable 5 là gì?

Claude Fable 5 là model thuộc lớp Mythos đầu tiên của Anthropic dành cho sử dụng rộng rãi. Fable 5 dùng chung model nền tảng với Claude Mythos 5, nhưng được phát hành với các bộ phân loại an toàn luôn bật: một đầu dò giám sát các kích hoạt nội bộ trên toàn bộ lưu lượng, và các yêu cầu bị gắn cờ sẽ được chuyển lên một bộ phân loại LLM đã huấn luyện. Những yêu cầu bị chặn sẽ được chuyển hướng sang Claude Opus 4.8.

Fable 5 đạt trình độ hàng đầu ở gần như mọi bài đo đã thử nghiệm, và thực sự rất mạnh trong kỹ nghệ phần mềm, công việc tri thức, thị giác máy tính, và các tác vụ agent tầm xa. Hơn nữa, nhiệm vụ càng dài và phức tạp, khoảng cách dẫn trước so với các model Claude trước đây càng lớn. 

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là bản phát hành tháng Năm của Google DeepMind, được công bố tại Google I/O 2026 như model đầu tiên trong họ Gemini 3.5 mới. Dù mang nhãn "Flash", đây không phải model giá rẻ theo nghĩa truyền thống: nó vượt qua Gemini 3.1 Pro lớn hơn của Google ở bộ bài đo mã hóa và năng lực agent, đồng thời chạy nhanh hơn khoảng 4 lần so với các model tiên phong tương đương.

Gemini 3.5 Flash là model lập luận với các tham số mức độ suy nghĩ có thể cấu hình (minimal, low, medium, high). (Mặc định là medium, nếu bạn thắc mắc.) Model hỗ trợ cửa sổ ngữ cảnh 1 triệu token, đầu vào đa phương thức (văn bản, hình ảnh, âm thanh, video, PDF), và tốc độ xuất khoảng 280+ token mỗi giây. Google đã đặt đây là model mặc định trong ứng dụng Gemini và Chế độ AI trong Tìm kiếm ngay ngày ra mắt. Chúng tôi kỳ vọng Gemini 3.5 Pro sẽ sớm theo sau.

Có một điểm đáng lưu ý: 3.5 Flash có giá mỗi token cao hơn khoảng 3 lần so với thế hệ trước của nó, Gemini 3 Flash ($0,50/$3,00). Vậy nên, nó rẻ so với các model đầu bảng, chứ không rẻ so với chính dòng sản phẩm của mình. Và vì token suy nghĩ được tính phí theo mức đầu ra, các khối lượng công việc thiên về lập luận ở mức nỗ lực cao có thể tốn nhiều hơn so với giá niêm yết. Đây là điều bạn nên để ý.

Claude Fable 5 vs. Gemini 3.5 Flash: So sánh trực diện

Dưới đây là tóm tắt nhanh trước khi đi vào chi tiết. Tôi đã lập hai bảng: một cho kết quả benchmark và một cho các cân nhắc thực tế hơn về giá, tốc độ và khả năng truy cập.

Kết quả benchmark

Benchmark Claude Fable 5 Gemini 3.5 Flash
SWE-Bench Pro 80.3% 55.1% (Public)
Terminal-Bench 2.1 88.0%* 76.2%
Humanity's Last Exam (with tools) 64.5% Thua Gemini 3.1 Pro (không so sánh trực tiếp)
OSWorld-Verified 85.0% Chưa công bố
MCP Atlas (phối hợp đa công cụ) Chưa công bố 83.6%

Như bạn thấy, Claude Fable 5 thắng ở tất cả các bài đo trực diện nơi có dữ liệu dễ so sánh giữa hai bên.

Giá, tốc độ và khả năng truy cập

Tôi đã đề cập trước đó: Giá của Gemini 3.5 Flash chắc chắn tốt hơn (tốt hơn nhiều).

Tính năng Claude Fable 5 Gemini 3.5 Flash
Giá API cho đầu vào (mỗi 1M token) $10 $1,50
Giá API cho đầu ra (mỗi 1M token) $50 $9,00
Giá đầu vào đã lưu cache $0,15 mỗi 1M (giảm 90%)
Tốc độ đầu ra Độ trễ tiêu chuẩn của model tiên phong ~280+ token/giây, nhanh hơn ~4x so với các model tiên phong cùng loại
Cửa sổ ngữ cảnh Tuyên bố hỗ trợ tác vụ agent nhiều triệu token kéo dài; chưa công bố MRCR ở 512K+ 1M token (giới hạn đầu vào 1.048.576)
Mức độ khả dụng chung Giới hạn (yêu cầu tín dụng sử dụng sau ngày 22 tháng 6) Có (ứng dụng Gemini, AI Studio, Antigravity, API, Chế độ AI trong Tìm kiếm)

Hiệu năng mã hóa và năng lực agent

Hiệu năng trong công việc mã hóa và agent đáng để bàn riêng vì đây là nơi khoảng cách năng lực là lớn nhất.

Ở SWE-Bench Pro, như bạn thấy ở bảng đầu, Fable 5 đạt 80,3% so với 55,1% của Gemini 3.5 Flash trên bộ công khai. Đó là khoảng cách 25 điểm. Với kỹ nghệ ở cấp độ repository trên các codebase phức tạp, đây là khác biệt thực sự. Nhiều khả năng, Fable 5 có thể tự động xử lý các issue thật trên GitHub trong phần lớn thời gian, và tôi không chắc bạn có thể nói điều tương tự về Gemini 3.5 Flash.

Nơi Gemini 3.5 Flash phản công là ở băng thông agent hơn là chiều sâu agent. Flash được tối ưu rõ ràng cho các vòng lặp thực thi song song, triển khai sub-agent và lặp nhanh. Điểm 83,6% trên MCP Atlas — một bài đo phối hợp đa công cụ nơi nó vượt GPT-5.5 đạt 75,3% — cho thấy một model được xây dựng để điều phối nhiều lần gọi công cụ nhanh thay vì duy trì một chuỗi lập luận dài và sâu. Google cũng báo cáo những cải thiện đáng kể về hiệu quả token trong các kịch bản agent thực tế so với các phiên bản Flash trước.

Cách nghĩ đúng là: Nếu agent của bạn cần suy nghĩ kỹ về một số ít bước khó (tái cấu trúc phức tạp, thay đổi kiến trúc, debug rối rắm), Fable 5 thắng. Nếu agent của bạn cần thực thi nhiều bước nhanh, độ khó vừa phải theo kiểu song song (pipeline thu thập và tóm tắt, điều phối đa công cụ, phân loại khối lượng lớn), hồ sơ tốc độ và chi phí của Flash rất hợp lý.

Tốc độ và độ trễ

Gemini 3.5 Flash xuất ra khoảng 280+ token mỗi giây — nhanh gấp nhiều lần so với các model đầu bảng điển hình. 

Ngược lại, Fable 5 không được định vị là model nhanh. Nó được định vị là model bạn dùng khi nhiệm vụ đủ khó để bạn sẵn sàng chờ câu trả lời.

Hiệu năng ngữ cảnh dài

Gemini 3.5 Flash hỗ trợ đầu vào khoảng 1 triệu token, và dòng Gemini trước nay vốn mạnh về truy hồi ngữ cảnh dài. Tuy nhiên, Flash được cho là kém hơn Gemini 3.1 Pro của Google trên MRCR v2.

Anthropic cho biết Fable 5 giữ được sự tập trung qua hàng triệu token trong các tác vụ chạy dài và tự cải thiện đầu ra bằng ghi chú của chính nó. Nhưng Anthropic chưa công bố điểm kiểu MRCR ở dải 512K–1M, nên không thể so sánh tương đương hoàn toàn.

Với việc duyệt tài liệu một triệu token, chưa có model nào có lợi thế công bố rõ ràng. Nếu độ tin cậy ở ngữ cảnh dài là biến quan trọng nhất, mức 74,0% MRCR v2 ở 512K–1M đã công bố của GPT-5.5 là điều đáng chú ý.

Giá và khả dụng

Có một khoảng cách về giá. Fable 5 có giá $10 cho mỗi triệu token đầu vào và $50 cho mỗi triệu token đầu ra. Gemini 3.5 Flash lần lượt là $1,50 và $9,00, và còn có đầu vào cache ở mức $0,15 cho mỗi triệu, tương đương giảm 90%. Gemini 3.5 Flash rẻ hơn khoảng sáu đến bảy lần ở đầu vào và năm đến sáu lần ở đầu ra.

Tuy vậy, câu chuyện giá cả không bao giờ đơn giản như bề nổi: Trước hết, biết rằng Flash là model lập luận với token suy nghĩ được tính theo mức đầu ra, nên các khối lượng công việc lập luận ở mức nỗ lực cao có thể tiêu tốn số token đầu ra lớn hơn đáng kể so với prompt gợi ý. Hãy benchmark chính khối lượng công việc của bạn trước khi mặc định rằng Flash rẻ cho trường hợp dùng của bạn. Ngoài ra, khi bộ phân loại của Fable 5 chuyển hướng truy vấn, bạn sẽ bị tính phí theo mức của Opus 4.8 ($5/$25), không phải mức của Fable 5. Dù đây có lẽ chỉ là yếu tố giảm nhẹ nhỏ về chi phí.

Khả dụng là điểm bất đối xứng còn lại. Gemini 3.5 Flash khả dụng rộng rãi ngay ngày đầu trên ứng dụng Gemini, Google AI Studio, Antigravity, Gemini API, và Chế độ AI trong Tìm kiếm. Quyền truy cập theo gói thuê bao của Fable 5 có điểm rơi: người dùng Pro, Max, Team và Enterprise chỉ được dùng miễn phí đến ngày 22 tháng 6 năm 2026, thời điểm đang đến gần, sau đó cần tín dụng sử dụng bổ sung bên cạnh gói thuê bao hiện có.

Khi nào nên chọn Claude Fable 5 so với Gemini 3.5 Flash

Quyết định phụ thuộc vào hai biến:

  • nhiệm vụ của bạn có đủ khó để cần tới trần năng lực của Fable 5 hay không
  • tốc độ và chi phí mỗi lần gọi có chi phối bài toán kinh tế của bạn hay không
Trường hợp sử dụng Khuyến nghị Lý do
Kỹ nghệ phần mềm ở cấp độ repository trên các codebase phức tạp Claude Fable 5 80,3% vs 55,1% trên SWE-Bench Pro là khoảng cách 25 điểm phản ánh chênh lệch năng lực thực
Các pipeline agent khối lượng lớn, nhạy độ trễ Gemini 3.5 Flash ~280+ tok/s đầu ra, thực thi sub-agent song song, và chi phí token thấp hơn 5–7x sẽ cộng dồn qua hàng nghìn lần gọi
Sản phẩm tiêu dùng tương tác và trải nghiệm chat Gemini 3.5 Flash Lợi thế tốc độ 4x là một tính năng sản phẩm; độ trễ và mức giá của Fable 5 không phù hợp với tần suất cao của sản phẩm tiêu dùng
Công việc tài chính và tri thức phức tạp Claude Fable 5 Dẫn đầu bài đo Finance của Hebbia và Humanity's Last Exam với công cụ (64,5%)
Điều phối đa công cụ trên nhiều dịch vụ Gemini 3.5 Flash 83,6% trên MCP Atlas là điểm phối hợp đa công cụ cao nhất được công bố trong nhóm model tiên phong
Pipeline đa phương thức (đầu vào video, âm thanh, PDF) Gemini 3.5 Flash Đầu vào đa phương thức nguyên bản trên văn bản, hình ảnh, âm thanh, video và PDF
Ngành được quản lý yêu cầu không lưu trữ dữ liệu Gemini 3.5 Flash Yêu cầu lưu trữ 30 ngày bắt buộc của Fable 5 là rào cản cứng với một số doanh nghiệp

Chọn Claude Fable 5 nếu...

  • Trường hợp sử dụng chính của bạn là kỹ nghệ phần mềm ở cấp độ repository
  • Bạn cần trần năng lực cao nhất cho công việc phân tích phức tạp — tài chính, lập luận đa ngành, tác vụ agent tầm xa — và độ trễ chỉ là thứ yếu.
  • Công việc của bạn không liền kề an ninh mạng, sinh học, hay hóa học, nên việc chuyển hướng bởi bộ phân loại khó ảnh hưởng đến phiên làm việc.

Chọn Gemini 3.5 Flash nếu...

  • Bài toán kinh tế của bạn được dẫn dắt bởi sản lượng: hàng nghìn lần gọi mỗi ngày, nơi chênh lệch chi phí cộng dồn thành bội số về ngân sách.
  • Tốc độ là yêu cầu sản phẩm — UX tương tác, agent thời gian thực, hoặc pipeline nơi thời gian thực thi tổng thể qua nhiều lần gọi công cụ quan trọng hơn độ sâu mỗi bước.
  • Bạn cần đầu vào đa phương thức rộng (video, âm thanh, PDF) trong một model duy nhất.
  • Chính sách dữ liệu doanh nghiệp của bạn không thể chấp nhận lưu trữ bắt buộc 30 ngày của Fable 5, hoặc bạn cần một model không âm thầm hoán đổi giữa pipeline.

Lời kết

Đây không thực sự là so sánh ngang bằng. Fable 5 và Gemini 3.5 Flash chiếm những vị trí khác nhau trên thị trường: một bên là trần năng lực kèm một mức độ ma sát nhất định, bên kia là biên hiệu quả với trần thấp hơn.

Nếu năng lực thuần trên các nhiệm vụ khó là biến số duy nhất, Fable 5 thắng thuyết phục. Nhưng đề xuất giá trị của Flash không phải là "gần tốt bằng nhưng rẻ hơn." Tôi không muốn đánh giá thấp nó: Đây là trí tuệ gần mức tiên phong được cung cấp đủ nhanh và đủ rẻ để dùng ở những nơi Fable 5 vốn dĩ không khả thi về kinh tế.


Josef Waples's photo
Author
Josef Waples

Tôi là một cây bút và biên tập viên về khoa học dữ liệu, đã có bài đóng góp cho các nghiên cứu đăng trên tạp chí khoa học. Tôi đặc biệt quan tâm đến đại số tuyến tính, thống kê, R và các chủ đề tương tự. Tôi cũng chơi cờ vua khá thường xuyên! 

Chủ đề

Học cùng DataCamp

Courses

Các khái niệm về Large Language Models (LLMs)

2 giờ
99.1K
Khám phá toàn bộ tiềm năng của LLM với khóa học khái niệm của chúng tôi, bao gồm các ứng dụng LLM, phương pháp đào tạo, cân nhắc đạo đức và nghiên cứu mới nhất.
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow
Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.
Matt Crabtree's photo

Matt Crabtree

10 phút

Xem thêmXem thêm