Claude Fable 5 vs. Gemini 3.5 Flash: Bài kiểm thử, giá, và hơn thế nữa

Claude Fable 5 vượt trội về năng lực thuần, còn Gemini 3.5 Flash mang đến hiệu năng gần mức tiên phong với chi phí chỉ bằng một phần nhỏ và tốc độ nhanh gấp nhiều lần. Đọc tiếp để tìm hiểu thêm.

Đã cập nhật 11 thg 6, 2026 · 9 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Nếu bạn đang phân vân giữa Claude Fable 5 (xin lưu ý, model này mới ra mắt cách đây hai ngày) và Gemini 3.5 Flash, thì thực chất bạn đang lựa chọn giữa hai triết lý khác nhau về một model tiên phong nên là gì.

Claude Fable 5 là trần năng lực của Anthropic: model công khai mạnh nhất trên hầu hết các bài đo, được định giá tương ứng ở mức $10/$50 cho mỗi triệu token, và được bọc trong một hệ thống phân loại có thể chuyển hướng các truy vấn nhạy cảm sang một model khác ngay trong phiên.

Gemini 3.5 Flash là canh bạc của Google vào điểm ngọt giữa tốc độ-chi phí-trí tuệ: một model hạng "Flash" vượt trội hơn chính Gemini 3.1 Pro lớn hơn của Google ở các bài đo mã hóa và năng lực agent. Nó chạy nhanh hơn khoảng 4 lần so với các model tiên phong tương đương, và có giá $1,50/$9 cho mỗi triệu token - tức rẻ hơn rất nhiều.

Trong bài viết này, tôi sẽ so sánh hai model theo năm khía cạnh:

hiệu năng mã hóa và năng lực agent
tốc độ và độ trễ
khả năng làm việc với ngữ cảnh dài
giá

Nếu bạn đang cân đo Fable 5 với mẫu đầu bảng của OpenAI, hãy xem bài viết riêng: Claude Fable 5 vs GPT-5.5.

Chúng tôi cập nhật cho độc giả những tin tức mới nhất về AI qua The Median, bản tin miễn phí mỗi thứ Sáu, giúp bạn nắm bắt các câu chuyện chính trong tuần. Hãy nhấp vào liên kết phía trên để đăng ký và luôn sắc bén chỉ với vài phút mỗi tuần.

Claude Fable 5 là gì?

Claude Fable 5 là model thuộc lớp Mythos đầu tiên của Anthropic dành cho sử dụng rộng rãi. Fable 5 dùng chung model nền tảng với Claude Mythos 5, nhưng được phát hành với các bộ phân loại an toàn luôn bật: một đầu dò giám sát các kích hoạt nội bộ trên toàn bộ lưu lượng, và các yêu cầu bị gắn cờ sẽ được chuyển lên một bộ phân loại LLM đã huấn luyện. Những yêu cầu bị chặn sẽ được chuyển hướng sang Claude Opus 4.8.

Fable 5 đạt trình độ hàng đầu ở gần như mọi bài đo đã thử nghiệm, và thực sự rất mạnh trong kỹ nghệ phần mềm, công việc tri thức, thị giác máy tính, và các tác vụ agent tầm xa. Hơn nữa, nhiệm vụ càng dài và phức tạp, khoảng cách dẫn trước so với các model Claude trước đây càng lớn.

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là bản phát hành tháng Năm của Google DeepMind, được công bố tại Google I/O 2026 như model đầu tiên trong họ Gemini 3.5 mới. Dù mang nhãn "Flash", đây không phải model giá rẻ theo nghĩa truyền thống: nó vượt qua Gemini 3.1 Pro lớn hơn của Google ở bộ bài đo mã hóa và năng lực agent, đồng thời chạy nhanh hơn khoảng 4 lần so với các model tiên phong tương đương.

Gemini 3.5 Flash là model lập luận với các tham số mức độ suy nghĩ có thể cấu hình (minimal, low, medium, high). (Mặc định là medium, nếu bạn thắc mắc.) Model hỗ trợ cửa sổ ngữ cảnh 1 triệu token, đầu vào đa phương thức (văn bản, hình ảnh, âm thanh, video, PDF), và tốc độ xuất khoảng 280+ token mỗi giây. Google đã đặt đây là model mặc định trong ứng dụng Gemini và Chế độ AI trong Tìm kiếm ngay ngày ra mắt. Chúng tôi kỳ vọng Gemini 3.5 Pro sẽ sớm theo sau.

Có một điểm đáng lưu ý: 3.5 Flash có giá mỗi token cao hơn khoảng 3 lần so với thế hệ trước của nó, Gemini 3 Flash ($0,50/$3,00). Vậy nên, nó rẻ so với các model đầu bảng, chứ không rẻ so với chính dòng sản phẩm của mình. Và vì token suy nghĩ được tính phí theo mức đầu ra, các khối lượng công việc thiên về lập luận ở mức nỗ lực cao có thể tốn nhiều hơn so với giá niêm yết. Đây là điều bạn nên để ý.

Claude Fable 5 vs. Gemini 3.5 Flash: So sánh trực diện

Dưới đây là tóm tắt nhanh trước khi đi vào chi tiết. Tôi đã lập hai bảng: một cho kết quả benchmark và một cho các cân nhắc thực tế hơn về giá, tốc độ và khả năng truy cập.

Kết quả benchmark

Benchmark	Claude Fable 5	Gemini 3.5 Flash
SWE-Bench Pro	80.3%	55.1% (Public)
Terminal-Bench 2.1	88.0%*	76.2%
Humanity's Last Exam (with tools)	64.5%	Thua Gemini 3.1 Pro (không so sánh trực tiếp)
OSWorld-Verified	85.0%	Chưa công bố
MCP Atlas (phối hợp đa công cụ)	Chưa công bố	83.6%

Như bạn thấy, Claude Fable 5 thắng ở tất cả các bài đo trực diện nơi có dữ liệu dễ so sánh giữa hai bên.

Giá, tốc độ và khả năng truy cập

Tôi đã đề cập trước đó: Giá của Gemini 3.5 Flash chắc chắn tốt hơn (tốt hơn nhiều).

Tính năng	Claude Fable 5	Gemini 3.5 Flash
Giá API cho đầu vào (mỗi 1M token)	$10	$1,50
Giá API cho đầu ra (mỗi 1M token)	$50	$9,00
Giá đầu vào đã lưu cache	—	$0,15 mỗi 1M (giảm 90%)
Tốc độ đầu ra	Độ trễ tiêu chuẩn của model tiên phong	~280+ token/giây, nhanh hơn ~4x so với các model tiên phong cùng loại
Cửa sổ ngữ cảnh	Tuyên bố hỗ trợ tác vụ agent nhiều triệu token kéo dài; chưa công bố MRCR ở 512K+	1M token (giới hạn đầu vào 1.048.576)
Mức độ khả dụng chung	Giới hạn (yêu cầu tín dụng sử dụng sau ngày 22 tháng 6)	Có (ứng dụng Gemini, AI Studio, Antigravity, API, Chế độ AI trong Tìm kiếm)

Hiệu năng mã hóa và năng lực agent

Hiệu năng trong công việc mã hóa và agent đáng để bàn riêng vì đây là nơi khoảng cách năng lực là lớn nhất.

Ở SWE-Bench Pro, như bạn thấy ở bảng đầu, Fable 5 đạt 80,3% so với 55,1% của Gemini 3.5 Flash trên bộ công khai. Đó là khoảng cách 25 điểm. Với kỹ nghệ ở cấp độ repository trên các codebase phức tạp, đây là khác biệt thực sự. Nhiều khả năng, Fable 5 có thể tự động xử lý các issue thật trên GitHub trong phần lớn thời gian, và tôi không chắc bạn có thể nói điều tương tự về Gemini 3.5 Flash.

Nơi Gemini 3.5 Flash phản công là ở băng thông agent hơn là chiều sâu agent. Flash được tối ưu rõ ràng cho các vòng lặp thực thi song song, triển khai sub-agent và lặp nhanh. Điểm 83,6% trên MCP Atlas — một bài đo phối hợp đa công cụ nơi nó vượt GPT-5.5 đạt 75,3% — cho thấy một model được xây dựng để điều phối nhiều lần gọi công cụ nhanh thay vì duy trì một chuỗi lập luận dài và sâu. Google cũng báo cáo những cải thiện đáng kể về hiệu quả token trong các kịch bản agent thực tế so với các phiên bản Flash trước.

Cách nghĩ đúng là: Nếu agent của bạn cần suy nghĩ kỹ về một số ít bước khó (tái cấu trúc phức tạp, thay đổi kiến trúc, debug rối rắm), Fable 5 thắng. Nếu agent của bạn cần thực thi nhiều bước nhanh, độ khó vừa phải theo kiểu song song (pipeline thu thập và tóm tắt, điều phối đa công cụ, phân loại khối lượng lớn), hồ sơ tốc độ và chi phí của Flash rất hợp lý.

Tốc độ và độ trễ

Gemini 3.5 Flash xuất ra khoảng 280+ token mỗi giây — nhanh gấp nhiều lần so với các model đầu bảng điển hình.

Ngược lại, Fable 5 không được định vị là model nhanh. Nó được định vị là model bạn dùng khi nhiệm vụ đủ khó để bạn sẵn sàng chờ câu trả lời.

Hiệu năng ngữ cảnh dài

Gemini 3.5 Flash hỗ trợ đầu vào khoảng 1 triệu token, và dòng Gemini trước nay vốn mạnh về truy hồi ngữ cảnh dài. Tuy nhiên, Flash được cho là kém hơn Gemini 3.1 Pro của Google trên MRCR v2.

Anthropic cho biết Fable 5 giữ được sự tập trung qua hàng triệu token trong các tác vụ chạy dài và tự cải thiện đầu ra bằng ghi chú của chính nó. Nhưng Anthropic chưa công bố điểm kiểu MRCR ở dải 512K–1M, nên không thể so sánh tương đương hoàn toàn.

Với việc duyệt tài liệu một triệu token, chưa có model nào có lợi thế công bố rõ ràng. Nếu độ tin cậy ở ngữ cảnh dài là biến quan trọng nhất, mức 74,0% MRCR v2 ở 512K–1M đã công bố của GPT-5.5 là điều đáng chú ý.

Giá và khả dụng

Có một khoảng cách về giá. Fable 5 có giá $10 cho mỗi triệu token đầu vào và $50 cho mỗi triệu token đầu ra. Gemini 3.5 Flash lần lượt là $1,50 và $9,00, và còn có đầu vào cache ở mức $0,15 cho mỗi triệu, tương đương giảm 90%. Gemini 3.5 Flash rẻ hơn khoảng sáu đến bảy lần ở đầu vào và năm đến sáu lần ở đầu ra.

Tuy vậy, câu chuyện giá cả không bao giờ đơn giản như bề nổi: Trước hết, biết rằng Flash là model lập luận với token suy nghĩ được tính theo mức đầu ra, nên các khối lượng công việc lập luận ở mức nỗ lực cao có thể tiêu tốn số token đầu ra lớn hơn đáng kể so với prompt gợi ý. Hãy benchmark chính khối lượng công việc của bạn trước khi mặc định rằng Flash rẻ cho trường hợp dùng của bạn. Ngoài ra, khi bộ phân loại của Fable 5 chuyển hướng truy vấn, bạn sẽ bị tính phí theo mức của Opus 4.8 ($5/$25), không phải mức của Fable 5. Dù đây có lẽ chỉ là yếu tố giảm nhẹ nhỏ về chi phí.

Khả dụng là điểm bất đối xứng còn lại. Gemini 3.5 Flash khả dụng rộng rãi ngay ngày đầu trên ứng dụng Gemini, Google AI Studio, Antigravity, Gemini API, và Chế độ AI trong Tìm kiếm. Quyền truy cập theo gói thuê bao của Fable 5 có điểm rơi: người dùng Pro, Max, Team và Enterprise chỉ được dùng miễn phí đến ngày 22 tháng 6 năm 2026, thời điểm đang đến gần, sau đó cần tín dụng sử dụng bổ sung bên cạnh gói thuê bao hiện có.

Khi nào nên chọn Claude Fable 5 so với Gemini 3.5 Flash

Quyết định phụ thuộc vào hai biến:

nhiệm vụ của bạn có đủ khó để cần tới trần năng lực của Fable 5 hay không
tốc độ và chi phí mỗi lần gọi có chi phối bài toán kinh tế của bạn hay không

Trường hợp sử dụng	Khuyến nghị	Lý do
Kỹ nghệ phần mềm ở cấp độ repository trên các codebase phức tạp	Claude Fable 5	80,3% vs 55,1% trên SWE-Bench Pro là khoảng cách 25 điểm phản ánh chênh lệch năng lực thực
Các pipeline agent khối lượng lớn, nhạy độ trễ	Gemini 3.5 Flash	~280+ tok/s đầu ra, thực thi sub-agent song song, và chi phí token thấp hơn 5–7x sẽ cộng dồn qua hàng nghìn lần gọi
Sản phẩm tiêu dùng tương tác và trải nghiệm chat	Gemini 3.5 Flash	Lợi thế tốc độ 4x là một tính năng sản phẩm; độ trễ và mức giá của Fable 5 không phù hợp với tần suất cao của sản phẩm tiêu dùng
Công việc tài chính và tri thức phức tạp	Claude Fable 5	Dẫn đầu bài đo Finance của Hebbia và Humanity's Last Exam với công cụ (64,5%)
Điều phối đa công cụ trên nhiều dịch vụ	Gemini 3.5 Flash	83,6% trên MCP Atlas là điểm phối hợp đa công cụ cao nhất được công bố trong nhóm model tiên phong
Pipeline đa phương thức (đầu vào video, âm thanh, PDF)	Gemini 3.5 Flash	Đầu vào đa phương thức nguyên bản trên văn bản, hình ảnh, âm thanh, video và PDF
Ngành được quản lý yêu cầu không lưu trữ dữ liệu	Gemini 3.5 Flash	Yêu cầu lưu trữ 30 ngày bắt buộc của Fable 5 là rào cản cứng với một số doanh nghiệp

Chọn Claude Fable 5 nếu...

Trường hợp sử dụng chính của bạn là kỹ nghệ phần mềm ở cấp độ repository
Bạn cần trần năng lực cao nhất cho công việc phân tích phức tạp — tài chính, lập luận đa ngành, tác vụ agent tầm xa — và độ trễ chỉ là thứ yếu.
Công việc của bạn không liền kề an ninh mạng, sinh học, hay hóa học, nên việc chuyển hướng bởi bộ phân loại khó ảnh hưởng đến phiên làm việc.

Chọn Gemini 3.5 Flash nếu...

Bài toán kinh tế của bạn được dẫn dắt bởi sản lượng: hàng nghìn lần gọi mỗi ngày, nơi chênh lệch chi phí cộng dồn thành bội số về ngân sách.
Tốc độ là yêu cầu sản phẩm — UX tương tác, agent thời gian thực, hoặc pipeline nơi thời gian thực thi tổng thể qua nhiều lần gọi công cụ quan trọng hơn độ sâu mỗi bước.
Bạn cần đầu vào đa phương thức rộng (video, âm thanh, PDF) trong một model duy nhất.
Chính sách dữ liệu doanh nghiệp của bạn không thể chấp nhận lưu trữ bắt buộc 30 ngày của Fable 5, hoặc bạn cần một model không âm thầm hoán đổi giữa pipeline.

Lời kết

Đây không thực sự là so sánh ngang bằng. Fable 5 và Gemini 3.5 Flash chiếm những vị trí khác nhau trên thị trường: một bên là trần năng lực kèm một mức độ ma sát nhất định, bên kia là biên hiệu quả với trần thấp hơn.

Nếu năng lực thuần trên các nhiệm vụ khó là biến số duy nhất, Fable 5 thắng thuyết phục. Nhưng đề xuất giá trị của Flash không phải là "gần tốt bằng nhưng rẻ hơn." Tôi không muốn đánh giá thấp nó: Đây là trí tuệ gần mức tiên phong được cung cấp đủ nhanh và đủ rẻ để dùng ở những nơi Fable 5 vốn dĩ không khả thi về kinh tế.

Author

Josef Waples

Chủ đề

Trí tuệ Nhân tạo

Học cùng DataCamp

Courses

Các khái niệm về Large Language Models (LLMs)

2 giờ

104K

Khám phá toàn bộ tiềm năng của LLM với khóa học khái niệm của chúng tôi, bao gồm các ứng dụng LLM, phương pháp đào tạo, cân nhắc đạo đức và nghiên cứu mới nhất.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Nhập môn các mô hình Claude

3 giờ

12.5K

Tìm hiểu cách làm việc với Claude bằng cách sử dụng Anthropic API để giải quyết các tác vụ thực tế và xây dựng các ứng dụng tích hợp AI.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

AI thực chiến với Google Gemini và NotebookLM

2 giờ

8.1K

Làm chủ Gemini và NotebookLM để tự động hóa tác vụ, tăng năng suất và làm việc thông minh hơn trong hệ sinh thái AI của Google.

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.

Matt Crabtree

10 phút

Xem Thêm Xem Thêm

Claude Fable 5 là gì?

Gemini 3.5 Flash là gì?

Claude Fable 5 vs. Gemini 3.5 Flash: So sánh trực diện

Kết quả benchmark

Giá, tốc độ và khả năng truy cập

Hiệu năng mã hóa và năng lực agent

Tốc độ và độ trễ

Hiệu năng ngữ cảnh dài

Giá và khả dụng

Khi nào nên chọn Claude Fable 5 so với Gemini 3.5 Flash

Chọn Claude Fable 5 nếu...

Chọn Gemini 3.5 Flash nếu...

Lời kết

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Các khái niệm về Large Language Models (LLMs)

Nhập môn các mô hình Claude

AI thực chiến với Google Gemini và NotebookLM

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Các khái niệm về Large Language Models (LLMs)