Tracks
Nếu bạn đang cân nhắc giữa Claude Fable 5 và GPT-5.5 cho quy trình sản xuất, các bảng điểm chuẩn sẽ kể một câu chuyện rõ ràng. Trên giấy tờ, Fable 5 là mô hình mạnh hơn với chênh lệch lớn về mã hóa và suy luận. Nhưng nó cũng đắt gấp đôi cho mỗi token đầu ra, có hệ thống phân loại có thể âm thầm chuyển hướng yêu cầu của bạn sang mô hình yếu hơn, và áp đặt yêu cầu lưu giữ dữ liệu 30 ngày khiến một số khách hàng doanh nghiệp bị chặn hoàn toàn.
Trong bài viết này, tôi sẽ so sánh Fable 5 và GPT-5.5 qua năm khía cạnh: hiệu năng mã hóa và agentic, công việc ngữ cảnh dài, bộ phân loại an toàn và rào cản truy cập, công việc tri thức và suy luận, và giá cả. Bạn cũng có thể xem các hướng dẫn riêng lẻ của chúng tôi về Claude Fable 5 và GPT-5.5 để tìm hiểu sâu hơn từng mô hình.
Cập nhật những điều mới nhất về AI. Đăng ký The Median, bản tin miễn phí thứ Sáu hàng tuần của chúng tôi tóm lược các câu chuyện chính trong tuần. Giữ phong độ chỉ với vài phút mỗi tuần.
Claude Fable 5 là gì?
Claude Fable 5 là mô hình hạng Mythos đầu tiên của Anthropic sẵn sàng cho người dùng phổ thông, ra mắt ngày 9 tháng 6 năm 2026. Mythos là bậc năng lực mới nằm trên Opus trong hệ phân cấp mô hình của Anthropic. Fable 5 là cùng một mô hình nền tảng như Claude Mythos 5, nhưng kích hoạt các bộ phân loại an toàn để chuyển hướng một số truy vấn nhạy cảm sang Claude Opus 4.8. Sự khác biệt về tên gọi rất quan trọng: Fable là phiên bản công khai; Mythos là phiên bản không giới hạn chỉ dành cho đối tác Project Glasswing.
Anthropic định vị Fable 5 là dẫn đầu ở gần như mọi điểm chuẩn đã thử nghiệm, đặc biệt mạnh ở kỹ thuật phần mềm, công việc tri thức, thị giác và các tác vụ agentic chạy dài. Nhiệm vụ càng dài và phức tạp, khoảng cách dẫn trước so với các phiên bản Claude trước càng lớn. Stripe cho biết Fable 5 đã nén khối lượng công việc kỹ thuật kéo dài nhiều tháng xuống còn vài ngày trong quá trình chuyển đổi một codebase Ruby 50 triệu dòng.
Để biết thêm về khả năng và phân tích điểm chuẩn của Fable 5, xem hướng dẫn Claude Fable 5 của chúng tôi. Chúng tôi cũng đề cập biến thể Mythos 5 bị hạn chế trong bài viết Claude Mythos 5.
GPT-5.5 là gì?
GPT-5.5 là bản phát hành mô hình tháng 4 năm 2026 của OpenAI, được mô tả là mô hình mã hóa agentic mạnh nhất của công ty cho đến nay. OpenAI cũng phát hành biến thể GPT-5.5 Pro cho công việc yêu cầu độ chính xác cao hơn. Mô hình được đồng thiết kế cho và phục vụ trên hệ thống NVIDIA GB200 và GB300 NVL72, và OpenAI cho biết độ trễ theo token khớp với GPT-5.4 trong triển khai thực tế trong khi thể hiện mức độ thông minh cao hơn đáng kể.
Điểm nổi bật về kiến trúc của GPT-5.5 là độ tin cậy ở ngữ cảnh dài. GPT-5.4 sụp đổ sau khoảng 128K token trên điểm chuẩn MRCR; GPT-5.5 giữ vững đến 512K-1M token (74,0% trên MRCR v2 ở khoảng đó, so với 36,6% của GPT-5.4). Đây là một thay đổi định tính về những gì mô hình có thể làm, không phải chỉ là cải thiện điểm chuẩn nhỏ.
Để xem phân tích đầy đủ điểm chuẩn của GPT-5.5 và các phát hiện thực tế của chúng tôi, xem hướng dẫn GPT-5.5. Chúng tôi cũng so sánh trực tiếp với Claude Opus 4.8 trong bài viết Claude Opus 4.8 vs GPT-5.5.
Claude Fable 5 vs GPT-5.5: So sánh trực diện
Dưới đây là tóm tắt nhanh về vị trí của mỗi mô hình trước khi đi vào chi tiết.
| Tính năng | Claude Fable 5 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 80,3% | 58,6% |
| Terminal-Bench 2.1 | 88,0%* | 83,4% (Codex CLI) |
| Humanity's Last Exam (có công cụ) | 64,5% | 52,2% |
| MRCR v2 ở 512K-1M token | Chưa công bố | 74,0% |
| OSWorld-Verified | 85,0% | 78,7% |
| Giá API đầu vào (mỗi 1M token) | $10 | $5 |
| Giá API đầu ra (mỗi 1M token) | $50 | $30 |
| Fallback do bộ phân loại an toàn | Có (chuyển sang Opus 4.8) | Không có fallback âm thầm |
| Yêu cầu lưu giữ dữ liệu | Bắt buộc 30 ngày | Chính sách tiêu chuẩn |
| Khả dụng chung | Hạn chế (cần tín dụng bổ sung sau 22/6) | Có (ChatGPT + API) |
Hiệu năng mã hóa và agentic
Đây là nơi khoảng cách giữa hai mô hình lớn nhất và có ý nghĩa quyết định nhất. Trên SWE-Bench Pro, điểm chuẩn cho việc giải quyết issue GitHub trong thế giới thực, Fable 5 đạt 80,3% so với 58,6% của GPT-5.5. Đó là chênh lệch 22 điểm. Để tham chiếu, Claude Opus 4.7 đã vượt GPT-5.5 ở điểm chuẩn này với 64,3%, vì vậy GPT-5.5 vốn đã tụt lại ở mức kỹ thuật kho mã trước khi Fable 5 xuất hiện.
Trên đánh giá FrontierCode của Cognition, kiểm tra việc mô hình có thể vượt qua các tác vụ mã hóa khó trong khi đáp ứng tiêu chuẩn codebase sản xuất, Fable 5 đạt điểm cao nhất trong số các mô hình tiên phong ngay cả ở mức nỗ lực trung bình. CEO của Cursor, Michael Truell, mô tả đây là mô hình đạt điểm cao nhất trên FrontierBench, xuất sắc ở suy luận tầm xa và tự khái quát hóa sang công cụ lạ ngay từ đầu.
Fable 5 cũng có vẻ dẫn đầu Terminal-Bench 2.1 với điểm số được báo cáo 88,0%*, vượt GPT-5.5 ở mức 83,4%. Dấu sao cho thấy con số này cần thận trọng do chênh lệch giữa Fable 5 và Mythos 5. Ở những nơi như vậy, Fable là phiên bản có hiệu năng thấp hơn, nên tôi giả định Fable 5 hòa với GPT-5.5 hoặc nhỉnh hơn một chút.
GPT-5.5 vẫn là lựa chọn tốt nhất cho DevOps nặng về terminal và tự động hóa shell, nhưng khoảng cách SWE-Bench Pro là tín hiệu thực sự. Nếu ca sử dụng chính của bạn là kỹ thuật ở cấp độ kho mã, chỉ xét về năng lực, Fable 5 là lựa chọn rõ ràng. Câu hỏi là liệu chi phí token đầu ra gấp đôi và ma sát do bộ phân loại có đáng với khối lượng công việc cụ thể của bạn hay không.
Hiệu năng ngữ cảnh dài
Đây là điểm khác biệt thực sự của GPT-5.5 và đáng để xem xét nghiêm túc. GPT-5.4 rệu rã khi vượt khoảng 128K token trên điểm chuẩn MRCR v2. GPT-5.5 thì không. Ở 512K-1M token, GPT-5.5 đạt 74,0% trên MRCR v2, so với 36,6% của GPT-5.4 ở cùng khoảng. Đây không phải cải thiện nhỏ; đây là hạng năng lực khác.
Anthropic cho biết Fable 5 giữ tập trung qua hàng triệu token trong các tác vụ chạy dài và cải thiện đầu ra bằng ghi chú của chính nó. Bài kiểm tra trí nhớ Slay the Spire cho thấy bộ nhớ bền dựa trên tệp cải thiện hiệu năng của Fable 5 gấp ba lần so với Opus 4.8. Nhưng Anthropic chưa công bố điểm kiểu MRCR cho Fable 5 ở khoảng 512K-1M, nên không thể so sánh trực tiếp tương đồng ở đây.
Với người dùng chạy ngữ cảnh hàng triệu token, như rà soát tài liệu pháp lý, phân tích codebase lớn, hoặc tổng hợp tài liệu khoa học, các điểm số ngữ cảnh dài đã công bố của GPT-5.5 là cơ sở bằng chứng vững chắc hơn. Trong thử nghiệm của riêng chúng tôi với GPT-5.5, chúng tôi thấy nó vượt bài kiểm tra kim ẩn ở 300K token và điểm MRCR giữ vững sau 256K, nơi GPT-5.4 đã sụp đổ. Fable 5 có thể mạnh tương đương ở đây, nhưng dữ liệu chưa được công bố ở định dạng có thể so sánh.
Bộ phân loại an toàn và ma sát truy cập
Đây là vấn đề thực tiễn ít được nhắc đến nhất với Fable 5, và nó xứng đáng nhiều hơn một ghi chú nhỏ. Fable 5 chạy hệ thống phân loại hai tầng: một probe giám sát kích hoạt nội bộ trên toàn bộ lưu lượng, và các yêu cầu bị gắn cờ sẽ được chuyển lên một bộ phân loại LLM được huấn luyện riêng đưa ra quyết định cuối cùng. Khi một yêu cầu bị chặn, nó được chuyển hướng sang Claude Opus 4.8, và người dùng được thông báo mô hình nào đã xử lý truy vấn.
Anthropic cho biết các bộ phân loại kích hoạt trong dưới 5% phiên làm việc trung bình. Ba miền được bao phủ:
- An ninh mạng: Phát triển khai thác, tác vụ tấn công mạng, và quy trình hack agentic bị chặn. Fable 5 đạt 0,0% trên cả bốn điểm chuẩn an ninh mạng khi bộ phân loại hoạt động, giảm từ 88,4% của mô hình Mythos nền tảng trong phát triển khai thác Firefox.
- Sinh học và hóa học: Hầu hết yêu cầu trong miền này rơi về Opus 4.8. Đánh giá của chính Anthropic cho thấy mô hình nền tảng tiến gần mức chuyên gia trong các tác vụ thiết kế virus hướng adeno, nên phạm vi bao phủ rộng.
- Chưng cất (distillation): Các yêu cầu bị gắn cờ là cố gắng trích xuất năng lực của Claude để huấn luyện mô hình cạnh tranh sẽ được chuyển hướng.
Cơ chế fallback không chỉ là mối quan tâm về năng lực; nó còn là mối quan tâm về độ tin cậy cho các pipeline agentic. Khi Fable 5 chuyển sang Opus 4.8, bạn bị tính phí theo mức Opus 4.8, nhưng bạn cũng đang nhận một mô hình khác (vẫn rất tốt!) giữa nhiệm vụ. Với pipeline kỳ vọng độ sâu suy luận của Fable 5 xuyên suốt, một sự chuyển đổi âm thầm giữa phiên sang Opus 4.8 có thể phá vỡ giả định về chất lượng đầu ra.
GPT-5.5 cũng có các biện pháp bảo vệ an ninh mạng riêng, được mô tả là các bộ phân loại nghiêm ngặt hơn cho rủi ro mạng tiềm ẩn. Nhưng không có chuyển hướng âm thầm sang mô hình yếu hơn. Cách tiếp cận của OpenAI là truy cập tin cậy theo tầng: các bên phòng thủ đã xác minh có thể đăng ký tại chatgpt.com/cyber để được mở rộng quyền truy cập với ít hạn chế hơn. Lộ trình này dễ tiếp cận hơn Project Glasswing của Anthropic, vốn vẫn giới hạn cho một nhóm nhỏ đối tác được phê duyệt.
Còn một rào cản nữa đáng nêu thẳng. Fable 5 và Mythos 5 được phân loại là Covered Models, nghĩa là Anthropic yêu cầu lưu giữ dữ liệu 30 ngày cho mọi lưu lượng, kể cả với khách hàng doanh nghiệp trước đây ở gói không lưu giữ. Anthropic khẳng định dữ liệu không được dùng để huấn luyện, nhưng bản thân yêu cầu lưu giữ là rào cản cứng với các ngành được quản lý. Một số khách hàng doanh nghiệp không thể sử dụng Fable 5 do chính sách này.
Công việc tri thức và suy luận
Cả hai mô hình đều mạnh ở mảng này, và khác biệt hẹp hơn so với mã hóa. Fable 5 dẫn đầu trên Hebbia's Finance Benchmark cho suy luận cấp cao, đạt điểm cao nhất trong các mô hình về suy luận dựa trên tài liệu, diễn giải biểu đồ và giải quyết vấn đề. IMC báo cáo Fable 5 vượt các đánh giá phân tích giao dịch của họ trên toàn bộ, bao gồm phân tích nguyên nhân gốc và phân tích kỳ vọng giá trị.
GPT-5.5 dẫn trên FrontierMath Tier 4 với 35,4%, vượt điểm đã công bố của Fable 5. Trên GDPval, kiểm tra các agent qua 44 nghề nghiệp, GPT-5.5 đạt 84,9%. Ở Humanity's Last Exam có công cụ, Fable 5 dẫn với 64,5% so với 52,2% của GPT-5.5, một khoảng cách đáng kể cho các tác vụ suy luận liên ngành.
Giá cả và khả dụng
Khoảng cách giá là có thật và tích lũy theo quy mô. Fable 5 có giá $10 mỗi triệu token đầu vào và $50 mỗi triệu token đầu ra. GPT-5.5 là $5 mỗi triệu token đầu vào và $30 mỗi triệu token đầu ra. Với khối lượng lớn, mức tăng 100%/67% này cộng dồn rất nhanh.
Truy cập theo gói đăng ký tạo thêm một nếp gấp với Fable 5. Người dùng Pro, Max, Team và Enterprise được truy cập miễn phí đến ngày 22/6. Sau thời điểm đó, dùng Fable 5 cần tín dụng sử dụng bổ sung ngoài gói đăng ký hiện có. Anthropic cho biết họ dự định khôi phục Fable 5 như một tính năng tiêu chuẩn của gói khi năng lực cho phép, nhưng chưa có mốc thời gian cụ thể. GPT-5.5 được tung ra cho người dùng Plus, Pro, Business và Enterprise trong ChatGPT và Codex ngay ngày đầu, với quyền truy cập API theo sau không lâu.
Một chi tiết giá đáng lưu ý: khi truy vấn Fable 5 rơi về Opus 4.8 do bộ phân loại, bạn bị tính phí theo mức Opus 4.8 ($5 đầu vào / $25 đầu ra), không theo mức Fable 5.
Khi nào chọn Claude Fable 5 so với GPT-5.5
Quyết định phụ thuộc vào ba biến: mức độ khoảng cách SWE-Bench Pro quan trọng với công việc của bạn, miền của bạn có kích hoạt bộ phân loại của Fable 5 hay không, và bạn có cần hiệu năng tin cậy vượt 256K token hay không.
| Trường hợp sử dụng | Khuyến nghị | Lý do |
|---|---|---|
| Kỹ thuật phần mềm cấp độ kho mã | Claude Fable 5 | 80,3% so với 58,6% trên SWE-Bench Pro là khoảng cách 22 điểm phản ánh khác biệt năng lực thực trên codebase phức tạp |
| Công cụ bảo mật, kiểm thử xâm nhập, hoặc nghiên cứu an ninh tấn công | GPT-5.5 | Bộ phân loại của Fable 5 sẽ chặn hoặc chuyển hướng phần lớn công việc này; lộ trình truy cập tin cậy theo tầng của GPT-5.5 dễ tiếp cận hơn |
| Rà soát tài liệu pháp lý hoặc tổng hợp tài liệu khoa học ở 500K+ token | Tuỳ chọn | Điểm MRCR đã công bố ở 512K-1M token (74,0%) cho thấy GPT-5.5 giữ vững nơi GPT-5.4 sụp đổ; Fable 5 không có dữ liệu công bố tương đương, nhưng hứa hẹn hiệu năng tốt hơn |
| Tài chính và công việc tri thức với tài liệu phức tạp | Claude Fable 5 | Dẫn trên Hebbia's Finance Benchmark và Humanity's Last Exam có công cụ (64,5% so với 52,2%) |
| Khối lượng API lớn nơi chi phí quan trọng | GPT-5.5 | $30 so với $50 cho mỗi triệu token đầu ra; khoảng cách này tích lũy mạnh theo quy mô |
| Pipeline nghiên cứu y sinh | GPT-5.5 (hoặc đợi truy cập tin cậy cho Fable 5) | Bộ phân loại sinh học của Fable 5 sẽ chuyển hướng hầu hết truy vấn y sinh sang Opus 4.8 cho đến khi chương trình truy cập tin cậy mở |
| Ngành được quản lý yêu cầu không lưu giữ dữ liệu | GPT-5.5 | Chính sách lưu giữ bắt buộc 30 ngày của Fable 5 là rào cản cứng với một số khách hàng doanh nghiệp |
Chọn Claude Fable 5 nếu...
- Trường hợp sử dụng chính của bạn là kỹ thuật phần mềm cấp độ kho mã, và khoảng cách 22 điểm trên SWE-Bench Pro biện minh cho chi phí token đầu ra gấp đôi.
- Công việc của bạn không cận kề các miền an ninh mạng, sinh học hoặc hóa học, nên bộ phân loại ít có khả năng kích hoạt trong phiên của bạn.
- Bạn cần trần năng lực cao nhất cho các tác vụ phân tích phức tạp, bao gồm điểm chuẩn tài chính và suy luận liên ngành, nơi Fable 5 dẫn trước hàng chục điểm.
- Bạn dùng API và có thể hấp thụ chi phí $50 mỗi triệu token đầu ra để đổi lấy năng lực.
Chọn GPT-5.5 nếu...
- Bạn xây dựng trong các miền cận kề an ninh và cần mô hình sẽ không âm thầm chuyển hướng yêu cầu giữa pipeline.
- Chính sách dữ liệu doanh nghiệp của bạn yêu cầu không lưu giữ, điều mà trạng thái Covered Model của Fable 5 không đáp ứng được.
- Bạn cần quyền truy cập API dự đoán được, không có “vách đá” đăng ký hoặc hệ thống tín dụng sử dụng chồng lên gói.
- Hiệu quả chi phí quan trọng, và khoảng cách $30 so với $50 cho token đầu ra là đáng kể với mức sử dụng của bạn.
Kết luận
Fable 5 là mô hình mạnh hơn trên các điểm chuẩn quan trọng nhất. Khoảng cách SWE-Bench Pro (80,3% so với 58,6%) không phải nhiễu, và mức dẫn ở Humanity's Last Exam (64,5% so với 52,2% có công cụ) phản ánh khác biệt thực về độ sâu suy luận. Nếu chỉ xét năng lực thô, Fable 5 thắng.
Nhưng dấu sao trên điểm số của Fable 5 là có thật. Những con số đó phản ánh mô hình Mythos nền tảng. Fable 5 là Mythos cộng thêm các bộ phân loại, và với các truy vấn an ninh mạng, y sinh và một số trường hợp lưỡng dụng, bạn sẽ nhận Opus 4.8. Với pipeline agentic, đó không chỉ là mối quan tâm về năng lực; mà còn về độ tin cậy. Một pipeline kỳ vọng độ sâu suy luận của Fable 5 xuyên suốt có thể vỡ khi mô hình âm thầm chuyển đổi giữa nhiệm vụ. Cộng thêm yêu cầu lưu giữ dữ liệu bắt buộc 30 ngày, Fable 5 đơn giản là chưa phải lựa chọn cho một số khách hàng doanh nghiệp.
Có một lựa chọn thứ ba đáng nêu. Nếu giá của Fable 5 là rào cản và lợi thế ngữ cảnh dài của GPT-5.5 không quan trọng với trường hợp sử dụng của bạn, Claude Opus 4.8 không phải phương án an ủi. Nó đã vượt GPT-5.5 trên SWE-Bench Pro ở mức 69,2% so với 58,6%, có giá $5/$25 mỗi triệu token và không có ma sát do bộ phân loại như Fable 5. Chúng tôi phân tích chi tiết quyết định Opus 4.8 vs GPT-5.5 trong bài viết Claude Opus 4.8.
Nếu bạn muốn nhanh chóng bắt nhịp với việc đưa các mô hình tiên phong vào sản xuất, tôi khuyến nghị bắt đầu với lộ trình kỹ năng AI Fundamentals của chúng tôi.

Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.