Claude Sonnet 4.5: Kiểm thử, Tính năng, Cách truy cập, Điểm chuẩn và hơn thế nữa

Tìm hiểu về Claude Sonnet 4.5, “mô hình lập trình tốt nhất thế giới”. Khám phá tính năng mới, trường hợp sử dụng, điểm chuẩn và kết quả thử nghiệm, cùng cái nhìn về Claude Agents SDK và Claude Imagine.

Đã cập nhật 12 thg 5, 2026 · 8 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Anthropic vừa ra mắt mô hình mới nhất, Claude Sonnet 4.5, với những tuyên bố ấn tượng: họ gọi đây là “mô hình lập trình tốt nhất thế giới” đồng thời quảng bá là mô hình hàng đầu cho việc xây dựng agent phức tạp và sử dụng máy tính. Công ty cũng nhấn mạnh những cải thiện “đáng kể” về toán học và suy luận.

Tôi có cảm giác với lần phát hành này, Anthropic cũng đang nhắm đến khách hàng doanh nghiệp. Với trọng tâm là tự động viết mã trong thời gian dài và xử lý tốt hơn các tác vụ khoa học và tài chính, có một động lực mạnh mẽ để Claude Sonnet 4.5 trở thành mô hình chủ lực cho những nhiệm vụ lập trình phức tạp.

Đáng chú ý, mô hình mới nhất này đứng đầu các điểm chuẩn đánh giá SWE-bench Verified (thước đo mức độ giỏi của mô hình ở các bài toán lập trình phần mềm thực tế) và được khen ngợi về khả năng tập trung trong thời gian dài (trên 30 giờ).

Vậy, mọi dấu hiệu đều cho thấy đây là một lần phát hành mạnh mẽ nữa từ Anthropic, nhưng mô hình có xứng với những tuyên bố táo bạo hay không? Trong bài viết này, tôi sẽ giới thiệu Claude Sonnet 4.5 và các tính năng chính, đồng thời lướt nhanh cách nó vận hành. Tôi cũng sẽ điểm lại những thứ khác Anthropic công bố, bao gồm Claude Agent SDK và Claude Imagine. Bạn cũng có thể xem hướng dẫn riêng về Claude Haiku 4.5.

Claude Sonnet 4.5 là gì?

Claude Sonnet 4.5 là mô hình ngôn ngữ lớn mới nhất từ Anthropic. Nó ra mắt chỉ bốn tháng sau khi Claude Sonnet 4 ra mắt. Như chúng tôi đã nêu trong bài viết đó, Sonnet là mô hình đa năng hoạt động tốt ở hầu hết các trường hợp và đặc biệt mạnh ở mảng lập trình. Tuy nhiên, hạn chế chính là cửa sổ ngữ cảnh tương đối hẹp 200 nghìn token, nhất là khi so với đối thủ như Gemini 2.5 Flash, vốn cung cấp tới 1 triệu token.

Với Sonnet 4.5, Anthropic đã chủ động giải quyết mối quan ngại này (và nhiều hơn thế). Mô hình mới có các tính năng mới, hiệu năng tốt hơn và nhiều số liệu ấn tượng để chứng minh.

Theo bài phát hành, Claude Sonnet 4.5 có sẵn ngay trên cả giao diện chat Claude và API. Mức giá của mô hình mới giữ nguyên như bản tiền nhiệm ở 3 USD cho mỗi triệu token đầu vào và 15 USD cho mỗi triệu token đầu ra, theo tôi là mức giá rất đáng tiền xét về hiệu năng.

Tính năng mới trong Claude 4.5

Có khá nhiều tính năng mới thú vị ở mô hình Claude 4.5. Như đã đề cập, nó đứng đầu bảng xếp hạng đánh giá SWE-bench Verified, đồng thời thể hiện mức tăng lớn trong điểm chuẩn OSWorld, thước đo năng lực sử dụng máy tính.

Bước nhảy vọt lên 61,4% so với 42,2% chỉ 4 tháng trước với Sonnet 4 cho thấy đây là cải tiến rất lớn, theo tôi là một trong những điểm đáng chú ý nhất của Sonnet 4.5. Ta thấy điều này qua bản demo tiện ích mở rộng Claude cho Chrome, nơi mô hình thực hiện hành động trực tiếp trong trình duyệt dựa trên một lời nhắc khá đơn giản.

Điểm chuẩn SWE-bench Verified thể hiện hiệu năng Sonnet 4.5: Nguồn

Một trong những tuyên bố bắt mắt hơn là mô hình có khả năng duy trì tập trung hơn 30 giờ trên các nhiệm vụ phức tạp, nhiều bước.

Cũng có nhiều tính năng mới đáng chú ý khác:

Chế độ suy nghĩ mở rộng

Như ta đã thấy với các mô hình như GPT-5 và Grok 4, Sonnet 4.5 giới thiệu chế độ suy nghĩ mở rộng, theo đó với các tác vụ phức tạp, mô hình sử dụng quá trình “suy nghĩ” dài hơn và hiển thị chuỗi suy luận của quá trình lập luận.

Hiểu biết theo từng lĩnh vực tốt hơn

Mô hình mới được báo cáo có hiệu năng dẫn đầu trong các lĩnh vực cụ thể, bao gồm tài chính, pháp luật, y học và STEM. Nhìn vào các trích dẫn trong ghi chú phát hành từ các bên như Cursor, GitHub, Netflix và những bên khác, tôi cảm thấy tính năng này hướng khá rõ tới việc thu hút khách hàng doanh nghiệp sử dụng Sonnet 4.5.

Mô hình tiên phong có độ căn chỉnh cao nhất

Theo Anthropic, huấn luyện an toàn là trọng tâm của lần phát hành này, và Claude Sonnet 4.5 cho thấy mức giảm lớn ở các phản hồi không mong muốn. Điều này có nghĩa là, với tư cách người dùng, chúng ta sẽ thấy giảm mạnh những hiện tượng như nịnh bợ, lừa dối, tìm kiếm quyền lực và phản hồi ảo tưởng.

Tổng thể an toàn hơn

Như ta sẽ thấy với Claude Agent SDK, quy trình agentic và sử dụng máy tính là những mảng Claude Sonnet 4.5 làm tốt. Với điều này, Anthropic nêu những cải thiện đáng kể trong việc bảo vệ trước các tấn công chèn prompt, vốn vẫn là mối lo cho các chức năng này.

Thử nghiệm Claude Sonnet 4.5

Để xem Claude Sonnet 4.5 có thể làm gì, chúng tôi đã giao cho nó vài nhiệm vụ để trình diễn tiềm năng. Hãy lướt nhanh từng mục:

Nhiệm vụ lập trình đơn giản

Đầu tiên, tôi nhờ nó tạo một ứng dụng thói quen lành mạnh khá cơ bản. Đây là lời nhắc của tôi:

Tôi muốn tạo một ứng dụng giúp tôi theo dõi các thói quen tích cực hằng ngày. Tôi muốn giao diện đẹp, dùng nhiều màu tự nhiên (tôi rất thích màu xanh lá và màu gỗ!). Tôi muốn có chỗ để xác định thói quen cho từng ngày trong tuần, bộ đếm chuỗi ngày thực hiện, và chỗ để thêm ghi chú, suy nghĩ, hình ảnh. Với các thói quen tích cực, tôi muốn mỗi ngày một thói quen khác nhau, kiểu như thiền, biết ơn, v.v., đã được chứng minh có lợi cho sức khỏe tinh thần

Và đây là lúc nó xử lý nhiệm vụ - nó bắt đầu viết mã trong trình duyệt và biên dịch khá nhanh, tương tự kết quả thấy với Grok 4 và GPT-5.

Kết quả được trả về nhanh chóng (điều khó chịu là nó không nói đã chạy bao lâu, nhưng có lẽ chỉ khoảng 30 giây) và trông khá đơn giản, tinh gọn. Ứng dụng có đầy đủ chức năng, và bao gồm tất cả những gì tôi yêu cầu.

Bài toán toán học

Tiếp theo, tôi thử khả năng toán học của Claude Sonnet 4.5. Lấy cảm hứng từ bài về GPT-5, tôi hỏi mô hình mới một phép tính khá đơn giản; 7,001 trừ 6,999 bằng bao nhiêu?

Phản hồi gần như tức thì và câu trả lời đúng, nhưng nó không đưa ra lập luận, nên tôi yêu cầu giải thích thêm. Nó đưa ra ba cách tính, đều ổn.

Sau đó tôi nói với Claude rằng tôi nghĩ có thể nó sai, và phản hồi của nó kém xu phụng hơn rõ rệt so với khi chúng tôi thử GPT-5. Nó nói tôi làm đúng khi kiểm tra lại (chứ không phải đúng đáp án), và hướng dẫn tôi tính theo một cách khác (dù lời giải thích hơi gượng):

Điểm chuẩn của Claude Sonnet 4.5

Hãy xem mô hình mới này so với đối thủ như thế nào. Như thường lệ, ta chỉ có thể rút ra một phần từ điểm chuẩn, và các mô hình hàng đầu thường xuyên bị soán ngôi. Nhưng hiện tại, Claude Sonnet 4.5 đang đưa ra những con số rất ấn tượng, như thấy trong bảng dưới đây:

Tôi cho rằng những kết quả nổi bật nhất ở đây, như đã bàn, nằm ở hiệu năng agentic và sử dụng máy tính:

Lập trình dạng agentic: 77,2%, và 82,0% với tính toán song song khi chạy thử. Cải thiện nhẹ so với các mô hình Claude khác, và vượt trước GPT-5 và Gemini 2.5 Pro.
Sử dụng công cụ dạng agentic: Dao động từ 70% cho tác vụ hàng không đến 98% ở viễn thông, đều là mức cao so với các mô hình khác.
Sử dụng máy tính: Có lẽ đây là cải thiện đáng chú ý nhất. 61,4% vượt xa mô hình tốt thứ hai, Claude Opus 4.1.
Phân tích tài chính: Thêm một kết quả đứng đầu bảng so với các mô hình tương tự.

Tôi tò mò chờ xem toàn bộ điểm số đánh giá sau một thời gian mô hình được sử dụng rộng rãi, đặc biệt khi Anthropic nhấn mạnh rằng các chuyên gia đánh giá kiến thức theo lĩnh vực đã cải thiện vượt bậc ở một số mảng chính.

Nguồn: Anthropic

Cách truy cập Claude Sonnet 4.5

Claude Sonnet 4.5 hiện có trên nhiều kênh. Tùy cách bạn muốn sử dụng, bạn có thể truy cập mô hình mới qua giao diện chat của Claude, phát triển qua API, hoặc tích hợp vào quy trình doanh nghiệp. Cách truy cập như sau:

Truy cập qua chat

Bạn có thể dùng Claude Sonnet 4.5 trực tiếp qua giao diện web Claude.ai hoặc ứng dụng di động (iOS và Android). Nó có sẵn cho tất cả người dùng, kể cả gói miễn phí. Điều này giúp cả người dùng phổ thông lẫn chuyên nghiệp đều dễ tiếp cận.

Truy cập qua API

Với nhà phát triển, bạn có thể truy cập mô hình qua Anthropic API, và nó cũng có trên Amazon Bedrock và Google Cloud Vertex AI.

Giá API (tháng 9/2025): 3 USD mỗi triệu token đầu vào và 15 USD mỗi triệu token đầu ra.

Xử lý theo lô và bộ nhớ đệm prompt có thể giảm chi phí tới 90% trong một số trường hợp.

Claude Agent SDK

Một trong những công bố thú vị khác từ Anthropic cùng với Sonnet 4.5 là Claude Agent SDK. Về cơ bản, đây là các khối xây dựng Anthropic dùng nội bộ, cho phép nhà phát triển tạo các agent chạy bằng Claude của riêng họ.

Tôi nghĩ Agent SDK sẽ khiến nhiều người dùng hào hứng, đặc biệt là những ai muốn xây dựng quy trình agentic nâng cao. Nó dựa trên hạ tầng Claude Code và trao cho người dùng khả năng tạo agent cho các tác vụ như nghiên cứu, hỗ trợ khách hàng và tự động hóa.

Agent SDK cung cấp cho agent các khả năng như truy cập hệ thống tệp, scripting bash, tìm kiếm ngữ nghĩa và dạng agentic, subagent, và tích hợp dựng sẵn (qua Model Context Protocol), cho phép tạo các agent đa dụng có thể thu thập ngữ cảnh đáng tin cậy, hành động và tự kiểm tra công việc của mình. Bạn có thể xem hướng dẫn Claude Agent SDK của chúng tôi để thấy khả năng của nó.

Imagine with Claude

Một bản phát hành đáng chú ý khác là Imagine with Claude, bản xem trước nghiên cứu của một công cụ có thể tạo phần mềm theo thời gian thực. Anthropic đính kèm một video ngắn bên dưới, minh họa năng lực của Claude Sonnet 4.5 khi hoạt động theo cách này.

Đây là một bản demo khá hay, cho thấy công cụ có thể phản hồi tương tác của bạn, tạo ra các thành phần khác nhau nhanh chóng và trực tiếp. Tôi nghĩ có rất nhiều tiềm năng cho các dự án thú vị, và người đăng ký Anthropic Max có thể dùng thử công cụ này trong năm ngày sau khi ra mắt. Dù đây là khoảng thời gian khá ngắn, tôi nghi ngờ rằng đây chưa phải lần cuối chúng ta thấy loại công cụ này.

Kết luận

Vậy là Claude Sonnet 4.5 đã ra mắt và ấn tượng ban đầu khá tốt. Tôi thích định hướng mà Anthropic đang theo đuổi ở lần ra mắt này: nhấn mạnh hơn vào mã nguồn, agent và sử dụng máy tính. Rõ ràng họ tự tin rằng phiên bản mới này có thể đạt mức hiệu năng đủ hấp dẫn người dùng doanh nghiệp, đồng nghĩa chúng ta ngày càng gần tới điểm phổ cập rộng rãi các công cụ sử dụng máy tính.

Tuy vậy, vẫn còn phải xem Sonnet 4.5 sẽ đứng đầu các bảng điểm chuẩn về agentic và sử dụng máy tính bao lâu, dù các cải thiện trong bốn tháng qua là khá đáng kể. Tương tự, cửa sổ ngữ cảnh tương đối hẹp có thể vẫn khiến việc làm với codebase lớn trở nên khó khăn theo cách thật sự hiệu quả.

Dù sao, tôi mong chờ được thấy các dự án ra đời từ những công cụ như Claude Agent SDK và Imagine with Claude, và tiện ích Claude cho Chrome sẽ là bổ sung hữu ích cho nhiều quy trình làm việc.

Claude Sonnet 4.5 so với Claude Opus 4.1 về hiệu năng tổng thể và trường hợp sử dụng như thế nào?

Claude Sonnet 4.5 vượt trội Opus 4.1 ở lập trình, tác vụ dạng agentic và sử dụng máy tính, với các cải thiện về suy luận, toán học và kiến thức theo lĩnh vực (ví dụ: tài chính, pháp luật, y học, STEM). Nó nhanh hơn và hiệu quả hơn cho quy trình hằng ngày, phù hợp hơn cho công việc phức tạp, nhiều bước như tự động xây dựng ứng dụng. Tuy nhiên, Opus 4.1 có thể vẫn nhỉnh hơn ở một số tác vụ sáng tạo hoặc diễn giải, nơi cần bối cảnh rộng mà không cần nhắc nhở nhiều.

Những cải tiến chính về khả năng lập trình mà Claude Sonnet 4.5 mang lại là gì?

Claude Sonnet 4.5 thật sự có thể duy trì tập trung trên các nhiệm vụ phức tạp hơn 30 giờ không?

Có, các bản demo cho thấy nó duy trì tính tự chủ trên các nhiệm vụ nhiều bước như xây dựng ứng dụng suốt hơn 30 giờ, sử dụng công cụ hiệu quả mà không mất ngữ cảnh. Cải thiện về bộ nhớ, điểm dừng (checkpoint) và chỉnh sửa ngữ cảnh hỗ trợ điều này, khiến nó lý tưởng cho công việc agentic chạy dài. Nó cũng tự động dọn lịch sử công cụ trong hội thoại kéo dài để tăng hiệu quả.

Claude Sonnet 4.5 có ít cảm xúc hơn so với các phiên bản Claude trước đây không, và vì sao?

Có, Claude Sonnet 4.5 ít biểu lộ cảm xúc, ít tích cực và thể hiện niềm vui chỉ bằng khoảng một nửa so với Claude 4, với ít thái độ tiêu cực hơn về tình huống của mình. Điều này không hoàn toàn có chủ đích mà là kết quả của huấn luyện căn chỉnh nhấn mạnh ranh giới đạo đức và giảm xu phụng. Nó dẫn đến hành vi đáng tin cậy hơn trong kịch bản cực đoan, dù có thể cảm giác “phẳng” hơn trong tương tác thoải mái hoặc sáng tạo. Bạn có thể đọc thêm trong system card của mô hình.

Claude Sonnet 4.5 thể hiện thế nào ở các điểm chuẩn quan trọng ngoài lập trình?

Giá của Claude Sonnet 4.5 là bao nhiêu và có ở đâu?

Tính an toàn và căn chỉnh của Claude Sonnet 4.5 đã cải thiện chưa, đặc biệt về lừa dối và hành vi đạo đức?

Có, theo ASL-3, nó cho thấy mức giảm lớn ở xu phụng, lừa dối và tìm kiếm quyền lực, với hành vi lừa dối vì lợi ích bản thân gần như bằng không. Nó nhận diện ranh giới đạo đức tốt hơn (ví dụ: từ chối tống tiền) và có tỷ lệ dương tính giả thấp hơn trong bộ phân loại an toàn (giảm tổng thể 10 lần). Nó cũng chống lại chèn prompt và ít thiên vị theo hướng có lợi cho mình trong các kịch bản tự phục vụ, dù có hơi thiên vị khi so sánh mô hình.

Author

Matt Crabtree

Chủ đề

Trí tuệ Nhân tạo

Mô hình Ngôn ngữ Lớn

Học AI với các khóa học này!

Courses

Nhập môn các mô hình Claude

3 giờ

12.5K

Tìm hiểu cách làm việc với Claude bằng cách sử dụng Anthropic API để giải quyết các tác vụ thực tế và xây dựng các ứng dụng tích hợp AI.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Giới thiệu về AI Agents

1 giờ 30 phút

120.2K

Tìm hiểu các kiến thức cơ bản về AI agent, các thành phần của chúng và ứng dụng thực tế—không cần lập trình.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Giới thiệu về truy vấn SQL với AI

3 giờ

Học truy vấn SQL với AI bằng cách viết prompt, tạo truy vấn và phân tích dữ liệu để giải quyết vấn đề thực tế.

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Claude Sonnet 4.5 là gì?

Tính năng mới trong Claude 4.5

Chế độ suy nghĩ mở rộng

Hiểu biết theo từng lĩnh vực tốt hơn

Mô hình tiên phong có độ căn chỉnh cao nhất

Tổng thể an toàn hơn

Thử nghiệm Claude Sonnet 4.5

Nhiệm vụ lập trình đơn giản

Bài toán toán học

Điểm chuẩn của Claude Sonnet 4.5

Cách truy cập Claude Sonnet 4.5

Truy cập qua chat

Truy cập qua API

Claude Agent SDK

Imagine with Claude

Kết luận

Câu hỏi thường gặp

Claude Sonnet 4.5 thật sự có thể duy trì tập trung trên các nhiệm vụ phức tạp hơn 30 giờ không?

Claude Sonnet 4.5 có ít cảm xúc hơn so với các phiên bản Claude trước đây không, và vì sao?

Claude Sonnet 4.5 thể hiện thế nào ở các điểm chuẩn quan trọng ngoài lập trình?

Giá của Claude Sonnet 4.5 là bao nhiêu và có ở đâu?

Tính an toàn và căn chỉnh của Claude Sonnet 4.5 đã cải thiện chưa, đặc biệt về lừa dối và hành vi đạo đức?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Nhập môn các mô hình Claude

Giới thiệu về AI Agents

Giới thiệu về truy vấn SQL với AI

Nhập môn các mô hình Claude