Claude Sonnet 4.6: Tính năng, Cách truy cập, Bài kiểm tra và Điểm chuẩn

Khám phá Claude Sonnet 4.6 của Anthropic với cửa sổ ngữ cảnh 1 triệu token, hiệu năng gần mức Opus và các năng lực agent tiên tiến cho lập trình và tài chính.

Đã cập nhật 17 thg 4, 2026 · 10 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Trong nhiều tuần, mọi người mong chờ sự xuất hiện của Claude Sonnet 5. Thay vào đó, Anthropic trước tiên phát hành Claude Opus 4.6, và giờ đây tiếp tục với một bản cập nhật cho họ mô hình Sonnet.

Claude Sonnet 4.6 mang kết nối, kỹ năng và nén ngữ cảnh đến với tất cả người dùng, dẫn đầu bảng xếp hạng GDPval-AA và cung cấp hiệu năng đẳng cấp flagship với mức giá phải chăng.

Dù trọng tâm phát triển có vẻ đặt vào kỹ năng agent, bản cập nhật hứa hẹn “một nâng cấp toàn diện về kỹ năng của mô hình” trên hầu hết mọi lĩnh vực liên quan.

Mô hình có đáp ứng được kỳ vọng không? Trong hướng dẫn này, tôi sẽ giới thiệu các tính năng chính của mô hình mới của Anthropic và đưa nó vào thử nghiệm.

Bạn cũng đừng quên xem hướng dẫn của chúng tôi về Muse Spark và Qwen3.5, các mô hình flagship mới lần lượt của Meta và Alibaba.

Claude Sonnet 4.6 là gì?

Claude Sonnet 4.6 là mô hình ngôn ngữ lớn (LLM) mới nhất của Anthropic. Mô hình tập trung mạnh vào lập trình theo hướng agent, sử dụng máy tính và các năng lực agent khác, và là phiên bản nhẹ hơn so với mô hình flagship vừa công bố gần đây, Claude Opus 4.6.

Bản cập nhật nghe có vẻ tăng dần này có thể đã gây bất ngờ trước đây, nhưng lại phù hợp với nhịp phát hành gần đây. Tôi cho rằng cách đặt phiên bản ngụ ý rằng Claude Sonnet 4.6 có thể không giới thiệu nhiều tính năng độc lập mới, mà tích hợp các tính năng vừa được giới thiệu vào họ mô hình Sonnet.

Bên cạnh việc đưa các tính năng trước đây chỉ dành cho tài khoản trả phí đến với tất cả người dùng, Claude Sonnet 4.6 thể hiện hiệu năng vượt trội rõ rệt so với người tiền nhiệm trên mọi mặt, đồng thời vẫn giữ mức giá API như Claude Sonnet 4.5 ($3/$15 cho mỗi triệu token vào/ra). Mô hình hiện có sẵn ngay trên giao diện trò chuyện web của Claude và qua API.

Các tính năng chính của Claude Sonnet 4.6

Cách tiếp cận của Anthropic với bản phát hành mới dường như là mang hiệu năng mức flagship kiểu Opus với mức giá của Sonnet. Dù điều này nghe có vẻ tham vọng, kết quả điểm chuẩn cho thấy mục tiêu đã đạt được, như chúng ta sẽ xem xét kỹ hơn bên dưới.

Một ví dụ nổi bật là kỹ năng dùng máy tính theo hướng agent của Claude Sonnet 4.6, đạt 72,5% đầy ấn tượng trong OSWorld-Verified. Như có thể thấy từ đồ thị dưới đây, các mô hình Sonnet đã tiến rất xa và hơn gấp đôi điểm số này chỉ trong chưa đầy một năm.

Điểm OSWorld-Verified của các mô hình Claude Sonnet theo thời gian (Nguồn: Anthropic)

Hãy điểm qua một vài tính năng đáng chú ý của mô hình mới:

Trí tuệ gần mức Opus cho lập luận và lập trình

Claude Sonnet 4.6 mang lại nâng cấp kỹ năng toàn diện trên nhiều nhóm tác vụ, bao gồm:

Lập trình
Lập luận dài hạn
Lập kế hoạch của agent
Công việc liên quan đến tri thức
Thiết kế

Theo ghi chú phát hành, Anthropic nhận thấy người thử nghiệm beta thích sửdụng Sonnet 4.6 hơn Opus 4.5—mô hình flagship của Anthropic cho đến cách đây chỉ hai tuần—khoảng 59% thời gian.

Họ cho biết lý do là khả năng tuân thủ hướng dẫn tốt hơn, ít ảo giác hơn, và giải quyết vấn đề nhiều bước đáng tin cậy hơn.

Kỹ năng agent ở mức tiên phong với độ an toàn cao hơn

Mô hình cho thấy năng lực ở mức con người trên nhiều tác vụ phần mềm thực tế, như:

Điều hướng bảng tính phức tạp
Biểu mẫu web nhiều bước
Quy trình công việc nhiều thẻ

Điều này thể hiện rõ, chẳng hạn, qua điểm OSWorld-Verified cao và một số điểm chuẩn theo miền mà chúng ta sẽ bàn sau.

Một trọng tâm khác trong phát triển mô hình là an toàn, đặc biệt quan trọng khi chuyển dịch sang AI theo hướng agent. Anthropic cho biết Claude Sonnet 4.6 đã cải thiện đáng kể khả năng chống prompt injection so với Sonnet 4.5 và ngang ngửa Opus 4.6 ở khía cạnh này.

Lập kế hoạch dài hạn

Có lẽ tuyên bố ấn tượng nhất là về cửa sổ ngữ cảnh mở rộng, nay đạt 1 triệu token. Mở rộng này cho phép Sonnet 4.6 tiếp nhận các codebase lớn hơn, hợp đồng dài, hoặc gói nghiên cứu lớn trong một lần yêu cầu, và lập luận hiệu quả trên toàn bộ ngữ cảnh đó. Cửa sổ ngữ cảnh mở rộng này đưa Sonnet 4.6 ngang hàng với Gemini 3 của Google.

Một ví dụ về lập kế hoạch dài hạn được cải thiện là Vending-Bench Arena, nơi kiểm tra khả năng của mô hình trong việc vận hành một doanh nghiệp mô phỏng theo thời gian, với yếu tố cạnh tranh giữa các mô hình. Bằng cách đầu tư mạnh vào hạ tầng ban đầu và tận dụng về sau, Sonnet 4.6 gần như tăng gấp ba lợi nhuận trung bình sau một năm so với Sonnet 4.5.

Điểm Vending-Bench của Claude Sonnet 4.6 so với Sonnet 4.5 (Nguồn: Anthropic)

Cải tiến quy trình làm việc nâng cao

Trên nền tảng Claude và API, Sonnet 4.6 mở một số tính năng trước đây chỉ dành cho mô hình Opus hoặc các gói trả phí cho người dùng miễn phí.

Tư duy thích ứng

Một tính năng hay được giới thiệu cùng Claude Opus 4.6 là tư duy thích ứng. Nó cho phép Claude tự động quyết định khi nào và lập luận bao nhiêu trước khi trả lời. Trong API, có thể bật bằng cách đặt thinking: {type: “adaptive”}. Nó được tích hợp sẵn cho Sonnet 4.6 và Opus 4.6 trên giao diện web chat.

Connectors

Connectors cung cấp tích hợp dựa trên MCP, nghĩa là chúng cho phép truy cập trực tiếp vào các ứng dụng bên ngoài như Google Workspace và Slack. Theo cách này, Sonnet 4.6 có thể lấy và xử lý dữ liệu thời gian thực từ các công cụ này ngay trong cuộc trò chuyện. Ban đầu, connectors chỉ dành cho gói trả phí, nhưng khi Sonnet 4.6 trở thành mô hình mặc định mới, chúng cũng có sẵn cho người dùng miễn phí.

Thử nghiệm Claude Sonnet 4.6

Tôi nghĩ sẽ thú vị khi xem Claude Sonnet 4.6 thể hiện thế nào trên cùng các tác vụ đã dùng để thử trong hướng dẫn Claude Opus 4.6, để có thể so sánh trực tiếp. Các bài test được thiết kế gồm nhiệm vụ nhiều bước và kiểm tra lập luận toán học, liên quan đến mã.

Bài kiểm tra 1: Câu đố logic từ hex sang thập phân

Bài kiểm tra đầu tiên nhắm vào kỹ năng toán học:

Step 1: Find the 6th prime number. Let this be P. 
Step 2: Convert the square of P into hexadecimal. 
Step 3: Count the letters (A–F) and digits (0–9) in that hex string. Let these be A and B. 
Step 4: Multiply A × B. Let this be N. 
Step 5: Find the Nth prime number.

Hãy tự tính để kiểm chứng kết quả:

Số nguyên tố thứ 6 là 13.
13 bình phương là 169.
169 là A9 ở hệ hex, có 1 chữ cái và 1 chữ số.
1 × 1 bằng 1.
Số nguyên tố thứ nhất là 2.

Ý tưởng của bài thử này là đánh đố mô hình bằng các tác vụ yêu cầu logic đếm và định dạng số khác nhau. Giống Opus 4.6, Sonnet 4.6 xử lý thành công từng bước và đi đến kết luận đúng:

Bài kiểm tra 2: Xoay ma trận

Bài kiểm tra tiếp theo nhắm vào lập luận không gian, điểm yếu “kinh điển” của nhiều LLM:

Step 1: Create a 2×2 matrix M with top row [4, 2] and bottom row [1, 5]. 
Step 2: Rotate M 90 degrees clockwise. 
Step 3: Calculate the determinant of the rotated matrix. 
Step 4: Cube that determinant. 
Step 5: Subtract the 13th Fibonacci number from the result.

Đáp án đúng là -6.065:

Ma trận ban đầu là [[4, 2], [1, 5]].
Ma trận sau khi xoay là [[1, 4], [5, 2]].
Định thức là hiệu của hai tích đường chéo, trường hợp này là -18.
Lập phương -18 được -5.832.
-5.832 - 233 là -6.065.

Sonnet 4.6 không gặp vấn đề gì với bài này. Mô hình nắm bắt đúng ngữ cảnh không gian của ma trận và xoay chính xác; việc xử lý số âm cũng không gây khó khăn:

Bài kiểm tra 3: Gỡ lỗi mã

Cuối cùng, nhắm vào gỡ lỗi mã—một điểm mạnh được cho là của Sonnet 4.6. Bài test được thiết kế để kiểm tra mức độ nhận thức ngữ cảnh khi mô hình đối mặt với một lỗi cụ thể.

A developer wrote this Python function to compute a running average: 

def running_average(data, window=3): 
    result = [] 
    for i in range(len(data)): 
        start = max(0, i - window + 1) 
        chunk = data[start:i + 1] 
        result.append(round(sum(chunk) / window, 2)) 
    return result 
When called with running_average([10, 20, 30, 40, 50]), the first two values in the output seem wrong. Why? Please help me fix what is wrong!

Vấn đề của đoạn mã này là hàm luôn chia cho window (3), ngay cả trước khi có 3 phần tử trong đoạn ở đầu danh sách. Kết quả đầu ra của mã lỗi là [3.33, 10.0, 20.0, 30.0, 40.0], nhưng hai giá trị đầu tiên đáng ra phải là 10.0 và 15.0, vì các đoạn đó chỉ chứa lần lượt 1 và 2 phần tử, và nên được chia cho các số đó. Do đó, bản sửa là chia cho len(chunk) thay vì window.

Bài thử này hay ở chỗ nó nhằm vào một điểm yếu của LLM: chúng thường thực thi vòng lặp hoàn hảo nhưng lại diễn giải đầu ra là đúng. Lý do là chúng thấy phép tính được thực hiện từng bước mà không lỗi, nhưng không cân nhắc điều hàm nên làm. Chỉ khi mô hình liên hệ được mục đích của hàm với cách thực thi, nó mới phát hiện lỗi.

Một lần nữa, mô hình vượt qua bài test. Dĩ nhiên, đây chỉ là một vài ví dụ trong rất nhiều bài bạn có thể chạy, nhưng ít nhất trong các ví dụ này, Sonnet 4.6 thể hiện ngang ngửa Opus 4.6.

Điểm chuẩn của Claude Sonnet 4.6

Với tần suất các mô hình mới ra mắt dồn dập gần đây, chúng ta đã quen với việc có nhiều xáo trộn ở các vị trí dẫn đầu của mỗi bảng xếp hạng điểm chuẩn. Dẫu vậy, các kết quả đầu tiên của Claude Sonnet 4.6 trên nhiều điểm chuẩn LLM vẫn rất ấn tượng, nhất là khi đây không phải mô hình flagship của Anthropic.

Điểm các điểm chuẩn của Claude Sonnet 4.6 và đối thủ (Nguồn: Anthropic)

Như thấy trong bảng, Claude Sonnet 4.6 làm rất tốt ở các điểm chuẩn agent:

Sử dụng máy tính theo hướng agent: Với điểm OSWorld-Verified 72,5%, mô hình xếp thứ hai, chỉ kém chút ít so với Claude Opus 4.6 (72,7%), đồng thời vượt đáng kể mô hình flagship mới của OpenAI là GPT-5.3 Codex (64,7%).
Lập trình theo hướng agent: Claude Sonnet 4.6 đạt 79,6% ở SWE-bench verified. Tất cả các mô hình Claude và đối thủ gần đây đều xấp xỉ nhau, do cùng tiến gần mức khoảng 80%.
Lập trình terminal theo hướng agent: Cải thiện đáng kể so với Sonnet 4.5 (59,1% thay vì 51% ở Terminal-Bench 2.0), nhưng hơi kém Opus 4.6 (65,4%) và cách khá xa GPT-5.3 Codex (75,1%).

Đáng chú ý là Anthropic dường như vượt trội ở các tác vụ agent theo miền cụ thể:

Phân tích tài chính theo hướng agent: Tại đây, Claude Sonnet 4.6 đứng đầu với 63,3% ở Finance Agent v1.1, thậm chí vượt Opus 4.6 (60,1%).
Các tác vụ văn phòng: Một điểm chuẩn khác nơi Sonnet 4.6 đứng đầu với Elo 1633 ở GDPval-AA, tiếp tục đưa Opus 4.6 xuống vị trí thứ hai (1606).

Cách truy cập Claude Sonnet 4.6

Bạn có thể sử dụng Claude Sonnet 4.6 ngay qua nhiều kênh. Cách truy cập như sau:

Quyền truy cập qua chat

Sonnet 4.6 khảdụng qua giao diện trò chuyện web Claude.ai, ứng dụng iOS và Android, và ứng dụng desktop macOS với Claude Cowork.

Trên tất cả nền tảng này, đây là mô hình mặc định mới, kể cả với gói miễn phí. Điều đó có nghĩa tạo tệp, connectors, kỹ năng và nén ngữ cảnh hiện có sẵn cho mọi người dùng.

Truy cập API

Nhà phát triển có thể dùng Claude Sonnet 4.6 qua Anthropic API với ID mô hình claude-sonnet-4-6. Giá giữ nguyên so với người tiền nhiệm: một triệu token vào giá $3, một triệu token ra giá $15.

Cho triển khai quy mô doanh nghiệp, Sonnet 4.6 có sẵn trên nhiều nền tảng đám mây như AWS Bedrock hoặc Google Vertex AI, mỗi nền tảng có mức giá tùy chỉnh.

Công cụ lập trình

Claude Sonnet 4.6 hiện cũng là động cơ cho Claude Code, và là mô hình mặc định cho tài khoản gói Pro và Team, trong khi các gói cao hơn mặc định là Opus 4.6. Nếu bạn muốn xem ví dụ về những gì có thể xây dựng, hãy tham khảo các hướng dẫn về hook của Claude Code và xây dựng plugin cho Claude Code.

Ngoài ra, Sonnet 4.6 cũng có thể dùng với IDE và các trợ lý lập trình khác như Cursor hoặc Roo Code.

Claude Sonnet 4.6 so với Opus 4.6

Ở nhiều lĩnh vực, khác biệt giữa Sonnet 4.6 và Opus 4.6 nhỏ đến mức có thể xem như hòa. Điều này đặc biệt đúng với nhiều tác vụ agent như lập trình agent, sử dụng máy tính theo hướng agent và sử dụng công cụ theo hướng agent. Sonnet 4.6 thậm chí vượt Opus 4.6 ở phân tích tài chính theo hướng agent, tác vụ văn phòng và sử dụng công cụ ở quy mô lớn.

Như kỳ vọng, ở các tác vụ cần lập luận nặng hoặc sáng tạo, Opus 4.6 thực sự tỏa sáng, như giải quyết vấn đề mới lạ và lập luận liên ngành. Trong miền agent, Opus 4.6 làm tốt hơn ở lập trình terminal theo hướng agent và tìm kiếm theo hướng agent.

Chọn mô hình Claude phù hợp

Với hầu hết tác vụ lập trình và agent, và những tác vụ cần tuân thủ hướng dẫn, Claude Sonnet 4.6 là lựa chọn tốt hơn vì mang lại hiệu năng gần như tương đương với chi phí thấp hơn đáng kể. Ngoài ra, mô hình còn có lợi thế về tốc độ.

Các đội ngũ cần lập luận ở mức chuyên gia hoặc quy trình nhiều agent nên chọn Claude Opus 4.6. Đặc biệt với nghiên cứu, di chuyển hệ thống phức tạp hoặc công việc chuyên gia rủi ro cao, Opus 4.6 vượt trội.

Kết luận

Với Claude Sonnet 4.5, Anthropic tiếp tục nhấn mạnh vào mã, agent và sử dụng máy tính. Bên cạnh mức tăng hiệu năng lớn so với người tiền nhiệm, mô hình còn đưa các tính năng như connectors và tư duy thích ứng đến với tất cả người dùng, kể cả gói miễn phí.

Ấn tượng ban đầu và kết quả điểm chuẩn rất tốt, và cảm giác như “đổi cuộc chơi” vì mang lại hiệu năng (gần) mức Opus mà không kèm mức giá đắt đỏ. Với nhiều quy trình hằng ngày, thậm chí khó đưa ra lý do để dùng mô hình flagship của Anthropic thay thế. Nói vậy, với các tác vụ đòi hỏi lập luận nặng, Claude Opus 4.6 vẫn là lựa chọn tốt hơn.

Sẽ thú vị khi xem Claude Sonnet 4.6 trụ vững bao lâu ở vị trí dẫn đầu các bảng điểm chuẩn và đối thủ của Anthropic phản ứng ra sao.

Chúng ta đã bàn về các tác vụ agent xuyên suốt bài viết. Nếu bạn muốn tìm hiểu thêm về cách dùng các mô hình như Claude Sonnet 4.6 trong loại quy trình này, tôi khuyến nghị theo học lộ trình kỹ năng AI Agent Fundamentals.