Cho đến nay, 2026 là năm của AI hướng tác vụ (agentic). Các cải tiến trong mô hình đã dẫn đến vô số công cụ phục vụ công việc agentic, từ trợ lý AI cá nhân đến tác tử viết mã. Những cái tên lớn trong lĩnh vực này gồm có Gemini của Google, dòng GPT của OpenAI và các mô hình của Anthropic, vốn ngày càng được nhà phát triển ưa chuộng.
Trong bài viết này, tôi sẽ so sánh Claude Opus 4.7 và Gemini 3.1 Pro, bao gồm các benchmark và giá. Ở cuối bài, tôi sẽ đưa ra một tiêu chí giúp bạn quyết định mô hình nào phù hợp nhất với quy trình làm việc của mình.
Claude Opus 4.7 là gì?
Như chúng tôi đã đề cập trong bài viết về Opus 4.7, Claude Opus 4.7 là mô hình flagship mới nhất của Anthropic, bản cập nhật cho người tiền nhiệm Claude Opus 4.6. Mô hình được thiết kế cho các quy trình agentic phức tạp và lập luận nhiều bước. Nó thể hiện tốt hơn ở mảng tác tử viết mã, lập luận thị giác và sử dụng công cụ.
Tính năng và năng lực chính của Claude Opus 4.7
Một tính năng cốt lõi của Opus 4.7 là ngân sách tác vụ, cho phép bạn đặt giới hạn chi phí về số lượng token tác tử có thể dùng cho mỗi tác vụ. Điều này giúp tránh chi phí phát sinh ngoài dự kiến khi tác tử chạy tự động, buộc nó phải tối ưu và nằm trong ngân sách.
Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token và 128K token đầu ra. Điều này có nghĩa là nó có thể chạy các tác vụ kéo dài đồng thời giữ được toàn bộ ngữ cảnh của tác vụ. Đặc biệt hữu ích khi khám phá một codebase lớn.
Mô hình cũng cải thiện khả năng thị giác, hỗ trợ ảnh lên tới 3,75 megapixel. Nhờ đó, khả năng lập luận thị giác của nó tốt hơn Opus 4.6, trở thành lựa chọn lý tưởng cho các tác vụ như trích xuất dữ liệu từ biểu đồ độ phân giải cao.
Opus 4.7 còn có mức nỗ lực lập luận mới xhigh nằm giữa high và max để cho kết quả tốt nhất ở các tác vụ mã hóa và agentic. Bạn cũng có thể dùng mức high nếu muốn giảm nhẹ nỗ lực suy nghĩ. Anthropic cũng giới thiệu /ultrareview trong Claude Code để chạy review mã trên các thay đổi và phát hiện lỗi.

Điều có thể khiến một số người bất ngờ là Adaptive Thinking giờ mặc định không hiển thị phần suy nghĩ. Bạn có thể khôi phục phiên bản tóm tắt của lập luận bằng cách đặt thinking.display thành summarized.
Về benchmark, Opus 4.7 đạt:
- 87,6% trên SWE-bench Verified
- 64,3% trên biến thể khó hơn SWE-bench Pro
- 78% trên OSWorld, đo lường khả năng sử dụng máy tính tự chủ
- 77,3% trên MCP Atlas cho điều phối quy trình đa công cụ
Khi Claude Opus 4.7 ra mắt, nó đứng đầu Artificial Analysis Intelligence Index với 57 điểm. Nó cũng dẫn đầu về công việc agentic thực tế được đo bằng GDPval-AA, với 1.753 Elo. Trong thời gian sau đó, GPT-5.5 đã vượt qua nó ở cả hai hạng mục.
Tìm hiểu cách xây dựng một ứng dụng benchmark bằng Streamlit để kiểm tra liệu bộ nhớ tự phản biện của Opus 4.7 có thực sự cải thiện hiệu suất mã hóa giữa các mức nỗ lực high, xhigh và max từ Claude Opus 4.7 Practical Benchmark tutorial.
Ưu và nhược điểm của Claude Opus 4.7
Các mô hình của Anthropic vốn nổi tiếng là tốt nhất cho viết mã, và benchmark của Opus 4.7 đã chứng minh điều đó. Tuy nhiên, dòng Opus không hề rẻ, vì vậy ngân sách tác vụ là một bổ sung hữu ích, đặc biệt với những ai chạy các quy trình agentic dài.
Mô hình cũng sẵn có qua nhiều nhà cung cấp đám mây như Amazon Bedrock, Google Vertex AI và Microsoft Foundry. Điều này giúp tích hợp dễ dàng với nhà cung cấp hiện tại của bạn.
Opus 4.7 cũng đi kèm bộ tokenizer mới, khiến việc so sánh chi phí thực tế với phiên bản Opus trước đó khó hơn đôi chút. Tuy nhiên, theo Artificial Analysis Intelligence, Opus 4.7 dùng ít hơn ~35% token đầu ra so với Opus 4.6 để chạy chỉ số của họ.

Tìm hiểu năng lực của mô hình công khai tốt nhất của Anthropic, Claude Opus 4.7, và xây dựng một công cụ khoa học dữ liệu có thể chuyển biểu đồ thành dữ liệu thô từ Hướng dẫn API Claude Opus 4.7.
Gemini 3.1 Pro là gì?
Gemini 3.1 Pro là mô hình lập luận flagship hiện tại của Google DeepMind, sử dụng kiến trúc mixture of experts dựa trên Transformer. Khi Gemini 3.1 Pro ra mắt, nó dẫn đầu Artificial Analysis Intelligence Index 4 điểm trước Opus 4.6, và hiện ngang bằng Opus 4.7 với 57 điểm.
Để tìm hiểu thêm về Gemini 3.1 Pro, hãy xem bài viết Building with Gemini 3.1 Pro của chúng tôi, trình bày cách xây dựng ứng dụng sẵn sàng cho sản xuất với Gemini 3.1 Pro.
Tính năng và năng lực chính của Gemini 3.1 Pro
Không giống Gemini 3 Pro có hai mức, Gemini 3.1 Pro có 3 mức suy luận: low, medium và high. Low tối ưu cho tốc độ và tiết kiệm token. medium cân bằng giữa hai yếu tố. Vì high tạo ra nhiều token suy nghĩ hơn và phản hồi chậm nhất, bạn nên dùng cho các tác vụ yêu cầu lập luận phức tạp.
Gemini 3.1 Pro cũng có cửa sổ ngữ cảnh 1 triệu token cho đầu vào, nhưng nhỏ hơn ở đầu ra, khoảng 65K token. Mô hình là đa phương thức, hỗ trợ âm thanh, PDF, văn bản và hình ảnh.
Về benchmark, đây là hai mảng Gemini 3.1 Pro nổi trội:
- Gemini 3.1 Pro dẫn đầu trên ARC-AGI-2 với 77,1%.
- Gemini 3.1 Pro đạt 73,9% trên MCP Atlas, đo lường điều phối quy trình đa công cụ.

Theo Artificial Analysis Intelligence, Gemini 3.1 Pro Preview tiết kiệm token, dùng khoảng ~57M token để chạy Index của họ so với Opus 4.6.
Gemini 3.1 Pro dẫn trước Opus 4.7 trên Artificial Analysis Coding Index, nhưng lại kém trên Agentic Index.
Ưu và nhược điểm của Gemini 3.1 Pro
Giá của Gemini 3.1 Pro khá hấp dẫn, đặc biệt cho các công việc cần nhiều token. Google cũng cung cấp mức giảm 50% theo mô hình định giá theo lô, rất phù hợp khi bạn không cần kết quả theo thời gian thực.
Ở chiều ngược lại, cửa sổ đầu ra 65K của Gemini 3.1 Pro chỉ bằng một nửa so với Opus 4.7 (128K).
So sánh trực diện Claude Opus 4.7 vs Gemini 3.1 Pro
Dưới đây là phần tham chiếu nhanh, trước khi chúng ta xem từng hạng mục.
|
Claude Opus 4.7 |
Gemini 3.1 Pro |
|
|
Ngày phát hành |
16/04/2026 |
19/02/2026 |
|
Cửa sổ ngữ cảnh |
1M token |
1M token |
|
Đầu ra tối đa |
128K token |
65K token |
|
SWE-bench Verified |
87,6% |
80,6% |
|
SWE-bench Pro |
64,3% |
54,2% |
|
ARC-AGI-2 |
68,8% |
77,1% |
|
GPQA Diamond |
94,2% (hòa) |
94,3% (hòa) |
|
MCP Atlas |
77,3% |
73,9% |
|
OSWorld |
78,0% |
Chưa công bố điểm |
|
Thị giác |
2576px / 3,75MP |
Đa phương thức (video, âm thanh, PDF) |
|
Giá đầu vào |
$5/M token |
$2/M token |
|
Giá đầu ra |
$25/M token |
$12/M token |
Hiệu năng agentic và sử dụng máy tính
Opus 4.7 là một mô hình rất mạnh cho công việc agentic, đặc biệt vì nó cho phép bạn kiểm soát số token tác tử có thể dùng. Hệ thống này không có trong Gemini 3.1 Pro; bạn phải dùng mức suy nghĩ để điều chỉnh mức dùng token.
Opus 4.7 đạt 78% trên benchmark sử dụng máy tính tự chủ OSWorld. Đây là kết quả mạnh, ngang ngửa GPT 5.5 với 78,7%, trong khi Gemini 3.1 Pro chưa công bố điểm OSWorld. Trên MCP Atlas, Opus 4.7 dẫn đầu với 77,3% so với 73,9% của Gemini. Những con số này khiến Opus 4.7 trở thành lựa chọn lý tưởng cho các hệ thống agentic vận hành thực tế.
Benchmark về mã hóa
Giờ hãy xem mô hình nào tốt nhất khi lập trình theo các benchmark hiện có, đặc biệt là SWE-bench Verified, bài kiểm tra dựa trên các issue thực trên GitHub.
Opus 4.7 đạt 87,6% so với 80,6% của Gemini 3.1 Pro. Trên SWE-bench Pro, biến thể khó hơn, Opus 4.7 đạt 64,3% so với 54,2% của Gemini (và 58,6% của GPT 5.5). Những con số này cho thấy Opus 4.7 hiện là mô hình viết mã mạnh nhất thế giới.
Xem thêm hiệu năng trên Terminal-Bench 2.0, bài kiểm tra khả năng viết mã trên terminal. Opus 4.7 đạt 69,4%, Gemini Pro đạt 68,5%, và GPT 5.5 mới đạt 82,7%. GPT-5.5 là kẻ chiến thắng rõ ràng ở benchmark này, trong khi hai mô hình của chúng ta coi như ngang nhau.
Lập luận và tác vụ khoa học
Mô hình nào tốt nhất cho lập luận và các tác vụ khoa học? Hãy cùng tìm hiểu. Tôi sẽ không dùng benchmark GPQA Diamond vì tất cả mô hình đều đạt rất cao. Thay vào đó, chúng ta xem ARC-AGI-2, đo lường trí thông minh linh hoạt, tức khả năng giải quyết các bài toán lập luận trừu tượng mà mô hình chưa từng gặp.
Gemini 3.1 Pro đạt 77,1% so với 75,8% của Opus 4.7 và 85,0% của GPT 5.5, khiến GPT 5.5 là kẻ dẫn đầu rõ ràng ở đây, tiếp theo là Gemini 3.1 Pro.
Trên Humanity's Last Exam, nhằm đo lường lập luận trình độ sau đại học trong khoa học, toán và nhân văn, Opus 4.7 dẫn trước Gemini 3.1 Pro cả khi có và không có công cụ:
- Không dùng công cụ: Opus 4.7 dẫn đầu với 46,9%, theo sau là Gemini 3.1 Pro (44,4%) và GPT 5.5 Pro (43,1%).
- Có dùng công cụ: GPT 5.5 Pro dẫn đầu với 57,2%, tiếp theo là Opus 4.7 (54,7%) và Gemini 3.1 Pro (51,4%).
Chi phí và hiệu quả token
Opus 4.7 có giá $5 cho mỗi triệu token đầu vào và $25 cho mỗi triệu token đầu ra, trong khi Gemini 3.1 Pro có giá $2 cho mỗi triệu token đầu vào và $12 cho mỗi triệu token đầu ra. Gemini rẻ hơn nhiều, và với mức giảm 50% theo lô, mô hình này có giá rất tốt cho các tác vụ cần nhiều token.
Cũng cần lưu ý rằng bộ tokenizer mới của Opus 4.7 khiến việc so sánh chi phí với mô hình Opus trước đó khó hơn một chút.
Cửa sổ ngữ cảnh và năng lực đầu ra
Cả hai mô hình đều chấp nhận 1 triệu token đầu vào, cho phép chúng tiêu thụ toàn bộ codebase và các tài liệu nghiên cứu dài trong một prompt.
Về token đầu ra, Opus 4.7 hỗ trợ 128K token trong khi Gemini 3.1 Pro hỗ trợ 65.536. Điều này khiến Opus phù hợp hơn cho các quy trình cần sinh nhiều token đầu ra hơn.

Tìm hiểu cách Opus 4.7 và GPT 5.4 so sánh trong hướng dẫn Opus 4.7 vs. GPT-5.4 của chúng tôi, nơi chúng tôi so sánh cả hai về mã hóa, quy trình agentic và tác vụ ngữ cảnh dài, đồng thời phân tích các benchmark.
Claude Opus 4.7 có tốt hơn Gemini 3.1 Pro không?
Điều này dẫn đến câu hỏi: bạn nên chọn mô hình nào trong hai mô hình này?
Bạn nên chọn Claude Opus 4.7 nếu...
- Bạn đang xây dựng pipeline mã hóa agentic, nơi chênh lệch 10 điểm trên SWE-bench Pro chuyển hóa trực tiếp thành ít lần chạy lỗi hơn trong môi trường sản xuất.
- Bạn cần ngân sách tác vụ để các vòng lặp tự động dài trở nên dự đoán được hơn mà không cần thêm logic giám sát bên ngoài.
- Pipeline của bạn tạo ra đầu ra dài và trần 128K token là quan trọng, gần gấp đôi so với mức Gemini 3.1 Pro hỗ trợ.
- Bạn muốn điểm điều phối đa công cụ mạnh nhất trên MCP Atlas cho các quy trình agentic phức tạp.
- Bạn đã ở trong hệ sinh thái Anthropic qua Claude Code, Amazon Bedrock hoặc Claude API, và chi phí chuyển đổi lớn hơn chênh lệch giá.
Bạn nên chọn Gemini 3.1 Pro nếu...
- Khối lượng token của bạn khiến chênh lệch chi phí đầu vào 2,5 lần trở nên đáng kể; ở mức 500 triệu token/tháng, khoảng cách đó là $1.500 mỗi tháng
- Bạn cần video, âm thanh hoặc PDF đầu vào gốc trong một lần gọi API duy nhất mà không cần bước tiền xử lý riêng
- Bạn xây dựng trên hạ tầng của Google và muốn quan hệ một nhà cung cấp qua Vertex AI
- Lập luận thị giác trừu tượng là trường hợp sử dụng chính của bạn. Opus kém hơn trên ARC-AGI-2 với 75,8% so với 77,1% của Gemini
Kết luận
Claude Opus 4.7 và Gemini 3.1 Pro đều là các mô hình mạnh. Việc chọn mô hình nào phụ thuộc vào ngân sách và tác vụ bạn muốn thực hiện. Opus thắng ở các tác vụ agentic, nhưng nếu vượt quá ngân sách, Gemini 3.1 Pro cũng là ứng viên mạnh, đặc biệt nhờ token rẻ hơn và mức giảm 50% khi tính theo lô.
Anthropic vẫn duy trì vị thế dẫn đầu ở các mô hình viết mã tốt nhất, phù hợp cho các tác vụ agentic đòi hỏi lập luận và lập trình phức tạp. Google cung cấp các mô hình lập luận tiên tiến với mức giá thấp đáng kể so với Anthropic. Cuộc đua giữa cả hai và những người chơi lớn khác như OpenAI là mang đến mô hình agentic tốt nhất đồng thời vẫn là mô hình đa dụng.
Xét đến việc dòng Opus có giá cao, thật đáng mừng khi thấy sự xuất hiện của ngân sách tác vụ. Tôi sẽ không ngạc nhiên nếu các nhà cung cấp khác tích hợp tính năng này trong các bản phát hành tương lai. Đây sẽ là bổ sung tốt để chi phí chạy các tác vụ agentic dài hạn trở nên dự đoán được hơn.
Để tìm hiểu thêm về làm việc với công cụ AI, tôi khuyến nghị xem hướng dẫn về các công cụ AI miễn phí tốt nhất của chúng tôi. Với kỹ năng lập trình AI tổng quát hơn, hãy thử khóa AI-Assisted Coding for Developers để phát triển các kỹ năng giúp trợ lý AI trở thành đối tác đáng tin cậy hơn trong quy trình phát triển của bạn.
Cuối cùng, bạn cũng có thể khám phá cách xây dựng ứng dụng sử dụng AI với LLM, prompt, chain và agent trong LangChain qua khóa học Developing LLM Applications with LangChain của chúng tôi.