Claude Opus 4.7 so với GPT-5.4: Bạn nên dùng mẫu tiên phong nào?

Chúng tôi so sánh Claude Opus 4.7 và GPT-5.4 cho lập trình, quy trình agent và tác vụ dài ngữ cảnh, phân tích benchmark, cấu trúc giá và cách dùng công cụ để giúp bạn chọn mẫu phù hợp.

Đã cập nhật 24 thg 4, 2026 · 11 phút đọc

GPT-5.4 ra mắt ngày 5/3/2026 với vai trò mẫu chủ lực của OpenAI cho công việc chuyên nghiệp, hợp nhất khả năng lập trình và suy luận vào một mẫu đa dụng duy nhất. Sáu tuần sau, vào ngày 16/4, Anthropic phát hành Claude Opus 4.7, xây dựng trên một hướng đi khác: một mẫu có thể tự chủ xử lý các bài toán kỹ thuật dài hạn và giữ tính mạch lạc trong những phiên làm việc mà phần lớn agent thường "vỡ trận".

Đây là thời điểm thích hợp để so sánh trực tiếp, dù cần lưu ý: bài viết này xuất bản cùng ngày Opus 4.7 ra mắt, nên phần lớn số liệu đối đầu bên dưới là do nhà cung cấp báo cáo. Hãy coi chúng là điểm khởi đầu, không phải kết luận.

Cập nhật: OpenAI đã công bố mẫu kế nhiệm của GPT-5.4. Đọc tất cả về nó trong hướng dẫn GPT-5.5 của chúng tôi.

So sánh trực diện Opus 4.7 và GPT-5.4

Dưới đây là bản tham chiếu nhanh trước khi đi vào từng hạng mục. Giá là nơi ẩn chứa nhiều sắc thái thú vị nhất, và chúng tôi sẽ dành một mục riêng để nói về nó.

Thông số chính của cả hai mẫu. Ảnh: Tác giả.

Gemini 3.1 Pro là một lựa chọn thực sự nếu nhu cầu chính của bạn là xử lý tài liệu khối lượng lớn hoặc phân tích pháp lý dài; chi phí mỗi token thấp hơn với cửa sổ ngữ cảnh 2M. Bài viết này tập trung vào so sánh Anthropic và OpenAI.

Cách mỗi nhà cung cấp định vị mẫu của mình nói lên rất nhiều điều về việc họ kỳ vọng bạn sẽ dùng nó cho mục đích gì.

Định vị mẫu và mục đích sử dụng

OpenAI định vị GPT-5.4 là một mẫu đa dụng thống nhất. Nó hấp thụ năng lực lập trình vốn trước đây nằm ở GPT-5.3-Codex, vì vậy nhà phát triển không còn cần định tuyến yêu cầu tới các endpoint khác nhau theo loại tác vụ. Một mẫu, một endpoint, cho mọi tác vụ.

Thông điệp của Anthropic với Opus 4.7 hẹp hơn: một mẫu tối ưu cho "lập trình, agent, sử dụng máy tính, và quy trình doanh nghiệp", với khả năng tự chủ dài hạn là điểm khác biệt chính. Bạn giao các phần việc kỹ thuật khó và tin rằng nó sẽ tự bắt lỗi trước khi báo cáo lại. Cần lưu ý Opus 4.7 là mẫu phổ biến rộng rãi mạnh nhất của Anthropic, nhưng không phải đỉnh cao nhất; Claude Mythos Preview nằm phía trên, giới hạn cho các quy trình an ninh mạng phòng thủ.

Sự khác biệt đó bộc lộ ở các cực trị: các phiên lập trình rất dài, hoặc các pipeline xâu chuỗi hàng chục công cụ.

Lập trình và quy trình agent

Ở cấp độ lập trình theo repository, Opus 4.7 dẫn đầu trên các benchmark mà mỗi nhà cung cấp chọn báo cáo (số liệu đầy đủ bên dưới). Nó giới thiệu cơ chế tự kiểm tra đầu ra, nghĩa là mẫu tự kiểm tra kết quả trước khi báo cáo. Genspark đặc biệt nhấn mạnh khả năng chống lặp vô hạn: Opus 4.7 ít có khả năng mắc kẹt khi lặp đi lặp lại một vấn đề. Đây là thứ bạn chỉ quan tâm sau khi từng thấy một agent lặp 40 phút mà không tiến triển.

GPT-5.4 dẫn trước khoảng sáu điểm trên Terminal-Bench 2.0 (75,1% so với 69,4%), dù Anthropic lưu ý con số của GPT-5.4 đến từ một bộ khung tự báo cáo. GPT-5.4 cũng giới thiệu tính năng điều chỉnh kế hoạch giữa chừng qua Interactive Thinking: trong quá trình suy luận phức tạp, bạn có thể can thiệp trước khi mẫu hoàn tất sinh và điều hướng lại nếu thấy hướng đi sai. Opus 4.7 không có tính năng tương đương. Khoảng cách ở SWE-bench là có thật: chênh sáu điểm trên một benchmark do nhà cung cấp chọn là tín hiệu hữu ích, không phải phán quyết.

Cửa sổ ngữ cảnh và công việc dài ngữ cảnh

Cả hai mẫu hỗ trợ khoảng 1M token; khác biệt nằm ở hóa đơn của bạn khi dùng ngữ cảnh đó. Opus 4.7 tính một mức giá phẳng trên toàn bộ cửa sổ, nên một yêu cầu 900K token có giá mỗi token như một yêu cầu 9K. GPT-5.4 tính $2,50 mỗi triệu khi dưới 272K token đầu vào, nhưng vượt ngưỡng đó thì toàn bộ phiên sẽ bị tính lại. Tôi sẽ nói rõ con số ở phần giá.

Cũng có một điểm về tokenizer: Opus 4.7 có thể ánh xạ cùng một văn bản thành nhiều hơn tới 35% token so với 4.6. Giá trên mỗi token không đổi, nhưng chi phí thực tế mỗi tác vụ có thể tăng.

Về hiệu năng dài ngữ cảnh thực tế, thử nghiệm đối tác cho thấy Opus 4.7 đồng hạng điểm nhất quán cao nhất trên sáu mô-đun nghiên cứu ở mức 0,715. Các pipeline RAG lấp đầy gần giới hạn 1M nên được kiểm thử trên khối lượng công việc riêng của bạn trước khi dựa vào benchmark của nhà cung cấp.

Sử dụng công cụ, đa phương thức và tương tác môi trường

Bề mặt công cụ trông tương tự trên giấy nhưng khác biệt nhiều trong thực tế. Trên OSWorld-Verified (sử dụng máy tính để bàn), Opus 4.7 hiện dẫn 78,0% so với 75,0% của GPT-5.4, cả hai đều cao hơn mốc chuyên gia con người 72,4%. Bức tranh đảo chiều ở nghiên cứu web trên trình duyệt: GPT-5.4 đạt 89,3% trên BrowseComp (bản Pro) so với 79,3% của Opus 4.7. Một tiêu đề "sử dụng máy tính" duy nhất dễ che mờ sự khác biệt desktop so với trình duyệt.

Nâng cấp đa phương thức nổi bật của Opus 4.7 là độ phân giải thị giác: ảnh lên đến 2.576 pixel ở cạnh dài, khoảng 3,75 megapixel, hơn ba lần các mẫu Claude trước đó, xử lý với độ trung thực cao hơn tự động mà không cần tham số API. Đối tác thử nghiệm bảo mật XBOW báo cáo độ sắc nét thị giác tăng từ 54,5% trên Opus 4.6 lên 98,5% trên 4.7, là mức tăng lớn nhất trên một benchmark đơn trong tất cả đánh giá đối tác của lần phát hành này.

Hai mẫu cũng khác nhau ở kiến trúc công cụ. Hệ thống tìm kiếm công cụ của GPT-5.4 tải định nghĩa theo nhu cầu thay vì nhúng tất cả vào prompt, giảm chi phí token trong hệ sinh thái công cụ lớn. Opus 4.7 suy luận qua vấn đề trước khi gọi công cụ, sử dụng ít lượt gọi công cụ hơn; mức dùng công cụ tăng ở các cấp độ nỗ lực cao hơn.

Khả năng điều hướng, độ tin cậy và phong cách đầu ra

Opus 4.7 bám sát chỉ dẫn theo nghĩa đen. Nó sẽ không khái quát từ mục này sang mục khác hoặc suy diễn yêu cầu bạn không nêu, vì vậy các prompt viết cho 4.6 có thể hành xử khó lường; Anthropic khuyến nghị tinh chỉnh lại. Mặt tích cực là độ tin cậy trong các vòng lặp agent dài: đội kỹ sư Ramp ghi nhận cần ít hướng dẫn từng bước hơn đáng kể trong quy trình đa công cụ, và thử nghiệm của Hexagon cho thấy Opus 4.7 ở mức nỗ lực thấp xấp xỉ Opus 4.6 ở mức trung bình.

Anthropic cũng giới thiệu xhigh như một mức nỗ lực mới giữa high và max, và nâng mặc định của Claude Code lên xhigh cho mọi gói. Kết hợp với tokenizer mới, số token đầu ra có thể cao hơn 4.6 ở các lượt agent về sau; Task Budgets (hiện beta công khai) cho phép bạn giới hạn chi tiêu của agent trong một phiên. Câu chuyện về khả năng điều hướng của GPT-5.4 xoay quanh Interactive Thinking, như đã đề cập ở phần lập trình, và hướng dẫn prompt của OpenAI lưu ý mẫu hoạt động tốt khi có ràng buộc đầu ra rõ ràng.

Một lưu ý từ đánh giá an toàn nội bộ của Anthropic: Opus 4.7 cải thiện về tính trung thực và khả năng chống tiêm nhiễm prompt so với 4.6, nhưng hơi thụt lùi ở khả năng kháng lại hướng dẫn giảm hại quá chi tiết về các chất kiểm soát. Đánh giá tổng thể của Anthropic: "cơ bản là phù hợp và đáng tin cậy, dù chưa hoàn toàn lý tưởng trong hành vi."

Opus 4.7 và GPT-5.4 trên các bài kiểm tra benchmark

Benchmark đáng để xem kỹ, và chỉ nên tin tưởng đến một mức độ nhất định. Cả hai nhà cung cấp đều chọn các benchmark có lợi cho họ, và Vals.ai cùng Artificial Analysis vẫn chưa lập chỉ mục Opus 4.7 khi bài viết này được viết. Hãy thử nghiệm trên chính tác vụ của bạn trước khi rút ra kết luận từ bất kỳ số liệu nào.

Benchmark lập trình

Bảng dưới đây tổng hợp bằng chứng lập trình liên quan nhất từ tài liệu phát hành của mỗi bên.

Benchmark	Claude Opus 4.7	GPT-5.4	Ghi chú
SWE-bench Pro	64,3%	57,7%	Nhà cung cấp báo cáo; cấu hình bộ khung khác nhau
SWE-bench Verified	87,6%	Chưa công bố	OpenAI chưa công bố điểm chính thức trên biến thể này
CursorBench	~70%	Chưa công bố	Cursor là đối tác của Anthropic; không độc lập
Terminal-Bench 2.0	69,4%	75,1%	Anthropic lưu ý con số của GPT-5.4 đến từ bộ khung tự báo cáo; GPT-5.4 cũng giảm so với GPT-5.3-Codex (77,3%)
GPQA Diamond	94,2%	94,4% (Pro)	Gần như ngang nhau; đạt mức bão hòa ở cấp này

Các benchmark lập trình nghiêng rõ về Opus 4.7. Ảnh: Tác giả.

SWE-bench có nhiều biến thể và cả hai bên đều làm nổi bật biến thể mà họ làm tốt nhất. Anthropic áp dụng lọc ghi nhớ và báo cáo rằng biên độ của Opus 4.7 vẫn giữ nguyên sau khi loại trừ các vấn đề bị gắn cờ. Bối cảnh đáng chú ý: mẫu open-weight GLM-5.1 của Z.ai từng dẫn đầu SWE-bench Pro ở mức 58,4% đầu tháng 4/2026 trước khi Opus 4.7 đạt 64,3%, nên bất kỳ tuyên bố "tối tân nhất" nào ở đây cũng chóng vánh.

Benchmark cho agent và sử dụng máy tính

Cùng với bản phát hành Opus 4.7, Anthropic công bố số liệu so sánh cho cả hai mẫu trên hầu hết benchmark agent. Bức tranh là pha trộn chứ không một chiều.

Benchmark	Claude Opus 4.7	GPT-5.4	Ghi chú
OSWorld-Verified	78,0%	75,0%	Sử dụng máy tính để bàn; cả hai đều trên mốc chuyên gia 72,4%
BrowseComp	79,3%	89,3% (Pro)	Nghiên cứu web với suy luận nhiều bước; GPT-5.4 dẫn đầu
MCP-Atlas	77,3%	68,1%	Sử dụng công cụ ở quy mô lớn trên nhiều dịch vụ kết nối
WebArena-Verified	Chưa công bố	67,3%	Nhiệm vụ điều hướng web tự động
Toolathlon	Chưa công bố	54,6%	Điều phối công cụ nhiều bước; tăng từ 46,3% trên GPT-5.2
Finance Agent v1.1	64,4%	61,5% (Pro)	Agent nghiên cứu tài chính dài ngữ cảnh
GDPval-AA	1753 Elo	1674 Elo	Công việc tri thức chuyên nghiệp; Opus 4.7 dẫn 79 điểm Elo
BigLaw Bench	90,9% ở mức nỗ lực cao	Chưa công bố	Tác vụ tài liệu pháp lý; đánh giá từ đối tác Harvey

Bức tranh tách theo môi trường: Opus 4.7 thắng ở desktop, sử dụng công cụ và công việc tri thức; GPT-5.4 thắng ở nghiên cứu trên trình duyệt. Vài con số của GPT-5.4 đến từ bản Pro, nên bậc tiêu chuẩn có thể thấp hơn. Bước tiếp theo là các lần chạy độc lập trên cùng một bộ khung.

Giá của Opus 4.7 so với GPT-5.4

Mức giá niêm yết trông đơn giản. Bức tranh chi phí thực tế thì không.

Cấu trúc giá API

Khác biệt về giá dễ hiểu nhất qua vài kịch bản cụ thể.

Với yêu cầu 100K token đầu vào và 10K token đầu ra (dưới xa ngưỡng 272K của GPT-5.4), GPT-5.4 tốn khoảng $0,40 so với $0,75 của Opus 4.7. Gần như bằng nửa giá cho công việc ngữ cảnh ngắn đến trung bình.

Ở mức 500K đầu vào và 20K đầu ra, vượt ngưỡng của GPT-5.4, hai mẫu có chi phí gần như nhau: $2,95 so với $3,00. Ở mức 900K đầu vào và 10K đầu ra, chúng hầu như tương đồng.

Ngưỡng 272K để tính lại giá là thứ khiến nhiều người bất ngờ: nó áp dụng cho toàn bộ phiên, không chỉ phần token vượt ngưỡng. Một pipeline thường xuyên gửi prompt 280K token sẽ phải trả mức giá dài ngữ cảnh đầy đủ cho mọi yêu cầu, không chỉ phần 8K thêm ra. Đây là tính lại theo phiên, không phải phụ phí cận biên.

Chi phí GPT-5.4 tăng sau 272K token. Ảnh: Tác giả.

Như đã đề cập ở phần cửa sổ ngữ cảnh, tokenizer mới có thể ánh xạ cùng đầu vào thành nhiều hơn tới 35% token so với Opus 4.6. Giá mỗi token không đổi, nhưng chi phí thực tế mỗi tác vụ có thể tăng. Hãy đo lường trên lưu lượng thực; nội suy từ đường cơ sở 4.6 sẽ cho ra con số thấp hơn thực tế.

Cả hai nền tảng đều giảm giá khoảng 90% cho token đầu vào được cache: $0,50 mỗi triệu cho Opus 4.7, $0,25 mỗi triệu cho GPT-5.4 dưới 272K. Batch API giảm thêm khoảng 50% cho công việc không gấp. Với tác vụ bất đồng bộ, các mức giảm này là đòn bẩy lớn nhất trên cả hai nền tảng.

Cũng có chi phí theo từng công cụ thường bị bỏ sót. Anthropic tính $10 cho mỗi 1.000 lượt tìm kiếm web, cộng chi phí token tiêu chuẩn cho nội dung truy xuất. OpenAI tính phí lưu trữ và truy vấn cho file search riêng. Những khoản này sẽ cộng dồn trong các pipeline nặng công cụ.

Chi phí theo loại khối lượng công việc

Với công việc ngữ cảnh ngắn, khối lượng lớn (gọi API dưới 100K token, phân loại theo lô, lặp nhanh), GPT-5.4 rẻ hơn. Chênh lệch chi phí đầu vào có thể gần gấp đôi.

Vượt 272K token, lợi thế đảo chiều. Mức giá phẳng của Opus 4.7 dễ dự trù hơn và gần như ngang GPT-5.4 về tổng chi phí.

Cả hai nền tảng đều thu một khoản phụ phí cư trú dữ liệu nhỏ (khoảng 10% mỗi bên). Ở mức này, đó là quyết định tuân thủ, không phải quyết định về giá. Với các phiên Claude Code dạng agent, Task Budgets (đã đề cập ở phần khả năng điều hướng) là đòn bẩy chính cho chi tiêu token.

Claude Opus 4.7 có tốt hơn GPT-5.4 không?

Không có câu trả lời chung cho mọi trường hợp, và bất kỳ bài viết nào nói rằng có một đáp án duy nhất đều đang bán thứ gì đó.

Chọn Claude Opus 4.7 nếu công việc chính của bạn là kỹ thuật phần mềm chạy lâu nơi tự kiểm tra có ý nghĩa, agent của bạn vận hành ứng dụng desktop, prompt của bạn thường vượt 272K token, quy trình cần đọc ảnh chụp màn hình dày đặc hoặc sơ đồ kỹ thuật, hoặc bạn đã dùng Claude Code, Cursor, Replit, hay Devin.

Chọn GPT-5.4 nếu agent của bạn thực hiện nghiên cứu web nặng trên trình duyệt, khối lượng công việc ở dưới 272K token và chi phí là yếu tố quan trọng, bạn muốn tải công cụ theo nhu cầu trong hệ sinh thái công cụ lớn, hoặc đội ngũ của bạn đã dùng OpenAI Responses API.

Cân nhắc thử cả hai nếu công việc của bạn chia đều giữa nghiên cứu web tự động và lập trình dài hạn. Thế mạnh trình duyệt và terminal của GPT-5.4 phù hợp các quy trình agent trên web; khả năng chống lặp và giá phẳng của Opus 4.7 phù hợp hơn cho các phiên kỹ thuật chuyên sâu và pipeline nặng tài liệu.

Chọn đúng mẫu cho quy trình của bạn. Ảnh: Tác giả.

Một điều xuyên suốt cả hai lựa chọn: giảm giá của Batch API có thể quan trọng hơn quyết định chọn mẫu đối với các tác vụ bất đồng bộ. Và vì benchmark độc lập cho Opus 4.7 vẫn đang bắt kịp, một thử nghiệm thí điểm trên phần việc thực tế của chính bạn đáng giá hơn bất kỳ bài so sánh nào, kể cả bài này.

Kết luận

Khoảng cách giữa Claude Opus 4.7 và GPT-5.4 ít liên quan đến việc mẫu nào "thông minh" hơn, mà liên quan đến hình thái công việc bạn đang làm.

Anthropic đặt cược vào sự tự chủ: một mẫu được xây dựng để duy trì mạch lạc qua các đợt chạy kỹ thuật dài và tự kiểm tra đầu ra. OpenAI đặt cược vào bề rộng: bề mặt công cụ rộng hơn và mức giá rẻ hơn cho đa số prompt nằm dưới 272K token.

Giá là nơi nhiều đội ngũ dễ bị bất ngờ, và như tôi đã đề cập, việc đổi giá ở ngưỡng 272K mỗi phiên là chiếc bẫy cụ thể. Thứ thực sự ảnh hưởng chi tiêu hàng tháng nhiều hơn quyết định mức giá cơ bản thường là caching và giảm giá Batch API ở cả hai nền tảng.

Khoảng cách benchmark chỉ ở mức một chữ số, và cả hai nhà cung cấp đều tung mẫu mới vài tuần một lần. Hãy chọn mẫu phù hợp với stack thực tế của bạn và xem xét lại sau một tháng.

Nếu bạn muốn đào sâu cách đưa các mẫu này vào công việc, khóa học Phát triển Phần mềm với Cursor của chúng tôi bao quát quy trình lập trình với AI trong thực tế.

Author

Khalid Abdelaty

Claude Opus 4.7 có sẵn ngoài API của Anthropic không?

Tôi có cần cập nhật mã API khi chuyển từ Opus 4.6 sang Opus 4.7 không?

Có, ba thay đổi phá vỡ. Thiết lập temperature, top_p hoặc top_k khác mặc định giờ sẽ trả lỗi 400. Tham số cũ budget_tokens không còn dùng được; thay bằng chế độ thinking thích ứng. Và tokenizer mới tạo ra nhiều token hơn mỗi yêu cầu, nên bất kỳ trần max_tokens cài cứng nào vốn đã chặt trên 4.6 có thể sẽ cắt mất đầu ra trên 4.7. Hãy tinh chỉnh lại prompt của bạn: 4.7 bám sát chỉ dẫn theo nghĩa đen hơn 4.6.

Mẫu nào tốt hơn cho lập trình?

Thay đổi tokenizer của Opus 4.7 ảnh hưởng chi phí thế nào?

GPT-5.4 có dùng công cụ tốt hơn Claude Opus 4.7 không?

Theo những cách khác nhau. GPT-5.4 có bề mặt công cụ tích hợp rộng hơn (tìm kiếm web, tìm kiếm tệp, bộ thông dịch mã, sử dụng máy tính) với tải công cụ theo nhu cầu. Opus 4.7 dùng ít lượt gọi công cụ hơn và suy luận trước. Notion báo cáo Opus 4.7 là mẫu đầu tiên vượt qua các bài kiểm tra nhu cầu ngầm của họ và tạo ra số lỗi công cụ bằng một phần ba của 4.6. Trên MCP-Atlas (sử dụng công cụ ở quy mô), Opus 4.7 dẫn 77,3% so với 68,1%, nên bề mặt rộng hơn không tự động đồng nghĩa điều phối tốt hơn.

Chủ đề

Trí tuệ Nhân tạo