Claude Opus 4.8 vs Gemini 3.5 Flash: So sánh điểm chuẩn và trường hợp sử dụng

So sánh Claude Opus 4.8 và Gemini 3.5 Flash trên MCP Atlas, SWE-bench Pro và GDPval, cùng giá và tốc độ, để tìm mô hình phù hợp cho công việc của bạn.

Đã cập nhật 9 thg 6, 2026 · 9 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Các quy trình agentic đã định hình nửa đầu năm 2026, đặc biệt trong mảng lập trình: những mô hình nhận một prompt duy nhất và tự hoàn tất nhiệm vụ. Cuộc đua hiện chạy đồng thời trên ba trục: năng lực, tốc độ và giá. Anthropic và Google đang đặt những cược khác nhau khá rõ rệt.

Bài viết này so sánh hai bản phát hành gần đây: Gemini 3.5 Flash của Google, công bố tại Google I/O, và Claude Opus 4.8 của Anthropic, ra mắt ngày 28/5. Chúng không cùng hạng. Một bên là “ngựa thồ” nhanh, rẻ; bên kia là mẫu cao cấp đầu bảng. Chính khoảng cách đó khiến màn so kè đáng giá, vì nó buộc ta phải hỏi: khi nào nên trả tiền cho năng lực thô vượt trội.

Trong bài, tôi sẽ so sánh hai mô hình về điểm chuẩn, chi phí và tốc độ, rồi chỉ ra mô hình nào phù hợp với công việc nào. Bạn cũng có thể xem các bài phân tích sâu hơn trong phần tổng quan Gemini 3.5 Flash và bài viết về Claude Opus 4.8.

Tóm lược

Opus 4.8 là mô hình mạnh hơn tổng thể. Dẫn đầu Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo) và Humanity's Last Exam.
Gemini 3.5 Flash rẻ và nhanh hơn nhiều: $1,50/$9 cho mỗi triệu token so với $5/$25 của Opus 4.8, và tốc độ 192,2 token/giây so với 66,8.
Gemini 3.5 Flash hỗ trợ đầu vào đa phương thức (video, âm thanh, PDF), trong khi Opus 4.8 chỉ xử lý văn bản và hình ảnh.
Chọn Opus 4.8 khi chất lượng nhiệm vụ và rủi ro ảo giác kéo theo chi phí thực. Chọn Gemini 3.5 Flash cho các pipeline khối lượng lớn, đa phương thức, nhạy cảm về chi phí.

Claude Opus 4.8 là gì?

Claude Opus 4.8 là mô hình đầu bảng của Anthropic và là bản kế nhiệm Opus 4.7, được xây dựng cho lập luận phức tạp và mã hóa agentic dài hạn. Hiện dẫn đầu Artificial Analysis Intelligence Index với 61,4 điểm.

Mô hình này cũng dẫn đầu bảng xếp hạng GDPval-AA, chấm điểm mô hình trên các nhiệm vụ thực tế ở nhiều ngành nghề, và điểm chuẩn ITBench-AA mới, kiểm tra khả năng tác nhân chẩn đoán nguyên nhân gốc của sự cố Kubernetes từ các snapshot sự cố đã lưu.

Tính năng và khả năng chính

Thông số nổi bật:

cửa sổ ngữ cảnh 1 triệu token với tối đa 128K token đầu ra
tư duy thích ứng là chế độ tư duy duy nhất được hỗ trợ
tham số effort hiện mặc định mức cao ở mọi nơi, bao gồm cả Claude Code

Opus 4.8 cũng bổ sung chế độ nhanh, hiện là bản xem trước nghiên cứu, cho tốc độ token đầu ra cao hơn tới 2,5 lần với giá $10/$50 cho mỗi triệu token vào/ra. Đó là gấp đôi giá Opus 4.8 chuẩn, nhưng chỉ bằng một phần ba chi phí fast mode trên Opus 4.7.

Messages API hiện chấp nhận các mục system bên trong mảng messages, vì vậy bạn có thể cập nhật hướng dẫn của Claude giữa nhiệm vụ mà không cần khởi động lại cuộc hội thoại. Bạn có thể đẩy quyền, ngân sách token hoặc ngữ cảnh môi trường mà không làm vỡ bộ nhớ đệm prompt.

Độ dài prompt tối thiểu có thể cache cũng giảm xuống 1.024 token, từ 4.096 trên Opus 4.7, nên prompt ngắn hơn nay có thể được cache.

So với Opus 4.7, mức cải thiện thể hiện trên nhiều điểm chuẩn, theo Artificial Analysis:

Terminal-Bench Hard: +6,6 điểm
τ²-Bench Telecom, mô phỏng các tình huống hỗ trợ kỹ thuật: +5,8 điểm
IFBench, đo lường khả năng bám sát hướng dẫn chính xác: +3,6 điểm

Mô hình này cũng đứng đầu Humanity's Last Exam, đạt 49,8% khi không dùng công cụ và 57,9% khi dùng công cụ.

Ưu và nhược điểm

Trong công việc agentic, Opus 4.8 là lựa chọn mạnh nhất trong so sánh này. Mô hình xếp hạng nhất trên Artificial Analysis Agentic Index, bao gồm các tác vụ như lập trình.

Cái giá phải trả là chi phí. Mức giá giữ nguyên so với Opus 4.7 ở $5/$25 cho mỗi triệu token vào/ra, khá cao cho khối lượng lớn. Điều khiển sampling vẫn chưa có: temperature, top_p và top_k đều báo lỗi nếu bạn thiết lập.

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là mô hình mới nhất của Google, được xây dựng cho tốc độ ở mức chất lượng cận biên tiên phong, như chúng tôi đề cập trong phần tổng quan Gemini 3.5 Flash. Mô hình đạt 76,2% trên Terminal-Bench 2.1 và 1.656 Elo trên GDPval-AA.

Tính năng và khả năng chính

Flash nhận văn bản, hình ảnh, video, âm thanh và PDF làm đầu vào, với hỗ trợ đầy đủ theo mức tư duy. Bộ tính năng cốt lõi:

đầu vào khoảng 1 triệu token (1.048.576 token) với giới hạn đầu ra 65.536 token
Batch API và bộ nhớ đệm prompt
thực thi mã và gọi hàm
search grounding và đầu ra có cấu trúc

Trên các điểm chuẩn, mô hình đạt 83,6% trên MCP Atlas cho điều phối tác nhân đa công cụ và 84,2% trên CharXiv Reasoning cho hiểu biết đa phương thức. Mô hình đứng thứ 7 trên Artificial Analysis Intelligence Index, khá mạnh đối với một mẫu hạng Flash, và đứng thứ 6 trên Agentic Index, sát với Opus 4.7.

Gemini 3.5 Flash cũng hỗ trợ native bộ khung đa tác nhân Antigravity. Giao diện Antigravity trong bản này được làm lại để giống các ứng dụng OpenAI Codex và Cursor.

Ưu và nhược điểm

Điểm bán của Flash là “trí tuệ trên mỗi đô”: đạt 55 điểm trên Artificial Analysis Intelligence Index với $1,50 cho mỗi triệu token vào và $9 cho mỗi triệu token ra, mức năng lực hiếm thấy ở tầm giá này.

Hỗ trợ đa phương thức native cũng là điểm cộng khác, bao gồm video và âm thanh. Hệ thống tư duy bốn mức (tối thiểu, thấp, trung bình, cao) cũng cho phép bạn kiểm soát chi phí và hiệu năng chi tiết hơn so với cài đặt effort đơn của Opus 4.8.

Điểm nổi bật, tuy nhiên, là khả năng dùng công cụ theo kiểu agentic. Flash đạt 83,6% trên MCP Atlas, kết quả điều phối đa công cụ tốt nhất trong so sánh này và thậm chí vượt Opus 4.8 ở mức 82,2%. Một mô hình hạng Flash vượt qua mẫu cao cấp mới nhất của Anthropic trên điểm chuẩn này là điều hiếm khi thấy theo ranh giới hạng.

Có hai lưu ý lớn. Trong lần chạy Intelligence Index, Flash tạo 73 triệu token so với mức trung bình 35 triệu, tức là khá dài dòng, và độ dài đó sẽ đội chi phí đầu ra. Thời gian đến token đầu tiên là 18,88 giây, cao so với nhóm, nơi các mô hình tương đương khoảng hai giây.

Để xem Flash so kè thế nào với mẫu đầu bảng của OpenAI, chúng tôi so sánh trong bài Gemini 3.5 Flash vs. GPT-5.5.

Claude Opus 4.8 vs Gemini 3.5 Flash: So kè trực diện

Đây là phần tham chiếu nhanh trước khi đi từng hạng mục.

Thuộc tính	Claude Opus 4.8	Gemini 3.5 Flash
Ngày phát hành	28/5/2026	19/5/2026
Cửa sổ ngữ cảnh	1M token	1M token
Tối đa token đầu ra	128K	65.536
Intelligence Index (AA)	61,4	55
GDPval-AA Elo	1.890	1.656
Tốc độ đầu ra	66,8 token/giây	192,2 token/giây
Các phương thức đầu vào	Văn bản, hình ảnh	Văn bản, hình ảnh, video, âm thanh, PDF
Giá đầu vào	$5 / 1M token	$1,50 / 1M token
Giá đầu ra	$25 / 1M token	$9 / 1M token
Chế độ tư duy	Chỉ thích ứng	Tối thiểu / thấp / trung bình / cao

Hiệu năng agentic và lập trình

Opus 4.8 là tác nhân mạnh hơn, nhưng Flash bám khá sát so với hạng. Opus 4.8 dẫn đầu GDPval-AA với 1.890 Elo so với 1.656 của Flash, nên tốt hơn cho công việc tri thức.

MCP Atlas là bất ngờ. Flash đạt 83,6% trên điểm chuẩn điều phối đa công cụ này, nhỉnh hơn mức 82,2% của Opus 4.8. Một mô hình Flash vượt qua mẫu đầu bảng mới nhất của Anthropic về khả năng dùng công cụ dạng agentic là điều thực sự khó lường, và đây là lập luận rõ ràng nhất cho Flash trong so sánh này.

SWE-bench Pro thì ngược lại. Điểm chuẩn này kiểm tra khả năng giải quyết ticket kỹ thuật phần mềm thực tế, và Opus 4.8 đạt 69,2%, chỉ sau Mythos Preview nội bộ của Anthropic. Flash đạt 55,0%, kém Opus ở mức chênh lệch hợp lý theo hạng, nhưng vẫn đáng chú ý: vượt 54,2% của Gemini 3.1 Pro, nên bản Flash này đã bắt kịp hạng Pro của thế hệ trước.

Trên Terminal-Bench Hard, Opus 4.8 đạt 58,3% so với 40,9% của Flash, khiến nó là lựa chọn tốt hơn cho kỹ nghệ phần mềm dựa trên terminal, quản trị hệ thống và xử lý dữ liệu. Flash có chỗ đứng khi bạn chạy song song nhiều vòng lặp mã, và tốc độ cùng chi phí quan trọng hơn độ chính xác đỉnh.

Lập luận và nhiệm vụ khoa học

Opus 4.8 vượt trội rõ rệt ở lập luận học thuật. Mô hình đạt 57,9% trên Humanity's Last Exam so với 40,25% của Flash, thuận lợi cho công việc toán, khoa học và nhân văn.

Hỗ trợ đầu vào đa phương thức

Khoản này Flash thắng trọn. Opus 4.8 đọc văn bản và hình ảnh; Flash còn đọc cả video, âm thanh và PDF. Nếu pipeline của bạn đụng đến các định dạng đó, Flash là lựa chọn duy nhất trong hai mô hình này có thể xử lý.

Tốc độ và độ trễ

Flash nhanh hơn khoảng ba lần ở đầu ra. Artificial Analysis đo được 192,2 token đầu ra mỗi giây so với 66,8 của Opus 4.8.

Chi phí và hiệu suất token

Token đầu ra là nơi khoảng cách “đau”: $25 mỗi triệu trên Opus 4.8 so với $9 trên Flash, tức Opus đắt hơn khoảng 2,8 lần. Với pipeline khối lượng lớn, chênh lệch đó cộng dồn rất nhanh.

Cửa sổ ngữ cảnh và sức chứa đầu ra

Cả hai nhận tối đa 1 triệu token đầu vào, nên khác biệt nằm ở đầu ra. Opus 4.8 có thể viết tới 128K token trong một lượt so với 65.536 của Flash, gần gấp đôi. Với tổng hợp mã dài, tạo tài liệu, hoặc các vòng lặp agentic cần đầu ra lớn trong một lần, phần dư địa đó rất quan trọng.

Bạn nên chọn mô hình nào?

Cốt lõi là bạn trả tiền cho năng lực hay cho thông lượng. Tôi sẽ chia như sau.

Chọn Claude Opus 4.8 nếu…

Chất lượng hoàn thành tác vụ có hệ quả trực tiếp. Elo 1.890 trên GDPval-AA và tỷ lệ ảo giác thấp hơn các mô hình của Google và OpenAI trên AA-Omniscience khiến nó an toàn hơn cho công việc tri thức đòi hỏi độ chính xác cao.
Bạn cần 128K token đầu ra cho tạo sinh lớn trong một lần, gần gấp đôi 65.536 của Flash.
Bạn đã xây dựng trong hệ sinh thái Anthropic thông qua Claude Code hoặc API, và việc chuyển đổi là rào cản.
Vòng lặp agentic của bạn chạy đủ lâu để các tin nhắn system giữa hội thoại có ý nghĩa, vì Messages API giờ cập nhật quyền, ngân sách token hoặc ngữ cảnh giữa nhiệm vụ mà không làm vỡ cache prompt.

Chọn Gemini 3.5 Flash nếu…

Pipeline của bạn nạp video, âm thanh hoặc PDF.
Bạn cần sản lượng đầu ra lớn, nơi mức $9 so với $25 cho mỗi triệu token sẽ thay đổi bài toán chi phí.
Bạn muốn điểm điều phối đa công cụ mạnh nhất, vì Flash dẫn đầu MCP Atlas ở mức 83,6%, vượt cả Opus 4.8 ở 82,2%.
Bạn xây dựng trên hạ tầng Google qua Antigravity hoặc Vertex AI và muốn gắn với một nhà cung cấp.
Kiểm soát chi phí tinh vi quan trọng, nơi hệ tư duy bốn mức của Flash nhỉnh hơn cài đặt effort đơn của Opus 4.8.

Tiếp theo là gì cho Flash và các mẫu đầu bảng

Mẫu Flash này đắt hơn nhiều so với các bản Flash trước đây, và Google đã bị chỉ trích vì điều đó. Khoảng cách trí tuệ giữa hạng Flash và Opus vẫn đáng kể, làm suy yếu lập luận trả gần mức giá đầu bảng cho một mẫu Flash. Cuộc đua thú vị hơn là một mẫu nhỏ thực sự giỏi về lập trình và công việc agentic đồng thời giữ mức giá rẻ như Composer 2.5 của Cursor Composer 2.5.

Chế độ nhanh của Anthropic là thứ đáng theo dõi cho mã hóa agentic, nhưng giá sẽ là rào cản. Ở mức $10/$50, rất khó thuyết phục các nhà phát triển chạy vòng lặp dài, và mức độ chấp nhận phụ thuộc vào việc Anthropic cân nhắc lại con số đó.

Anthropic vẫn tập trung vào lập trình, nên tôi nghi ngờ họ sẽ đuổi theo Google ở đầu vào video và âm thanh trong tương lai gần. Điều đó trao cho Google một cơ hội, nhưng chỉ nếu họ có thể ra mắt một mẫu Flash hoặc đầu bảng vượt Opus ở các tác vụ agentic. Đến lúc này thì chưa.

Kết luận

Nếu chất lượng tác vụ và rủi ro ảo giác mang lại chi phí thực, chẳng hạn trong tài chính hoặc y tế, Opus 4.8 là mô hình nên dùng. Nếu bạn tối ưu cho thông lượng, chi phí hoặc đầu vào đa phương thức, Gemini 3.5 Flash phù hợp hơn.

Quan điểm của tôi: hai mô hình thực ra không cạnh tranh cho cùng một công việc, và hầu hết đội ngũ sẽ biết mình thuộc bên nào chỉ sau một câu mô tả khối lượng công việc. Câu hỏi khó hơn là liệu Google có thể thu hẹp khoảng cách năng lực mà không đánh mất lợi thế giá khiến Flash đáng dùng hay không. Google đã chạy nội bộ Gemini 3.5 Pro, và bản phát hành đó, chứ không phải Flash, nhiều khả năng mới tạo áp lực thực sự lên Opus 4.8.

Nếu bạn muốn mài giũa các kỹ năng giúp trợ lý AI đáng tin cậy hơn trong quy trình của riêng mình, tôi sẽ bắt đầu với khóa AI-Assisted Coding for Developers. Và nếu bạn muốn xây dựng ứng dụng LLM với prompt, chuỗi và tác nhân, khóa Developing LLM Applications with LangChain là bước tiếp theo vững chắc.