Chuyển đến nội dung chính

Claude Opus 4.8 vs Gemini 3.5 Flash: So sánh điểm chuẩn và trường hợp sử dụng

So sánh Claude Opus 4.8 và Gemini 3.5 Flash trên MCP Atlas, SWE-bench Pro và GDPval, cùng giá và tốc độ, để tìm mô hình phù hợp cho công việc của bạn.
Đã cập nhật 9 thg 6, 2026  · 9 phút đọc

Các quy trình làm việc kiểu tác tử đã định hình nửa đầu năm 2026, đặc biệt trong lập trình: mô hình nhận một lời nhắc và tự hoàn thành nhiệm vụ. Cuộc đua hiện diễn ra đồng thời trên ba trục: năng lực, tốc độ và giá. Anthropic và Google đang đặt cược theo những hướng khác nhau rõ rệt.

Bài viết này so sánh hai bản phát hành gần đây: Gemini 3.5 Flash của Google, công bố tại Google I/O, và Claude Opus 4.8 của Anthropic, ra mắt ngày 28/5. Chúng không cùng hạng. Một bên là cỗ máy chạy nhanh, giá rẻ; bên kia là mẫu cao cấp đầu bảng. Chính khoảng cách đó khiến cuộc so kè này đáng thực hiện, vì nó buộc phải trả lời câu hỏi: khi nào năng lực thô đáng để trả thêm tiền.

Trong bài này, tôi sẽ so sánh hai mô hình về điểm chuẩn, chi phí và tốc độ, rồi chỉ ra mô hình nào hợp với công việc nào. Bạn cũng có thể xem phân tích chuyên sâu trong phần tổng quan về Gemini 3.5 Flash và bài viết về Claude Opus 4.8 của chúng tôi.

Tóm tắt nhanh

  • Opus 4.8 là mô hình có năng lực cao hơn về tổng thể. Nó dẫn đầu Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo) và Humanity's Last Exam.
  • Gemini 3.5 Flash rẻ và nhanh hơn nhiều: $1,50/$9 mỗi triệu token so với $5/$25 của Opus 4.8, và tốc độ 192,2 token đầu ra mỗi giây so với 66,8.
  • Gemini 3.5 Flash nhận đầu vào đa phương thức (video, âm thanh, PDF), trong khi Opus 4.8 chỉ xử lý văn bản và hình ảnh.
  • Chọn Opus 4.8 khi chất lượng nhiệm vụ và rủi ro ảo giác đi kèm chi phí thực. Chọn Gemini 3.5 Flash cho các pipeline khối lượng lớn, đa phương thức, nhạy cảm về chi phí.

Claude Opus 4.8 là gì?

Claude Opus 4.8 là mô hình đầu bảng của Anthropic và là hậu duệ của Opus 4.7, xây dựng cho suy luận phức tạp và lập trình tác tử đường dài. Hiện nó đứng đầu Artificial Analysis Intelligence Index với 61,4 điểm.

Nó cũng dẫn đầu bảng xếp hạng GDPval-AA, chấm điểm mô hình trên các nhiệm vụ thực tế trong nhiều ngành nghề, và điểm chuẩn ITBench-AA mới, kiểm tra khả năng tác tử chẩn đoán nguyên nhân gốc của sự cố Kubernetes từ các bản chụp sự cố đã lưu.

Tính năng và năng lực chính

Thông số nổi bật:

  • cửa sổ ngữ cảnh 1 triệu token với tối đa 128K token đầu ra
  • tư duy thích ứng là chế độ suy nghĩ duy nhất được hỗ trợ
  • tham số effort nay mặc định ở mức cao ở mọi nơi, bao gồm cả Claude Code

Opus 4.8 cũng bổ sung chế độ nhanh, hiện là bản xem trước nghiên cứu, mang lại tốc độ token đầu ra cao hơn tới 2,5 lần ở mức $10/$50 mỗi triệu token vào/ra. Giá này gấp đôi Opus 4.8 tiêu chuẩn, nhưng chỉ bằng một phần ba chi phí fast mode trên Opus 4.7.

Messages API nay chấp nhận mục system bên trong mảng messages, nên bạn có thể cập nhật hướng dẫn cho Claude giữa nhiệm vụ mà không cần khởi động lại hội thoại. Bạn có thể đẩy quyền, ngân sách token, hoặc ngữ cảnh môi trường mà không làm hỏng bộ đệm prompt.

Độ dài prompt tối thiểu có thể lưu vào bộ đệm cũng giảm xuống 1.024 token, từ 4.096 trên Opus 4.7, nên prompt ngắn hơn nay cũng được cache.

So với Opus 4.7, mức cải thiện thể hiện trên nhiều điểm chuẩn, theo Artificial Analysis:

  • Terminal-Bench Hard: +6,6 điểm
  • τ²-Bench Telecom, mô phỏng các tình huống hỗ trợ kỹ thuật: +5,8 điểm
  • IFBench, đo lường khả năng tuân thủ hướng dẫn chính xác: +3,6 điểm

Nó cũng đứng đầu Humanity's Last Exam, đạt 49,8% không dùng công cụ và 57,9% khi có công cụ.

Ưu và nhược điểm

Trong công việc tác tử, Opus 4.8 là lựa chọn mạnh nhất trong so sánh này. Nó xếp hạng nhất trên Artificial Analysis Agentic Index, bao gồm các tác vụ như lập trình.

Chi phí là điểm nghẽn. Giá không đổi so với Opus 4.7 ở mức $5/$25 mỗi triệu token vào/ra, khá cao cho khối lượng lớn. Điều khiển sampling vẫn chưa có: temperaturetop_p và top_k đều báo lỗi nếu bạn thiết lập.

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là mô hình mới nhất của Google, tối ưu cho tốc độ với chất lượng gần mức đầu bảng, như chúng tôi đề cập trong phần tổng quan Gemini 3.5 Flash. Nó đạt 76,2% trên Terminal-Bench 2.1 và 1.656 Elo trên GDPval-AA.

Tính năng và năng lực chính

Flash nhận văn bản, hình ảnh, video, âm thanh và PDF làm đầu vào, với đầy đủ mức độ suy nghĩ. Bộ tính năng cốt lõi:

  • bối cảnh đầu vào khoảng 1 triệu token (1.048.576 token) với giới hạn đầu ra 65.536 token
  • Batch API và bộ đệm prompt
  • thực thi mã và gọi hàm
  • search grounding và đầu ra có cấu trúc

Trên các điểm chuẩn, nó đạt 83,6% trên MCP Atlas cho điều phối tác tử đa công cụ và 84,2% trên CharXiv Reasoning cho hiểu biết đa phương thức. Nó đứng thứ 7 trên Artificial Analysis Intelligence Index, rất mạnh với một mô hình hạng Flash, và thứ 6 trên Agentic Index, sát Opus 4.7.

Gemini 3.5 Flash cũng hỗ trợ nguyên bản bộ khung đa tác tử Antigravity. Giao diện của Antigravity đã được thiết kế lại trong bản phát hành này để giống các ứng dụng OpenAI Codex và Cursor.

Ưu và nhược điểm

Điểm chào hàng của Flash là trí tuệ trên mỗi đô: điểm 55 trên Artificial Analysis Intelligence Index với $1,50 mỗi triệu token đầu vào và $9 mỗi triệu token đầu ra, mức năng lực hiếm thấy ở tầm giá này.

Đầu vào đa phương thức nguyên bản là điểm cộng khác, bao gồm video và âm thanh. Hệ thống suy nghĩ bốn cấp (tối thiểu, thấp, trung bình, cao) cũng cho phép bạn kiểm soát chi phí và hiệu năng tinh hơn so với cài đặt effort đơn của Opus 4.8.

Điểm nổi bật nhất là sử dụng công cụ theo kiểu tác tử. Flash đạt 83,6% trên MCP Atlas, kết quả điều phối đa công cụ tốt nhất trong so sánh này và thậm chí vượt Opus 4.8 ở mức 82,2%. Một mô hình hạng Flash dẫn trước flagship mới nhất của Anthropic trên điểm chuẩn này là điều hiếm khi thấy giữa các hạng.

Tuy nhiên có hai lưu ý. Trong lần chạy Intelligence Index, Flash tạo 73 triệu token so với mức trung bình 35 triệu, nên nó dài dòng, và sự dài dòng đó khiến bạn tốn phí đầu ra. Thời gian đến token đầu tiên là 18,88 giây, cao so với hạng này, nơi các mô hình tương đương khoảng hai giây.

Để xem Flash so kè với flagship của OpenAI thế nào, chúng tôi so sánh trong bài Gemini 3.5 Flash vs. GPT-5.5.

Claude Opus 4.8 vs Gemini 3.5 Flash: So sánh trực diện

Đây là phần tham chiếu nhanh trước khi đi vào từng hạng mục.

Thuộc tính Claude Opus 4.8 Gemini 3.5 Flash
Ngày phát hành 28/05/2026 19/05/2026
Cửa sổ ngữ cảnh 1 triệu token 1 triệu token
Tối đa token đầu ra 128K 65.536
Intelligence Index (AA) 61,4 55
GDPval-AA Elo 1.890 1.656
Tốc độ đầu ra 66,8 token/giây 192,2 token/giây
Kiểu đầu vào Văn bản, hình ảnh Văn bản, hình ảnh, video, âm thanh, PDF
Giá đầu vào $5 / 1 triệu token $1,50 / 1 triệu token
Giá đầu ra $25 / 1 triệu token $9 / 1 triệu token
Chế độ suy nghĩ Chỉ thích ứng Tối thiểu / thấp / trung bình / cao

Hiệu năng tác tử và lập trình

Opus 4.8 là tác tử mạnh hơn, nhưng Flash bám khá sát so với hạng của nó. Opus 4.8 dẫn đầu GDPval-AA với 1.890 Elo so với 1.656 của Flash, nên nó làm việc tri thức tốt hơn.

MCP Atlas là bất ngờ. Flash đạt 83,6% trên điểm chuẩn điều phối đa công cụ này, nhỉnh hơn 82,2% của Opus 4.8. Một mô hình Flash vượt flagship mới nhất của Anthropic về sử dụng công cụ theo kiểu tác tử là điều thực sự bất ngờ, và đây là luận điểm rõ ràng nhất cho Flash trong so sánh này.

SWE-bench Pro cho kết quả ngược lại. Điểm chuẩn này kiểm tra khả năng mô hình xử lý ticket kỹ thuật phần mềm thực tế, và Opus 4.8 đạt 69,2%, chỉ sau Mythos Preview nội bộ của Anthropic. Flash đạt 55,0%, kém Opus theo đúng khoảng cách giữa các hạng, nhưng vẫn đáng chú ý: nó vượt 54,2% của Gemini 3.1 Pro, nghĩa là bản Flash này đã bắt kịp hạng Pro của thế hệ trước.

Trên Terminal-Bench Hard, Opus 4.8 đạt 58,3% so với 40,9% của Flash, khiến nó là lựa chọn tốt hơn cho kỹ thuật phần mềm dựa trên terminal, quản trị hệ thống và xử lý dữ liệu. Flash có chỗ đứng khi bạn chạy các vòng lặp lập trình song song, và tốc độ cùng chi phí quan trọng hơn độ chính xác cao nhất.

Suy luận và tác vụ khoa học

Opus 4.8 vượt trội rõ ràng trong suy luận học thuật. Nó đạt 57,9% trên Humanity's Last Exam so với 40,25% của Flash, thuận lợi cho toán, khoa học và nhân văn.

Hỗ trợ đầu vào đa phương thức

Khoản này Flash thắng tuyệt đối. Opus 4.8 đọc văn bản và hình ảnh; Flash còn đọc cả video, âm thanh và PDF. Nếu pipeline của bạn chạm vào các định dạng đó, Flash là lựa chọn duy nhất trong hai mô hình có thể xử lý.

Tốc độ và độ trễ

Flash nhanh hơn khoảng ba lần về đầu ra. Artificial Analysis đo được 192,2 token đầu ra mỗi giây so với 66,8 của Opus 4.8.

Chi phí và hiệu quả token

Token đầu ra là nơi khoảng cách trở nên đắt đỏ: $25 mỗi triệu trên Opus 4.8 so với $9 trên Flash, nên Opus đắt hơn khoảng 2,8 lần. Với pipeline khối lượng lớn, chênh lệch này cộng dồn rất nhanh.

Cửa sổ ngữ cảnh và khả năng đầu ra

Cả hai đều nhận 1 triệu token đầu vào, nên khác biệt nằm ở đầu ra. Opus 4.8 có thể viết tối đa 128K token trong một lượt so với 65.536 của Flash, gần gấp đôi. Với tổng hợp mã dài, tạo tài liệu dài hoặc các vòng lặp tác tử cần đầu ra lớn trong một lần, khoảng trống này rất quan trọng.

Bạn nên chọn mô hình nào?

Vấn đề là bạn đang trả tiền cho năng lực hay cho thông lượng. Tôi sẽ phân chia như sau.

Chọn Claude Opus 4.8 nếu…

  • Chất lượng hoàn thành nhiệm vụ có hệ quả trực tiếp. Điểm 1.890 Elo trên GDPval-AA và tỷ lệ ảo giác thấp hơn mô hình của Google và OpenAI trên AA-Omniscience khiến nó an toàn hơn cho công việc tri thức đòi hỏi độ chính xác cao.
  • Bạn cần 128K token đầu ra cho tạo nội dung lớn trong một lượt, gần gấp đôi 65.536 của Flash.
  • Bạn đã xây dựng trong hệ sinh thái Anthropic qua Claude Code hoặc API, và việc chuyển đổi sẽ phiền toái.
  • Các vòng lặp tác tử của bạn chạy đủ lâu để tin nhắn system giữa hội thoại trở nên quan trọng, vì Messages API nay có thể cập nhật quyền, ngân sách token hoặc ngữ cảnh giữa nhiệm vụ mà không làm hỏng bộ đệm prompt.

Chọn Gemini 3.5 Flash nếu…

  • Pipeline của bạn nạp vào video, âm thanh hoặc PDF.
  • Bạn cần sản lượng đầu ra lớn, nơi $9 so với $25 mỗi triệu token thay đổi bài toán chi phí.
  • Bạn muốn điểm điều phối đa công cụ mạnh nhất, vì Flash dẫn đầu MCP Atlas với 83,6%, vượt cả Opus 4.8 ở mức 82,2%.
  • Bạn xây dựng trên hạ tầng Google qua Antigravity hoặc Vertex AI và muốn dùng một nhà cung cấp.
  • Kiểm soát chi phí chi tiết là quan trọng, nơi hệ suy nghĩ bốn cấp của Flash tốt hơn cài đặt effort đơn của Opus 4.8.

Tiếp theo là gì cho Flash và các mẫu đầu bảng

Mẫu Flash này đắt hơn nhiều so với các bản Flash trước, và Google đã bị chỉ trích vì điều đó. Khoảng cách về trí tuệ giữa hạng Flash và Opus vẫn đáng kể, làm suy yếu lập luận trả mức giá gần flagship cho một mẫu Flash. Cuộc đua thú vị hơn là một mô hình nhỏ thực sự giỏi lập trình và công việc tác tử trong khi vẫn rẻ như Composer 2.5 của Cursor.

Chế độ nhanh của Anthropic là thứ đáng chú ý cho lập trình tác tử, nhưng mức giá sẽ kìm hãm nó. Ở mức $10/$50, rất khó thuyết phục các nhà phát triển đang chạy vòng lặp dài, và việc đón nhận phụ thuộc vào việc Anthropic nghĩ lại con số này.

Anthropic vẫn tập trung vào lập trình, nên tôi hoài nghi họ sẽ đuổi theo Google ở đầu vào video và âm thanh trong thời gian tới. Điều đó trao cho Google cơ hội, nhưng chỉ khi họ tung ra một mẫu Flash hoặc flagship vượt Opus trong các tác vụ tác tử. Đến giờ thì chưa.

Kết luận

Nếu chất lượng nhiệm vụ và rủi ro ảo giác mang lại chi phí thực, chẳng hạn trong tài chính hoặc y tế, Opus 4.8 là mô hình nên chọn. Nếu bạn tối ưu cho thông lượng, chi phí hoặc đầu vào đa phương thức, Gemini 3.5 Flash phù hợp hơn.

Theo tôi: hai mô hình này thực ra không cạnh tranh cho cùng một công việc, và hầu hết đội ngũ sẽ biết họ thuộc về phía nào chỉ sau một câu mô tả khối lượng công việc. Câu hỏi khó hơn là liệu Google có thể thu hẹp khoảng cách năng lực mà không đánh mất lợi thế giá khiến Flash đáng dùng hay không. Google đã chạy Gemini 3.5 Pro nội bộ, và chính bản phát hành đó, chứ không phải Flash, mới là ứng viên có khả năng gây áp lực thực sự lên Opus 4.8.

Nếu bạn muốn mài giũa các kỹ năng giúp trợ lý AI đáng tin cậy hơn trong quy trình làm việc của mình, tôi sẽ bắt đầu với khóa AI-Assisted Coding for Developers. Và nếu bạn muốn xây dựng ứng dụng LLM với prompts, chuỗi và tác tử, khóa Developing LLM Applications with LangChain là bước tiếp theo vững chắc.

Câu hỏi thường gặp về Claude Opus 4.8 vs Gemini 3.5 Flash

Liệu Claude Opus 4.8 có tốt hơn Gemini 3.5 Flash về tổng thể không?

Về các điểm chuẩn trí tuệ tổng thể thì có. Opus 4.8 đạt 61,4 trên Artificial Analysis Intelligence Index so với 55 của Flash. Nhưng tốt hơn còn phụ thuộc vào trường hợp sử dụng. Flash nhanh hơn, rẻ hơn và hỗ trợ đầu vào video, âm thanh, PDF mà Opus 4.8 không có.

Gemini 3.5 Flash hỗ trợ những định dạng đầu vào nào?

Gemini 3.5 Flash hỗ trợ đầu vào văn bản, hình ảnh, video, âm thanh và PDF. Claude Opus 4.8 chỉ hỗ trợ văn bản và hình ảnh.

Giá của hai mô hình so sánh thế nào?

Claude Opus 4.8 có giá $5 mỗi triệu token đầu vào và $25 mỗi triệu token đầu ra. Gemini 3.5 Flash là $1,50 mỗi triệu token đầu vào và $9 mỗi triệu token đầu ra. Giá khi cache hit là $0,50 mỗi triệu với Opus 4.8 và $0,15 mỗi triệu với Flash.

GDPval-AA là gì và vì sao nó quan trọng đối với Opus 4.8 và Gemini 3.5 Flash?

GDPval-AA là điểm chuẩn chính của Artificial Analysis cho hiệu năng tác tử trên các nhiệm vụ công việc tri thức thực tế, chấm theo Elo. Opus 4.8 dẫn đầu với 1.890 Elo so với 1.656 của Flash. Nó hữu ích hơn các điểm chuẩn truyền thống để đánh giá mô hình trong bối cảnh tác tử sản xuất.

Mô hình nào có cửa sổ đầu ra lớn hơn?

Claude Opus 4.8 hỗ trợ tối đa 128K token đầu ra, gấp đôi cửa sổ 65.536 token của Gemini 3.5 Flash. Với quy trình tạo tài liệu dài, tệp mã lớn, hoặc cần đầu ra lớn trong một lượt, Opus 4.8 là lựa chọn ưu tiên.

Gemini 3.5 Flash có hỗ trợ suy nghĩ không?

Có. Flash có bốn mức suy nghĩ: tối thiểu, thấp, trung bình và cao. Mặc định là trung bình. Claude Opus 4.8 chỉ dùng suy nghĩ thích ứng, không hỗ trợ ngân sách suy nghĩ mở rộng.


Derrick Mwiti's photo
Author
Derrick Mwiti
Chủ đề

Học AI cùng DataCamp!

Courses

Introduction to Claude Models

3 giờ
9.9K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
Xem chi tiếtRight Arrow
Bắt đầu khóa học
Xem thêmRight Arrow
Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.
Matt Crabtree's photo

Matt Crabtree

10 phút

Xem thêmXem thêm