Tracks
Nếu bạn đang xây dựng các quy trình agentic hoặc chọn một trợ lý lập trình, rất có thể bạn đang cân nhắc giữa Gemini 3.5 Flash và Claude Opus 4.7. Cả hai đều ra mắt năm 2026, đều hướng tới các tác vụ agentic dài hạn, và đều tuyên bố vượt trội so với thế hệ trước ở những benchmark quan trọng nhất cho sản xuất. Lựa chọn không hề hiển nhiên.
Gemini 3.5 Flash là câu trả lời của Google cho câu hỏi liệu một mô hình tối ưu tốc độ có thể đồng thời là mô hình tiên phong hay không. Claude Opus 4.7 là đỉnh năng lực hiện tại cho sản xuất của Anthropic, bản nâng cấp trực tiếp từ Opus 4.6 với những bước tiến lớn về lập trình theo hướng agent và bộ nhớ xuyên phiên.
Trong bài viết này, tôi sẽ so sánh Gemini 3.5 Flash và Claude Opus 4.7 trên năm khía cạnh: lập trình và quy trình agentic, suy luận và tác vụ tri thức, năng lực đa phương thức, hệ sinh thái và khả dụng, cùng giá. Bạn cũng có thể xem các hướng dẫn riêng cho Gemini 3.5 Flash và Claude Opus 4.7 để tìm hiểu sâu hơn từng mô hình.
Gemini 3.5 Flash là gì?
Gemini 3.5 Flash là mô hình tối ưu tốc độ mới nhất của Google, công bố tại Google I/O 2026 vào ngày 19 tháng 5. Nó thuộc tầng Flash của họ Gemini 3.5, nơi Google định vị là dòng mô hình mới xoay quanh khả năng thực thi theo hướng agent thay vì chỉ suy luận nhanh. Điểm nhấn là 3.5 Flash mang lại mức thông minh tiên phong với thông lượng token đầu ra gấp bốn lần các mô hình tiên phong khác.
Điều khiến 3.5 Flash khác thường đối với một mô hình tầng Flash là nó vượt trội so với phiên bản Pro gần nhất, Gemini 3.1 Pro, trên một số benchmark về agentic và lập trình, bao gồm Terminal-Bench 2.1 (76,2%), MCP Atlas (83,6%) và Finance Agent v2 (57,9%).
Nó được thiết kế để làm việc với bộ giàn Antigravity của Google cho triển khai đa agent. Hãy đọc thêm bài Claude Code vs Antigravity của chúng tôi để so sánh chi tiết giữa cách tiếp cận bộ giàn cho agent của Anthropic và Google.
Flash 3.5 hiện là mô hình mặc định trong ứng dụng Gemini và Chế độ AI trên Tìm kiếm toàn cầu. Gemini 3.5 Pro đang được phát triển và dự kiến ra mắt vào tháng sau.
Claude Opus 4.7 là gì?
Claude Opus 4.7 là mẫu sản xuất chủ lực hiện tại của Anthropic, phát hành ngày 16 tháng 4 năm 2026. Đây là bản nâng cấp trực tiếp từ Opus 4.6, với các cải thiện đáng kể ở:
- Lập trình theo hướng agent (SWE-bench Pro tăng từ 53,4% lên 64,3%)
- Thị giác độ phân giải cao (hình ảnh dài tới 2.576 pixel theo cạnh dài, hơn ba lần giới hạn trước)
- Bộ nhớ xuyên phiên dùng lưu trữ dựa trên hệ thống tệp
Anthropic mô tả đây là mô hình bạn có thể giao các tác vụ lập trình khó với ít giám sát hơn so với Opus 4.6.
Một góc nhìn đáng lưu ý: Opus 4.7 không phải là mô hình mạnh nhất của Anthropic. Danh hiệu đó thuộc về Mythos Preview, đạt 77,8% trên SWE-bench Pro so với 64,3% của Opus 4.7. Mythos chưa được cung cấp rộng rãi, vì vậy Opus 4.7 là trần thực tế cho hầu hết nhà phát triển. Opus 4.7 cũng đi kèm mức nỗ lực xhigh mới nằm giữa high và max để kiểm soát tinh hơn độ sâu suy luận.
Để xem thử nghiệm thực tế và phân tích đầy đủ các benchmark, hãy xem hướng dẫn Claude Opus 4.7 của chúng tôi.
Gemini 3.5 Flash vs Claude Opus 4.7: So sánh trực diện
Dưới đây là tóm tắt nhanh cách hai mô hình so sánh trên những khía cạnh quan trọng nhất với người dùng thực hành.
| Tính năng | Gemini 3.5 Flash | Claude Opus 4.7 |
|---|---|---|
| Tầng | Tối ưu tốc độ (Flash) | Chủ lực |
| SWE-bench Pro | 55,1% | 64,3% |
| Terminal-bench 2.1 | 76,2% | 66,1% |
| MCP Atlas (sử dụng công cụ) | 83,6% | 77,3% |
| CharXiv Reasoning (đa phương thức) | 84,2% | 82,1% |
| Finance Agent v2 | 57,9% | 51,5% |
| OSWorld (sử dụng máy tính) | 78,4% | 78,0% |
| Humanity's Last Exam | 40,2% | 46,9% |
| ARC-AGI-2 (suy luận trừu tượng) | 72,1% | 75,8% |
| Cửa sổ ngữ cảnh | 1M token | 1M token |
| Độ phân giải thị giác | Không nêu | Tối đa 2.576px / 3,75MP |
| Hỗ trợ Computer Use | Không hỗ trợ | Hỗ trợ (OSWorld: 78,0%) |
| Giá API đầu vào | $1,50 / 1M token | $5,00 / 1M token |
| Giá API đầu ra | $9,00 / 1M token | $25,00 / 1M token |
| Khung đa agent | Bộ giàn Antigravity | Ngân sách tác vụ + tham số nỗ lực |
Lập trình và quy trình agentic
Đây là khía cạnh mà hai mô hình khác biệt rõ nhất, dù không có kẻ thắng tuyệt đối trên mọi mặt.
Trên SWE-bench Pro, benchmark lập trình phổ biến, Opus 4.7 đạt 64,3% so với 55,1% của Gemini 3.5 Flash. Đó là khoảng cách đáng kể nghiêng về công việc kỹ thuật ở cấp độ kho mã cho Claude. Tuy nhiên, bức tranh đảo chiều ở Terminal-Bench 2.1, nơi Gemini 3.5 Flash đạt 76,2%, vượt Opus 4.7 ở mức 66,1% với biên tương tự. Với các công việc nặng về terminal, Gemini 3.5 Flash là lựa chọn tốt hơn.
| Benchmark | Gemini 3.5 Flash | Claude Opus 4.7 | Ghi chú |
|---|---|---|---|
| SWE-bench Pro | 55,1% | 64,3% | Nhà cung cấp báo cáo; Opus 4.7 dẫn ~9 điểm phần trăm |
| Terminal-Bench 2.1 / 2.0 | 76,2% (v2.1) | 69,4% (v2.0) | Khác phiên bản benchmark; chỉ mang tính định hướng |
| MCP Atlas | 83,6% | 77,3% | Gemini 3.5 Flash dẫn về điều phối công cụ |
Cả hai mô hình đều được thiết kế cho các tác vụ agentic dài hạn, nhưng tiếp cận khác nhau. Gemini 3.5 Flash xoay quanh bộ giàn Antigravity, triển khai các subagent hợp tác song song. Ví dụ của Google là tổng hợp bài báo AlphaZero và lập trình một trò chơi hoàn chỉnh bằng hai agent trong sáu giờ. Opus 4.7 dùng ngân sách tác vụ và mức nỗ lực xhigh mới để duy trì hiệu năng trong các phiên chạy dài, với báo cáo từ Anthropic rằng mô hình kiên trì vượt qua bài toán khó thay vì dừng giữa chừng.
Gemini 3.5 Flash dẫn trên MCP Atlas ở mức 83,6% so với 77,3% của Opus 4.7, đo hiệu năng trên các quy trình đa công cụ phức tạp. Nếu hệ thống agentic của bạn phụ thuộc nhiều vào điều phối công cụ hơn là hiểu sâu mã, 3.5 Flash có lợi thế thực sự.
Về chiều sâu kỹ thuật phần mềm thuần túy, Opus 4.7 là lựa chọn mạnh hơn. Với các pipeline agentic nặng công cụ, nơi thông lượng và thực thi subagent song song quan trọng, Gemini 3.5 Flash cạnh tranh tốt và rẻ hơn đáng kể.
Suy luận và tác vụ tri thức
Ngoài kỹ năng lập trình, độ sâu suy luận tổng quát là lĩnh vực số một nơi Opus 4.7 nhỉnh hơn Gemini 3.5 Flash. Trên Humanity's Last Exam, tập hợp câu hỏi trình độ sau đại học về khoa học, toán và nhân văn, Opus 4.7 đạt 46,9% không dùng công cụ so với 40,2% của Gemini 3.5 Flash. Khoảng cách thu hẹp ở suy luận trừu tượng: ARC-AGI-2 chấm Flash 72,1% và Opus 4.7 là 75,8%.
Tín hiệu thú vị hơn là Finance Agent v2, nơi Gemini 3.5 Flash đạt 57,9% so với 51,5% của Opus 4.7. Con số này khiến tôi phải nghĩ lại toàn bộ so sánh. Ban đầu, tôi cho rằng Opus 4.7 sẽ dẫn ở mọi việc đòi hỏi suy luận nhiều bước trên tài liệu phức tạp, vì đó được xem là lợi thế chủ lực. Một mô hình tầng Flash vượt 6 điểm ở tự động hóa quy trình tài chính không phải sai số làm tròn.
Điều này gợi ý Google đã tối ưu riêng 3.5 Flash cho kiểu pipeline gọi công cụ, xử lý tài liệu mà doanh nghiệp thực sự triển khai.
Năng lực đa phương thức và sử dụng máy tính
Trên CharXiv Reasoning, bài kiểm tra suy luận trực quan trên biểu đồ khoa học, Gemini 3.5 Flash đạt 84,2% so với 82,1% của Opus 4.7. Khoảng cách nhỏ, nhưng đáng chú ý khi một mô hình tầng Flash vượt một mẫu chủ lực ở suy luận thị giác, đặc biệt khi đây là một thế mạnh của Opus 4.7.
OSWorld, bài kiểm tra điều khiển giao diện máy tính, gần như hòa (78,4% so với 78,0%). Cảnh báo quan trọng: Gemini 3.5 Flash không hỗ trợ tính năng sử dụng máy tính, bất chấp điểm OSWorld, vốn chỉ là đánh giá nghiên cứu. Nghĩa là điểm số phản ánh những gì mô hình có thể làm trong điều kiện benchmark, nhưng công cụ API Computer Use đơn giản là chưa (hay chưa?) được mở/tích hợp cho phiên bản mô hình này.
Opus 4.7 có hỗ trợ Computer Use, và đây là năng lực được ghi nhận với điểm OSWorld-Verified 78,0%. Nếu quy trình của bạn cần agent tự động click, gõ và dẫn hướng ứng dụng, Opus 4.7 là lựa chọn duy nhất ở đây.
Opus 4.7 cũng giới thiệu nâng cấp lớn về thị giác: ảnh dài tới 2.576 pixel theo cạnh dài, hơn ba lần độ phân giải các mẫu Claude trước đó. Điều này mở ra các trường hợp như đọc ảnh chụp màn hình dày đặc, trích dữ liệu từ sơ đồ phức tạp và agent sử dụng máy tính cần độ chính xác từng pixel. XBOW báo cáo mức tăng từ 54,5% lên 98,5% trên benchmark thị lực sau khi chuyển sang Opus 4.7, cho thấy mức nâng độ phân giải quan trọng đến đâu trong thực tế.
Hệ sinh thái và khả dụng
Gemini 3.5 Flash khả dụng qua Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise và Google Antigravity. Nó cũng là mô hình mặc định trong ứng dụng Gemini và Chế độ AI trên Tìm kiếm toàn cầu, nghĩa là hàng tỷ người dùng đã chạy nó. Với nhà phát triển vốn ở hệ sinh thái Google Cloud, lộ trình tích hợp rất thẳng.
Opus 4.7 khả dụng qua Anthropic API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry, cũng như ứng dụng web và di động của Claude. Mã mô hình là claude-opus-4-7. Anthropic cũng ra mắt ngân sách tác vụ ở public beta cùng Opus 4.7, cho phép giới hạn chi token trong các phiên agentic dài. Lệnh gạch chéo /ultrareview mới trong Claude Code tạo một phiên đánh giá chuyên biệt để phát hiện lỗi và vấn đề thiết kế.
Một khác biệt thực tế: Gemini 3.5 Flash gắn chặt với bộ giàn Antigravity cho công việc đa agent, trong khi ngân sách tác vụ và tham số nỗ lực của Opus 4.7 hoạt động với mọi thiết lập điều phối. Nếu bạn xây dựng trên framework không phải Antigravity, Opus 4.7 cho bạn linh hoạt hơn trong quản lý agent chạy dài.
Giá
Đây là phần so sánh thú vị. Gemini 3.5 Flash có giá $1,50 mỗi triệu token đầu vào và $9,00 mỗi triệu token đầu ra. Claude Opus 4.7 có giá $5,00 cho đầu vào và $25,00 cho đầu ra mỗi triệu token. Theo mức đó, Gemini 3.5 Flash rẻ hơn khoảng 3,3 lần ở đầu vào và 2,8 lần ở đầu ra.
Có một điểm lưu ý ở phía Opus 4.7. Anthropic giới thiệu bộ tokenizer mới với Opus 4.7 sử dụng nhiều hơn từ 1,0x đến 1,35x token cho cùng đầu vào so với Opus 4.6. Khối lượng tiếng Anh cao thấy lạm phát token khoảng 12–18% theo thử nghiệm độc lập. Giá niêm yết không đổi, nhưng chi phí hiệu dụng mỗi prompt tăng. Khuyến nghị của Anthropic là dùng tham số nỗ lực, ngân sách tác vụ và hướng dẫn ngắn gọn rõ ràng để quản lý.
Với khối lượng lớn hoặc yêu cầu độ trễ thấp, Gemini 3.5 Flash rõ ràng có lợi thế về chi phí. Với khối lượng công việc cần độ sâu lập trình của Opus 4.7 hoặc hỗ trợ Computer Use, mức giá cao hơn khó tránh. Anthropic có cung cấp bộ nhớ đệm prompt (tiết kiệm tới 90% token đầu vào đã đệm) và xử lý theo lô (tiết kiệm tới 50%) như biện pháp kiểm soát chi phí, có thể thu hẹp khoảng cách cho những kiểu tải phù hợp.
Khi nào chọn Gemini 3.5 Flash so với Claude Opus 4.7
Dữ liệu benchmark và khác biệt tính năng cho thấy các phân tách theo trường hợp sử dụng khá rõ. Tôi sẽ đóng khung quyết định như sau.
| Trường hợp sử dụng | Khuyến nghị | Lý do |
|---|---|---|
| Pipeline agentic khối lượng lớn với ràng buộc chi phí | Gemini 3.5 Flash | Rẻ hơn ~3x ở token đầu ra và thông lượng nhanh hơn 4x |
| Kỹ thuật phần mềm cấp độ kho mã | Claude Opus 4.7 | 64,3% so với 55,1% trên SWE-bench Pro; mạnh hơn ở tác vụ đa tệp phức tạp |
| Điều phối agent đa công cụ | Gemini 3.5 Flash | Dẫn MCP Atlas 83,6% so với 77,3% của Opus 4.7 |
| Agent sử dụng máy tính (click, gõ, dẫn hướng ứng dụng) | Claude Opus 4.7 | Có hỗ trợ Computer Use; Gemini 3.5 Flash không hỗ trợ |
| Phân tích tài liệu tài chính và tự động hóa quy trình | Gemini 3.5 Flash | Dẫn Finance Agent v2 ở 57,9% so với 51,5%; thử nghiệm của Macquarie Bank xác nhận phù hợp thực tế |
| Phân tích ảnh và sơ đồ độ phân giải cao | Claude Opus 4.7 | Hỗ trợ ảnh tới 2.576px / 3,75MP; XBOW báo cáo 98,5% trên benchmark thị lực |
| Tích hợp Google Cloud hoặc ứng dụng Gemini | Gemini 3.5 Flash | Tích hợp gốc trên Google AI Studio, Android Studio, Gemini Enterprise và Tìm kiếm |
| Lập trình dài hạn với bộ nhớ xuyên phiên | Claude Opus 4.7 | Bộ nhớ dựa trên hệ thống tệp lưu giữ ghi chú quan trọng qua nhiều phiên |

Chọn Gemini 3.5 Flash nếu...
- Bạn đang vận hành các pipeline agentic khối lượng lớn, nơi chi phí và thông lượng là ràng buộc chính. Với $1,50 đầu vào / $9,00 đầu ra mỗi triệu token, nó rẻ hơn đáng kể so với Opus 4.7 cho cùng khối lượng công việc.
- Quy trình của bạn nặng về công cụ hơn là nặng về mã. Điểm MCP Atlas 83,6% là cao nhất trong so sánh, và bộ giàn Antigravity được thiết kế dành cho triển khai subagent song song.
- Bạn đã ở trong hệ sinh thái Google. Mô hình khả dụng gốc trên Google AI Studio, Android Studio, Gemini Enterprise và Antigravity, không cần công việc tích hợp bổ sung.
- Trường hợp sử dụng của bạn liên quan đến suy luận trên tài liệu tài chính hoặc phân tích biểu đồ đa phương thức. Gemini 3.5 Flash dẫn ở Finance Agent v2 và CharXiv Reasoning, điều khá bất ngờ với một mô hình tầng Flash.
Chọn Claude Opus 4.7 nếu...
- Trường hợp chính của bạn là kỹ thuật phần mềm cấp độ kho mã. Điểm SWE-bench Pro 64,3% cao hơn Gemini 3.5 Flash 9 điểm, và người thử sớm như Cursor (70% so với 58% trên CursorBench) và Rakuten (giải quyết gấp 3 lần tác vụ sản xuất) báo cáo mức tăng lớn trong thực tế.
- Bạn cần hỗ trợ Computer Use. Gemini 3.5 Flash không hỗ trợ; Opus 4.7 đạt 78,0% trên OSWorld-Verified và là lựa chọn duy nhất để agent điều khiển giao diện desktop.
- Agent của bạn cần xử lý ảnh độ phân giải cao hoặc sơ đồ kỹ thuật dày đặc. Hỗ trợ ảnh 2.576px là thay đổi ở cấp mô hình và áp dụng tự động, rất quan trọng cho OCR, trích xuất biểu đồ và agent sử dụng máy tính đọc ảnh chụp màn hình dày đặc.
- Bạn cần bộ nhớ xuyên phiên cho dự án dài hạn. Bộ nhớ dựa trên hệ thống tệp của Opus 4.7 cho phép agent mang theo ngữ cảnh qua các phiên mà không phải thiết lập lại từ đầu mỗi lần.
Kết luận
Thẳng thắn mà nói, hai mô hình này không thực sự cạnh tranh cho cùng khối lượng công việc. Gemini 3.5 Flash là mô hình tầng Flash nhưng lại vượt một mẫu Pro thế hệ trước trên vài benchmark agentic, và làm được điều đó ở mức giá khiến triển khai khối lượng lớn trở nên khả thi. Claude Opus 4.7 là mô hình chủ lực với năng lực lập trình sâu hơn, hỗ trợ Computer Use và độ sâu suy luận thô tốt hơn. Nếu phải chọn giữa chúng, quyết định thường xoay quanh việc bạn có cần hiệu năng lập trình cấp SWE-bench và Computer Use hay cần thông lượng, hiệu quả chi phí và điều phối công cụ mạnh.
Điều tôi thấy thú vị nhất trong so sánh này là kết quả Finance Agent v2. Gemini 3.5 Flash đạt 57,9% so với 51,5% của Opus 4.7 ở tự động hóa quy trình tài chính không phải điều bạn kỳ vọng từ một mô hình tối ưu tốc độ. Cộng với lợi thế MCP Atlas, điều này gợi ý Google đã tinh chỉnh 3.5 Flash cho kiểu quy trình nhiều bước, gọi công cụ, suy luận trên tài liệu mà doanh nghiệp thực sự vận hành, không chỉ để đạt điểm benchmark thô.
Một điều đáng theo dõi: Gemini 3.5 Pro dự kiến ra mắt vào tháng sau. Nếu lặp lại mô hình của lần ra mắt 3.5 Flash và vượt Gemini 3.1 Pro với biên có ý nghĩa, so sánh với Opus 4.7 sẽ rất khác. Giá của tầng Pro có thể thu hẹp khoảng cách chi phí, nhưng trần hiệu năng sẽ tăng. Hiện tại, Gemini 3.5 Flash là lựa chọn tốt hơn cho công việc agentic nhạy chi phí, còn Opus 4.7 phù hợp hơn cho lập trình sâu và sử dụng máy tính.
Nếu bạn muốn xây dựng kỹ năng thực tiễn với hệ thống AI theo hướng agent và hiểu cách làm việc với các mô hình như thế này trong sản xuất, tôi khuyên bạn nên xem lộ trình kỹ năng AI Agent Fundamentals trên DataCamp.

Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.