Tracks
Google công bố Gemini 3.5 Flash tại I/O 2026 vào ngày 19 tháng 5, một mẫu vượt trội so với Gemini 3.1 Pro ở các benchmark về tác nhân và lập trình, đồng thời cho tốc độ nhanh gấp bốn lần các mẫu tiên phong khác cùng phân khúc.
Bản phát hành này đến trong bối cảnh cuộc cạnh tranh của ngành AI đã xoay trục rõ rệt sang hiệu năng tác nhân. Tác nhân lập trình, tự động hóa quy trình đa bước và thực thi nhiệm vụ dài hạn đã trở thành chiến trường chính, và Google định vị 3.5 Flash là câu trả lời cho thời điểm đó.
Với mọi nhóm chuyên môn, bao gồm nhà khoa học dữ liệu, kỹ sư ML, và nhà phát triển, điều này quan trọng vì 3.5 Flash hiện (hoặc sắp) là mẫu mặc định trong ứng dụng Gemini và Chế độ AI trên Tìm kiếm, và có sẵn ngay hôm nay qua Gemini API. Trong bài viết này, tôi sẽ điểm lại các thông báo, những điểm nổi bật, số liệu benchmark, và ý nghĩa đối với công việc của bạn.
Có gì mới với Gemini 3.5 Flash
Tuyên bố tiêu đề với Gemini 3.5 Flash là tốc độ kết hợp cùng hiệu năng cấp tiên phong. Google cho biết 3.5 Flash nhanh gấp bốn lần về số token đầu ra mỗi giây so với các mẫu tiên phong khác, đồng thời vượt Gemini 3.1 Pro ở những benchmark quan trọng nhất cho công việc mang tính tác nhân.
Trên Terminal-Bench 2.1, mẫu đạt 76,2%. Trên GDPval-AA, đạt 1.656 Elo. Trên MCP Atlas, đạt 83,6%. Về hiểu đa phương thức, đạt 84,2% trên CharXiv Reasoning.
Tóm lại, những con số này cho thấy quy tắc cũ “nhanh, rẻ, hoặc thông minh; chọn hai” trong AI trở nên kém phù hợp hơn. Chúng ta đang có một mẫu gọn nhẹ nhưng có thể xử lý các quy trình tác nhân phức tạp, đa bước mà không kéo theo độ trễ lớn.
Google cho biết mẫu sẽ khả dụng rộng rãi ngay hôm nay trên Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform và Gemini Enterprise. Đây cũng là mẫu mặc định mới trong ứng dụng Gemini và Chế độ AI trên Tìm kiếm toàn cầu.
Google cũng thông báo Gemini 3.5 Pro đang được phát triển, đã dùng nội bộ và dự kiến phát hành vào tháng sau. Bản phát hành 3.5 Flash là bước đi mở màn cho một họ mẫu mới xoay quanh thực thi mang tính tác nhân.
Bối cảnh Gemini 3.5
Dòng Gemini 3 đã thiết lập vị thế hiện tại của Google trong cuộc đua các mẫu tiên phong. Gemini 3.1 Pro, ra mắt tháng 2 năm 2026, dẫn đầu Artificial Analysis Intelligence Index khi ra mắt và đạt 77,1% trên ARC-AGI-2, hơn gấp đôi mức 31,1% của Gemini 3 Pro trên cùng benchmark.
Như chúng tôi đã đề cập trong so sánh GPT-5.5 và Gemini 3.1 Pro, thế mạnh của Gemini 3.1 Pro nằm ở suy luận hình ảnh phức tạp và tác vụ đa phương thức.
Quy ước đặt tên Flash trong họ Gemini luôn báo hiệu các mẫu tối ưu cho tốc độ. Điểm khác biệt với 3.5 Flash là Google khẳng định trí tuệ cấp tiên phong ở tốc độ Flash, chứ không đánh đổi chất lượng. Chỉ số Artificial Analysis đặt 3.5 Flash ở góc phần tư trên bên phải (theo Google), nghĩa là vừa thông minh cao vừa có tốc độ xuất đầu ra cao đồng thời.
Antigravity, bộ khung của Google để triển khai các tiểu tác nhân hợp tác, là trung tâm trong cách 3.5 Flash được định vị. Đây không chỉ là một mẫu độc lập mà còn là thành phần trong kiến trúc đa tác nhân mà Google đã xây dựng song song với chính mẫu.
Các tính năng chính của Gemini 3.5
Dưới đây là phần tóm lược những thông tin đáng chú ý nhất từ thông báo.
Hiệu năng benchmark
Các tuyên bố benchmark của Google cho 3.5 Flash rất cụ thể và đáng để xem xét trực tiếp. Mẫu này vượt Gemini 3.1 Pro ở các mục sau:
- Terminal-Bench 2.1: 76,2% (Gemini 3.1 Pro được chấm trên Terminal-Bench 2.0 ở mức 68,5%, theo bài viết trước của chúng tôi)
- GDPval-AA: 1.656 Elo (Claude Opus 4.7 dẫn đầu benchmark này ở mức 1.753 Elo khi ra mắt, theo bài đánh giá Claude Opus 4.7 vs Gemini 3.1 Pro của chúng tôi)
- MCP Atlas: 83,6% (Gemini 3.1 Pro đạt 73,9% trên MCP Atlas trong thử nghiệm trước đó của chúng tôi)
- CharXiv Reasoning: 84,2% cho hiểu đa phương thức
Tuyên bố về tốc độ cũng đáng chú ý: nhanh gấp bốn lần về số token đầu ra mỗi giây so với các mẫu tiên phong khác. Google không nêu rõ đang so với những mẫu nào trong ghi chú nghiên cứu, vì vậy hãy coi con số đó là chỉ báo định hướng hơn là so kè trực tiếp chính xác.
Kiến trúc tác nhân và Antigravity
3.5 Flash được thiết kế để hoạt động với bộ khung Antigravity, nền tảng của Google để vận hành các tiểu tác nhân hợp tác. Với Antigravity, mẫu có thể triển khai nhiều tiểu tác nhân song song, thực thi quy trình đa bước và duy trì hiệu năng trên các nhiệm vụ dài hạn.
Ví dụ của Google bao gồm tổng hợp bài báo AlphaZero và lập trình một trò chơi hoàn chỉnh trong sáu giờ bằng hai tác nhân, cũng như chuyển đổi một codebase cũ sang Next.js. Đây không phải các bản demo minh họa đơn giản. Chúng phản ánh kiểu nhiệm vụ kéo dài nhiều ngày mà các hệ thống tác nhân hiện đang được yêu cầu xử lý.
Các triển khai doanh nghiệp thực tế
Vài doanh nghiệp đã chạy 3.5 Flash trong sản xuất hoặc thí điểm. Các trường hợp sử dụng cụ thể đáng chú ý vì chúng minh họa nơi sức mạnh tác nhân của mẫu đang được áp dụng:
- Shopify: Vận hành các tiểu tác nhân song song để phân tích dữ liệu phức tạp trong thời gian dài cho dự báo tăng trưởng của nhà bán
- Macquarie Bank: Thí điểm quy trình tiếp nhận khách hàng bằng cách suy luận trên tài liệu hơn 100 trang với độ trễ thấp
- Salesforce: Tích hợp vào Agentforce để tự động hóa nhiệm vụ doanh nghiệp với nhiều tiểu tác nhân và gọi công cụ nhiều lượt
- Xero: Triển khai tác nhân để quản lý các quy trình kéo dài nhiều tuần, bao gồm chuẩn bị biểu mẫu thuế 1099 cho doanh nghiệp nhỏ
- Databricks: Sử dụng quy trình tác nhân để giám sát thông tin thời gian thực, chẩn đoán sự cố và đề xuất giải pháp trên tập dữ liệu lớn
- Ramp: Cải thiện độ chính xác OCR trên hóa đơn phức tạp thông qua hiểu đa phương thức kết hợp suy luận trên các mẫu lịch sử
Gemini Spark và khả dụng cho người dùng
3.5 Flash cũng là mẫu đứng sau Gemini Spark, tác nhân AI cá nhân mới của Google hoạt động 24/7 và có thể hành động thay người dùng. Google đang triển khai Spark cho nhóm thử nghiệm đáng tin cậy, với bản Beta dự kiến cho người đăng ký Google AI Ultra tại Mỹ vào tuần sau thông báo I/O.
Mẫu hiện khả dụng cho hàng tỷ người dùng trên toàn cầu thông qua ứng dụng Gemini và Chế độ AI trong Tìm kiếm, khiến đây trở thành một trong những lần ra mắt đồng thời rộng nhất cho cả người dùng và nhà phát triển mà Google từng thực hiện với một mẫu Gemini.
An toàn và biện pháp bảo vệ
Google cho biết 3.5 Flash được phát triển theo Frontier Safety Framework, với các biện pháp bảo vệ mạng và CBRN được tăng cường. Công ty sử dụng các công cụ diễn giải để kiểm tra suy luận nội bộ của mẫu trước khi phản hồi, nhằm giảm cả đầu ra gây hại lẫn từ chối sai trên truy vấn an toàn.
Gemini 3.5 dành cho người làm Data và AI
Hệ quả thực tiễn rõ ràng nhất là 3.5 Flash sắp khả dụng qua Gemini API trong Google AI Studio. Nếu bạn đang xây dựng pipeline mang tính tác nhân, sự kết hợp giữa điểm MCP Atlas (83,6%) và bộ khung đa tác nhân Antigravity khiến mẫu này đáng để thử nghiệm so với những gì bạn đang dùng.
Điểm GDPval-AA ở mức 1.656 Elo thấp hơn 1.753 Elo của Claude Opus 4.7 trong bài đánh giá trước đó của chúng tôi, nhưng lợi thế tốc độ của 3.5 Flash có thể quan trọng hơn tùy yêu cầu độ trễ của bạn.
Với các nhóm vận hành quy trình dài hạn, các triển khai của Xero và Shopify là tín hiệu chỉ dẫn hữu ích nhất. Việc nén các quy trình nhiều tuần thành các lượt chạy tác nhân tự động là trường hợp sử dụng mà Google đang tối ưu, và bộ khung Antigravity là lớp hạ tầng giúp điều đó khả thi. Nếu bạn chưa quen với các mô hình điều phối đa tác nhân, đây là thời điểm tốt để cập nhật.
Một điều tôi sẽ theo dõi kỹ: Google nói 3.5 Flash có chi phí chưa đến một nửa so với các mẫu tiên phong khác cho các tác vụ tương đương. Tuyên bố này phụ thuộc nhiều vào tải công việc cụ thể của bạn, nhưng nếu đúng trong thực tế, nó sẽ thay đổi kinh tế vận hành hệ thống tác nhân ở quy mô lớn. Mẫu 3.5 Pro, dự kiến tháng sau, sẽ là điểm so sánh thú vị hơn cho các đội thực hiện khối lượng suy luận nặng.
Kết luận
Gemini 3.5 Flash cho thấy Google muốn cạnh tranh ở cả hai đầu của đồ thị hiệu năng - tốc độ, không chỉ ở phân khúc đầu bảng. Vượt Gemini 3.1 Pro trên các benchmark tác nhân trong khi vẫn chạy ở tốc độ Flash là một thay đổi đáng kể, và các triển khai doanh nghiệp tại Shopify, Macquarie, và Salesforce cho thấy mẫu này đứng vững ngoài phạm vi benchmark kiểm soát.
Bức tranh rộng hơn là Google đang đặt cược lớn vào hạ tầng mang tính tác nhân, với Antigravity, Gemini Spark và 3.5 Flash cùng chỉ về một hướng. Việc cược đó có thành công hay không phụ thuộc vào hiệu năng của 3.5 Pro khi ra mắt tháng sau, và cách bộ khung Antigravity so với các framework đa tác nhân cạnh tranh trong quy trình làm việc thực tế của nhà phát triển.
Nếu bạn muốn nhanh chóng nắm bắt các khái niệm AI mang tính tác nhân và cách xây dựng với những mẫu như thế này, tôi khuyến nghị xem lộ trình kỹ năng AI Agent Fundamentals trên DataCamp.

Biên tập viên cấp cao trong lĩnh vực AI và công nghệ giáo dục. Cam kết khám phá các xu hướng dữ liệu và AI.