Tracks
Sợi chỉ đỏ xuyên suốt hầu hết mọi thông báo trong ngày đầu tiên của hội nghị Google I/O 2026 đều giống nhau: agent. Không phải chatbot, không phải trợ lý, mà là các agent bền bỉ, thực thi tác vụ, chạy nền và tích hợp trên toàn bộ hệ sản phẩm của Google. CEO Sundar Pichai gọi thẳng đây là "kỷ nguyên agentic Gemini", và các công bố đã củng cố cách đóng khung đó.
Google cũng phản hồi trước các gói đăng ký Claude Max của Anthropic và ChatGPT Pro của OpenAI bằng việc giới thiệu một bậc Google AI Ultra mới tại I/O, áp cùng mức giá 100 đô/tháng và giới hạn quyền truy cập vào một số tính năng agentic được đề cập bên dưới.
Trong bài viết này, tôi sẽ điểm qua những thông báo quan trọng nhất đối với người làm AI và nhà phát triển. Tôi tập trung vào các cập nhật đã có sẵn hoặc dự kiến ra mắt sớm.
Gemini 3.5 Flash
Gemini 3.5 Flash là bản phát hành mô hình nổi bật từ I/O 2026. Mô hình này vượt trội hơn Gemini 3.1 Pro trên các thang đo agentic và lập trình, trong khi Google cho biết nó chạy nhanh hơn 4 lần về tốc độ sinh token đầu ra so với các mô hình tuyến đầu khác. Tuy chưa thể kiểm chứng ngay, đây chắc chắn là một tuyên bố táo bạo.
Về benchmark, mức cải thiện thể hiện rõ, đặc biệt trên MCP Atlas, CharXiV Reasoning và Finance Agent v2, nơi Gemini 3.5 Flash dẫn đầu. Nhìn chung, 3.5 Flash có vẻ cạnh tranh với Claude Opus 4.7 và GPT-5.5.
|
Benchmark |
3.5 Flash |
3 Flash |
3.1 Pro |
Claude Sonnet 4.6 |
Opus 4.7 |
GPT-5.5 |
|
Terminal-bench 2.1 |
76.2% |
58.0% |
70.3% |
-- |
66.1% |
78.2% |
|
SWE-Bench Pro |
55.1% |
49.6% |
54.2% |
-- |
64.3% |
58.6% |
|
MCP Atlas |
83.6% |
62.0% |
78.2% |
69.5% |
79.1% |
75.3% |
|
OSWorld |
78.4% |
65.1% |
76.2% |
72.5% |
78.0% |
78.7% |
|
Finance Agent v2 |
57.9% |
42.6% |
43.0% |
51.0% |
51.5% |
51.8% |
|
CharXiv Reasoning |
84.2% |
80.3% |
83.3% |
72.4% |
82.1% |
84.1% |
|
Humanity's Last Exam |
40.2% |
33.7% |
44.4% |
33.2% |
46.9% |
41.4% |
|
ARC-AGI-2 |
72.1% |
33.6% |
77.1% |
58.3% |
75.8% |
84.6% |
Góc nhìn về chi phí cũng đáng chú ý. Google cho biết các doanh nghiệp xử lý khoảng 1 nghìn tỷ token mỗi ngày có thể tiết kiệm hơn 1 tỷ đô mỗi năm nếu chuyển 80% khối lượng công việc từ các mô hình tuyến đầu khác sang 3.5 Flash. Đây là thông điệp nhắm thẳng vào khách hàng doanh nghiệp của OpenAI và Anthropic. Gemini 3.5 Flash hiện có sẵn trên Gemini API, Google AI Studio và ứng dụng Gemini. Gemini 3.5 Pro đã được dùng nội bộ và dự kiến ra mắt vào tháng tới.
Để biết thêm chi tiết, bạn có thể đọc bài viết về Gemini 3.5 Flash của chúng tôi, trong đó phân tích sâu hơn về mô hình mới.
Gemini Omni
Gemini Omni là mô hình tạo sinh đa phương thức gốc mới của Google, có thể nhận mọi tổ hợp văn bản, hình ảnh, âm thanh và video làm đầu vào và tạo video đầu ra. Mô hình đầu tiên trong họ, Gemini Omni Flash, hiện có sẵn trong ứng dụng Gemini, Google Flow và YouTube Shorts.
Điểm kiến trúc then chốt là Omni hợp nhất một ngăn xếp vốn tách rời trước đây (Veo cho video, Imagen cho hình ảnh, các hệ thống âm thanh riêng) thành một mô hình duy nhất. Điều đó đồng nghĩa với việc chỉnh sửa mạch lạc hơn và ít lỗi pipeline hơn khi làm việc đa phương thức. Google chưa công bố các benchmark số cho Omni khi ra mắt, vì vậy đánh giá độc lập vẫn đang chờ. Quyền truy cập API cho nhà phát triển và khách hàng doanh nghiệp sẽ được mở trong vài tuần sau I/O.
Chúng tôi đã thử nghiệm và viết đầy đủ trong bài viết về Gemini Omni. Kết quả tạo video đầu tiên khá hên xui (ít nhất là so với tiêu chuẩn cao mà các công cụ như Seedance 2.0 đã đặt ra), nhưng một phiên bản mạnh hơn là Gemini Omni Pro dự kiến sẽ sớm ra mắt.
Antigravity 2.0
Antigravity là nền tảng phát triển ưu tiên agent của Google, và bản 2.0 ra mắt tại I/O là một bước mở rộng đáng kể. Trước đây được định vị là môi trường lập trình, nay đã trở thành một nền tảng hoàn chỉnh để phát triển, triển khai và quản lý các nhóm agent AI tự chủ. Trọng tâm là ứng dụng desktop độc lập mới đóng vai trò trung tâm điều phối agent, cho phép bạn chạy song song nhiều agent trên các tác vụ khác nhau cùng lúc.
Hệ sinh thái giờ có bốn bề mặt riêng cho nhà phát triển:
- Ứng dụng desktop Antigravity 2.0: Điều phối nhiều agent song song và hỗ trợ tác vụ nền theo lịch. Tích hợp với Google AI Studio, Android và Firebase.
- Antigravity CLI: Giao diện gốc cho terminal để tạo và chạy agent không cần GUI. Google đề nghị người dùng Gemini CLI chuyển sang công cụ này.
- Antigravity SDK: Truy cập theo lập trình vào cùng bộ khung agent đang vận hành sản phẩm của Google, hỗ trợ hành vi agent tùy chỉnh chạy trên hạ tầng của bạn.
- Antigravity trong Gemini Enterprise Agent Platform: Kết nối Antigravity trực tiếp với các dự án Google Cloud cho khối lượng công việc doanh nghiệp.
Có một vài tính năng mới rất hữu ích cho agent lõi. Quan trọng nhất: giờ đây nó có thể sinh subagent theo mô-đun động, mỗi subagent chạy song song với vùng làm việc tách biệt và thừa hưởng cấu hình công cụ cũng như quyền truy cập của agent mẹ. Các thao tác chạy lâu hoạt động bất đồng bộ, nên không còn chặn vòng lặp của agent.
Tương tự Claude Code Hooks, JSON Hooks cho phép người dùng gắn script shell tùy chỉnh tại các giai đoạn then chốt của quá trình thực thi (trước/sau lời gọi công cụ, lời gọi mô hình, hoặc tại điều kiện dừng) để ghi log, tùy biến tham số, hoặc chèn chỉ dẫn. Nhiệm vụ theo lịch cho phép bạn đặt prompt theo cron cho các lần chạy định kỳ như tóm tắt PR hằng ngày hoặc kiểm tra triển khai mỗi giờ, với kết quả hiển thị ở thanh bên để bàn giao mượt mà cho tương tác có con người trong vòng lặp.
Về quản lý, Antigravity giới thiệu "dự án" như một nguyên thủy tổ chức, giới hạn phạm vi cài đặt, tài nguyên và quyền theo nhóm agent, thay vì đòi hỏi quyền toàn cục rộng nhất cho mọi thứ. Bảng bên được làm mới hỗ trợ nhóm hội thoại theo dự án, trạng thái hoặc mức độ gần đây, với hỗ trợ Git worktree gốc tích hợp. Bố cục theo dự án này tương tự quản lý không gian làm việc đa cửa sổ của Cursor và hàng đợi tác vụ của Codex, nhưng với phạm vi quyền theo dự án chặt chẽ hơn.

Nhập liệu giọng nói qua các mô hình Gemini Audio và các lệnh gạch chéo mới (/goal cho các lượt chạy tự chủ, /grill-me để làm rõ trước tác vụ, /schedule cho prompt theo cron, /browser để bật duyệt web khi cần) hoàn thiện trải nghiệm người dùng.
Antigravity 2.0 bắt đầu khả dụng cho người dùng từ hôm nay. Gói Google AI Ultra (100 đô/tháng) bao gồm hạn mức sử dụng trong Antigravity cao gấp 5 lần so với gói Google AI Pro.
Managed Agents trong Gemini API
Cùng với Antigravity 2.0, Google công bố Managed Agents trong Gemini API, đưa năng lực agentic trực tiếp vào lớp API cho nhà phát triển muốn xây dựng ứng dụng vận hành bởi agent mà không phải tự quản hạ tầng điều phối. Đây là phần bù ở cấp API cho trải nghiệm desktop của Antigravity.
Hệ quả thực tiễn cho nhà phát triển là bạn có thể định nghĩa hành vi agent, tích hợp công cụ và quy trình nhiều bước qua Gemini API và để hạ tầng của Google xử lý việc thực thi. Điều này có tiềm năng thực sự thay đổi cuộc chơi cho các đội ngũ xây dựng ứng dụng sản xuất cần thực thi tác vụ đường dài mà không phải tự dựng và quản bộ khung agent. Truy cập có sẵn qua Google AI Studio, và khách hàng doanh nghiệp có thể dùng qua Gemini Enterprise Agent Platform.
Một lưu ý thẳng thắn: phản hồi sớm từ nhà phát triển trong các bài tường thuật I/O cho thấy tài liệu về luồng agent phức tạp và xử lý lỗi vẫn còn ít. Giới hạn tốc độ và quản lý quota cũng bị nêu là điểm ma sát. Đây có lẽ sẽ bớt vấn đề theo thời gian, nhưng vẫn đáng cân nhắc trước khi bạn quyết định xây dựng trên ngăn xếp này.
Gemini Spark
Gemini Spark (không nhầm với LLM mới nhất của Meta, Muse Spark) là agent AI cá nhân mới của Google, và là thông báo mang tính người dùng nhất trong nhóm agentic. Nó chạy 24/7 trên các máy ảo chuyên dụng trong Google Cloud, nghĩa là không cần mở laptop của bạn để tiếp tục làm việc. Spark được vận hành bởi Gemini 3.5 và bộ khung Antigravity, cho phép xử lý các tác vụ đường dài ở chế độ nền.
Bộ tính năng khi ra mắt gồm:
- Tích hợp với các công cụ của Google (Workspace, Gmail, Calendar) ngay khi ra mắt, hỗ trợ công cụ bên thứ ba qua MCP sẽ có trong những tuần tới.
- Tương tác qua ứng dụng Gemini, sắp tới là qua email và chat.
- Hoạt động trực tiếp trong Chrome như một lớp trình duyệt agentic, ra mắt vào mùa hè này.
- Tiến độ tác vụ trực tiếp hiển thị qua Android Halo, một không gian giao diện mới trên Android, dự kiến cuối năm nay.
Sự so sánh với hệ sinh thái agent của OpenAI và khả năng dùng công cụ của Anthropic là đáng để nói thẳng. Điểm khác biệt của Spark là khả năng thực thi liên tục 24/7 trên hạ tầng Google Cloud, kết hợp với tích hợp sâu vào bộ công cụ năng suất của Google. Nếu công việc của bạn vốn dĩ nằm trong Google Workspace, đó là một lợi thế đáng kể. Nếu không, đề xuất giá trị sẽ kém rõ ràng hơn.
Riêng tư là mối quan ngại chính đáng ở đây. Một agent liên tục giám sát hộp thư, lịch và tài liệu của bạn đặt ra câu hỏi thực thụ về lưu trú dữ liệu và tuân thủ trong các ngành được quản lý chặt. Chẳng hạn, tôi tự hỏi: "Điều gì xảy ra với bộ nhớ của agent khi một nhân viên rời công ty?" Google chưa đưa ra câu trả lời chi tiết cho những câu hỏi này. Spark sẽ ra mắt cho nhóm thử nghiệm tin cậy trong tuần này, với bản Beta cho người đăng ký Google AI Ultra (100 đô/tháng) tại Mỹ vào tuần kế tiếp.

Agent Tìm kiếm và Chế độ AI
Chế độ AI trong Tìm kiếm được giới thiệu tại I/O năm ngoái. Một năm sau, nó đã vượt mốc một tỷ người dùng hoạt động hàng tháng. Giờ đây, Google tiến xa hơn với hai khả năng agentic mới.
Đầu tiên là agent thông tin trong Tìm kiếm: các agent nền được cá nhân hóa do bạn cấu hình để theo dõi chủ đề và hiển thị thông tin phù hợp vào đúng thời điểm. Tính năng này sẽ được triển khai vào mùa hè này, bắt đầu với người đăng ký Google AI Pro và Ultra.
Thứ hai là giao diện sinh trong Tìm kiếm, được cung cấp bởi Gemini 3.5 Flash và Antigravity. Tìm kiếm giờ có thể dựng bố cục tùy chỉnh, hình ảnh tương tác, thậm chí bảng điều khiển hoặc mini-app bền bỉ cho các truy vấn phức tạp, kéo dài. Khả năng giao diện sinh sẽ đến với tất cả người dùng miễn phí trong mùa hè này. Tính năng bảng điều khiển bền bỉ và app tùy chỉnh sẽ khả dụng trước tiên cho người dùng Pro và Ultra tại Mỹ.
Đây là mối lo thực sự cho nhà xuất bản và chuyên gia SEO (giống như khi AI Overview và Chế độ AI được giới thiệu trước đó). Khi câu trả lời do AI tạo ra giải quyết trọn vẹn truy vấn ngay trong Tìm kiếm, người dùng không còn lý do để nhấp vào trang nguồn. Điều này đã xảy ra rồi: cả AI Overviews và đợt triển khai ban đầu của Chế độ AI đều dẫn đến sụt giảm lưu lượng đáng kể trên toàn ngành. Google vẫn chưa đưa ra cách rõ ràng để chia sẻ doanh thu hoặc đảm bảo lưu lượng cho các nhà xuất bản có nội dung cấp dữ liệu cho các câu trả lời này.
Google Flow
Google Flow, ra mắt tại I/O 2025 như một công cụ làm phim bằng AI, đã tiến một bước dài với ba cập nhật chính:
- Agent lập kế hoạch thông minh hơn. Agent Flow được cập nhật giờ có thể lập kế hoạch và suy luận qua các dự án sáng tạo nhiều bước. Bạn cung cấp đầu vào (ví dụ: ý tưởng, vài ảnh tham chiếu, kịch bản nháp) và nó giúp bạn đi từ giai đoạn động não đến tạo dựng và chỉnh sửa, tất cả trong một môi trường. Agent mới hiện sẵn sàng cho mọi người dùng.
- Video gốc qua Gemini Omni. Flow giờ xử lý tạo và chỉnh sửa video gốc qua mô hình Omni. Bạn có thể mô tả các thay đổi cho một đoạn clip trong cuộn camera bằng ngôn ngữ tự nhiên và lặp lại theo kiểu hội thoại. Tính nhất quán nhân vật cũng được cải thiện, nên danh tính và giọng nói được giữ xuyên suốt các cảnh. Điều này đặc biệt hữu ích khi bạn sản xuất phim ngắn hoặc chiến dịch quảng cáo với nhân vật lặp lại.
- Vibe coding cho công cụ tùy chỉnh. Thay vì bị giới hạn bởi các công cụ Flow sẵn có, giờ bạn có thể tự xây dựng trực tiếp trên nền tảng. Google đã trình diễn các ví dụ như thiết kế hiệu ứng video tùy chỉnh, tạo công cụ hoạt hình vẽ tay và dựng quy trình xếp lớp văn bản, tất cả mà không rời Flow.
Tổng hòa lại, các cập nhật này định vị Flow không chỉ là một trợ lý sáng tạo. Nó đang trở thành nền tảng để xây dựng quy trình sáng tạo, với ứng dụng di động hiện beta trên Android và sắp có trên iOS.
Mở rộng SynthID
SynthID, hệ thống watermark AI vô hình của Google, đến nay đã gắn watermark cho hơn 100 tỷ hình ảnh và video cùng 60.000 năm tài sản âm thanh kể từ khi ra mắt ba năm trước. Thông báo tại I/O quan trọng nhất ở đây không phải là quy mô, mà là các đối tác: OpenAI, Kakao và Eleven Labs đang áp dụng SynthID cùng với Nvidia, đơn vị đã tham gia từ năm ngoái.
Sự chấp nhận trên toàn ngành mới là điều khiến nó có ý nghĩa. Một tiêu chuẩn watermark chỉ hiệu quả nếu nó đủ phổ biến để "không có watermark" trở thành một tín hiệu hữu ích. Google cũng đang mở rộng xác minh Content Credentials (tiêu chuẩn C2PA) lên Tìm kiếm và Chrome, sẽ cho người dùng biết nội dung có nguồn gốc từ AI hay máy ảnh và liệu nó có được chỉnh sửa bằng công cụ tạo sinh hay không. Sự kết hợp giữa SynthID và C2PA mang lại hai lớp nguồn gốc độc lập, là hướng tiếp cận đúng đắn xét tới việc mỗi lớp đều có thể bị loại bỏ tương đối dễ dàng nếu đứng một mình.
Những điểm đáng chú ý khác
Một số thông báo khác từ I/O cũng đáng điểm nhanh:
- Docs Live: Tính năng ưu tiên giọng nói mới cho Google Docs cho phép bạn nói tuôn ý tưởng và để Gemini cấu trúc chúng thành tài liệu. Sẽ triển khai cho người đăng ký vào mùa hè này, đồng thời khả năng dùng giọng nói cũng đến với Gmail và Keep.
- Google Pics: Công cụ tạo và chỉnh sửa ảnh AI mới xây dựng trên mô hình Nano Banana, xử lý mỗi thành phần như một đối tượng riêng thay vì ảnh phẳng. Hiện có cho nhóm thử nghiệm tin cậy, sẽ mở cho người đăng ký Google AI Pro và Ultra vào cuối mùa hè.
- Android Halo: Không gian giao diện mới trên Android để xem cập nhật trực tiếp và tiến độ tác vụ từ các agent như Gemini Spark. Dự kiến ra mắt cuối năm nay.
- Daily Brief: Một agent dựng sẵn trong ứng dụng Gemini, biên soạn bản tóm tắt buổi sáng cá nhân hóa từ hộp thư, lịch và tác vụ của bạn, kèm bước gợi ý tiếp theo. Chưa công bố giá riêng; dự kiến là một phần trải nghiệm ứng dụng Gemini.
- TPU 8t và 8i: Thế hệ TPU thứ 8 của Google áp dụng cách tiếp cận hai chip, với 8t tối ưu cho tiền huấn luyện quy mô lớn (gần gấp 3 lần hiệu năng tính toán thô so với thế hệ trước, có thể mở rộng trên hơn 1 triệu TPU toàn cầu) và 8i tối ưu cho suy luận. Cả hai mang lại hiệu năng trên mỗi watt cao hơn tới 2 lần so với thế hệ trước.
- Gemini for Science: Bộ công cụ AI kết nối Antigravity với hơn 30 cơ sở dữ liệu khoa học đời sống lớn. Science Skills hiện có trên GitHub và trực tiếp trong Antigravity.
Suy ngẫm cuối cùng
Google I/O 2026 đặt cược vào agent như hướng đi chủ đạo của AI, với Gemini 3.5 Flash và Antigravity 2.0 là hạ tầng bên dưới hầu như mọi thứ khác được công bố. Những thứ bạn có thể dùng ngay gồm Gemini 3.5 Flash (qua Gemini API và AI Studio), agent Flow mới, Gemini Omni Flash và ứng dụng desktop Antigravity 2.0. Gemini Spark, agent Tìm kiếm và các tính năng giao diện sinh trong Tìm kiếm sẽ được triển khai trong mùa hè, phần lớn bị giới hạn bởi bậc AI Ultra 100 đô/tháng (ít nhất là ban đầu).
Với tôi, bản nâng cấp Antigravity là phát hành thú vị nhất, vì nó vận hành đồng thời trên hai tầng: như một ứng dụng nhà phát triển độc lập, nó cạnh tranh trực tiếp với Codex và Claude Code; như một nền tảng, ADK và Managed Agents API bên dưới của nó thách thức các khung điều phối như LangChain, AutoGen và OpenAI's Agents SDK. Lớp tích hợp Gemini và triển khai Google Cloud là điểm khác biệt (và rủi ro khóa chặt) ở cả hai mặt trận.
Google I/O 2026 FAQs
Gemini 3.5 Flash so với GPT-5.5 và Claude Opus 4.7 thì thế nào?
Gemini 3.5 Flash dẫn đầu trên một số benchmark agentic như MCP Atlas (83,6%) và Finance Agent v2 (57,9%), trong khi GPT-5.5 nhỉnh hơn ở SWE-Bench Pro và ARC-AGI-2. Claude Opus 4.7 vẫn mạnh nhất ở Humanity's Last Exam (46,9%). Kết luận chính là nó cạnh tranh với các mô hình tuyến đầu đồng thời chạy nhanh hơn và rẻ hơn đáng kể ở quy mô lớn, đúng như cái tên gợi ý. Phiên bản Pro mạnh hơn dự kiến sẽ sớm phát hành.
Google Antigravity khác gì so với Claude Code hoặc Codex?
Google Antigravity 2.0 là nền tảng phát triển ưu tiên agent cho phép bạn điều phối nhiều AI agent song song qua ứng dụng desktop, CLI, SDK và API doanh nghiệp. Khác với Claude Code (agent lập trình gốc terminal) hay Codex (hệ thống dựa trên hàng đợi tác vụ), Antigravity cung cấp phạm vi quyền theo dự án chặt chẽ hơn, khả năng sinh subagent và tích hợp trực tiếp với Google Cloud và Firebase. Vai trò kép vừa là công cụ cho nhà phát triển vừa là SDK nền tảng khiến nó giống một khung điều phối hơn là một trợ lý mã hóa độc lập.
Gói Google AI Ultra 100 đô/tháng có đáng so với ChatGPT Pro hoặc Claude Max không?
Cả ba gói đều có giá 100 đô/tháng, nhưng giá trị phụ thuộc vào hệ sinh thái bạn dùng. Điểm khác biệt của Google AI Ultra là quyền truy cập vào Gemini Spark (agent bền bỉ 24/7), hạn mức sử dụng Antigravity cao gấp 5 lần, và tích hợp sâu với Google Workspace. Nếu quy trình làm việc của bạn đã ở trong Gmail, Docs và Calendar, Ultra có lợi thế tự nhiên. Nếu bạn chủ yếu cần trợ giúp lập trình hoặc linh hoạt ở cấp API, ChatGPT Pro hoặc Claude Max có thể phù hợp hơn.
Gemini Omni là gì và nó xử lý tạo video như thế nào?
Gemini Omni là mô hình đa phương thức gốc của Google có thể nhận mọi tổ hợp văn bản, hình ảnh, âm thanh và video làm đầu vào và tạo video đầu ra. Nó hợp nhất các hệ thống trước đây tách rời (Veo cho video, Imagen cho hình ảnh) thành một mô hình, giúp chỉnh sửa xuyên phương thức mạch lạc hơn. Phiên bản đầu tiên, Omni Flash, hiện khả dụng, với một Omni Pro mạnh hơn dự kiến sắp ra mắt. Chưa có benchmark độc lập được công bố, nên chất lượng thực tế vẫn đang được đánh giá.

Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.