跳至内容

Google I/O 2026:代理型 Gemini 时代的开端

从 Gemini 3.5 Flash 和 Gemini Omni 到 Antigravity 2.0 与 Gemini Spark,速览 Google 面向“代理”的 I/O 2026 主题演讲要点。
更新 2026年5月20日  · 12分钟

Google I/O 2026 大会首日几乎每一项发布都指向同一条主线:代理(agents)。不是聊天机器人,也不是助手,而是能够在后台持久运行、执行任务,并贯穿 Google 全产品栈的代理。CEO Sundar Pichai 明确将其定义为“代理型 Gemini 时代”,而相关发布也印证了这一定位。

同时,Google 也回应了 Anthropic 的 Claude Max 和 OpenAI 的 ChatGPT Pro 订阅,I/O 上推出了新的 Google AI Ultra 套餐,定价同为每月 100 美元,并将下文所述部分代理功能纳入访问门槛。

本文将带您梳理对 AI 从业者和开发者最重要的发布,重点关注已可用或即将推出的更新。

Gemini 3.5 Flash

Gemini 3.5 Flash 是 I/O 2026 的重磅模型发布。在代理与编程基准上,它优于 Gemini 3.1 Pro;Google 声称其输出令牌每秒速度较其他前沿模型快 4 倍。我们尚无法证实,但这无疑是个大胆的说法。

从基准测试看,提升相当明显,尤其是在 MCP Atlas、CharXiV Reasoning 和 Finance Agent v2 等项目上,Gemini 3.5 Flash 均领跑。总体而言,3.5 Flash 与 Claude Opus 4.7GPT-5.5 具备竞争力。

基准

3.5 Flash

3 Flash

3.1 Pro

Claude Sonnet 4.6

Opus 4.7

GPT-5.5

Terminal-bench 2.1

76.2%

58.0%

70.3%

--

66.1%

78.2%

SWE-Bench Pro

55.1%

49.6%

54.2%

--

64.3%

58.6%

MCP Atlas

83.6%

62.0%

78.2%

69.5%

79.1%

75.3%

OSWorld

78.4%

65.1%

76.2%

72.5%

78.0%

78.7%

Finance Agent v2

57.9%

42.6%

43.0%

51.0%

51.5%

51.8%

CharXiv Reasoning

84.2%

80.3%

83.3%

72.4%

82.1%

84.1%

Humanity's Last Exam

40.2%

33.7%

44.4%

33.2%

46.9%

41.4%

ARC-AGI-2

72.1%

33.6%

77.1%

58.3%

75.8%

84.6%

成本维度也值得关注。Google 称,日均处理约 1 万亿令牌的企业,若将 80% 的工作负载从其他前沿模型迁移到 3.5 Flash,年度可节省超 10 亿美元。这是直指 OpenAI 与 Anthropic 企业客户的“降本”诉求。Gemini 3.5 Flash 今日起可通过 Gemini API、Google AI Studio 和 Gemini 应用获取。Gemini 3.5 Pro 已在内部使用,预计下月推出。

想了解更多细节,建议阅读我们的 Gemini 3.5 Flash 文章,我们对该模型做了更深入的介绍。

Gemini Omni

Gemini Omni 是 Google 新的原生多模态生成媒体模型,能够接收文本、图像、音频和视频的任意组合作为输入,并生成视频输出。该系列首款模型 Gemini Omni Flash 今日起在 Gemini 应用、Google Flow 和 YouTube Shorts 中可用。

架构上的关键点在于,Omni 将此前分裂的技术栈(用于视频的 Veo、用于图像的 Imagen,以及独立的音频系统)整合为单一模型。这意味着跨模态协作时编辑更一致、流程伪影更少。Google 并未在发布同时公布 Omni 的量化基准,因此独立评估仍在进行中。面向开发者与企业客户的 API 访问将于 I/O 结束后的数周内推出。

我们已进行测试,并在Gemini Omni 文章中完整记录。首次视频生成的效果有好有坏(至少相较于 Seedance 2.0 等工具树立的高标准而言),但更强大的 Gemini Omni Pro 预计很快发布。

Antigravity 2.0

Antigravity 是 Google 的“代理优先”开发平台,此次 I/O 发布的 2.0 是一次重大的扩展。此前它更像一个编码环境,如今已成为用于开发、部署与管理自主 AI 代理群组的完整平台。其核心是一款全新的独立桌面应用,作为代理编排的中枢,允许您并行运行多个代理,同时处理不同任务。

该生态现面向开发者提供四个不同界面:

  • Antigravity 2.0 桌面应用:并行编排多个代理,支持计划的后台任务。与 Google AI Studio、Android 和 Firebase 集成。
  • Antigravity CLI:原生于终端的界面,可在无 GUI 的情况下创建和运行代理。Google 建议 Gemini CLI 用户迁移至此。
  • Antigravity SDK:以编程方式访问支持 Google 自家产品的同一代理框架,支持在自有基础设施上托管自定义代理行为。
  • Gemini Enterprise Agent Platform 中的 Antigravity:将 Antigravity 直接连接到 Google Cloud 项目,以支持企业级工作负载。

核心代理也有数项非常实用的新功能。最大的一项是:现在可按需生成模块化子代理,各自并行运行,具备工作区隔离,并继承父代理的工具配置与权限。长耗时操作异步执行,不再阻塞代理循环。

类似于 Claude Code HooksJSON Hooks 允许用户在执行的关键阶段(工具调用前/后、模型调用前/后,或停机条件时)挂载自定义 Shell 脚本,用于日志记录、参数自定义或注入指令。计划任务支持基于 cron 的提示,用于周期性代理运行,如每日 PR 摘要或每小时部署检查,结果显示在侧边栏,方便无缝切换到有人参与的交互。

在管理侧,Antigravity 引入“项目”作为组织原语,以代理组为粒度限定设置、资源与权限范围,而非为一切授予最广泛的全局权限。全新侧边面板支持按项目、状态或时间分组会话,并内置原生 Git worktree 支持。这种基于项目的布局可类比 Cursor 的多窗口工作区管理与 Codex 的任务队列,但具备更紧密的项目级权限界定。

在开始新对话时,可轻松创建原生 Git worktree。

语音输入(通过 Gemini Audio 模型)与全新斜杠命令/goal 用于自主运行,/grill-me 用于任务前澄清,/schedule 用于 cron 提示,/browser 用于选择性启用浏览器)完善了整体体验。

Antigravity 2.0 今日起向用户开放。Google AI Ultra 套餐(每月 100 美元)在 Antigravity 中的使用额度较 Google AI Pro 套餐提升 5 倍。

Gemini API 的托管代理

与 Antigravity 2.0 同步,Google 宣布在 Gemini API 中推出托管代理(Managed Agents),将代理能力直接引入 API 层,适用于不想自建编排基础设施、而希望快速构建代理驱动应用的开发者。这是对 Antigravity 桌面体验的 API 级互补。

对开发者而言,实际意义在于:您现在可以通过 Gemini API 定义代理行为、集成工具并构建多步工作流,而将执行交由 Google 的基础设施处理。对于需要长周期任务执行、又不想自建和维护代理框架的生产团队而言,这可能真正改变游戏规则。可通过 Google AI Studio 访问,企业客户可通过 Gemini Enterprise Agent Platform 获取。

需要坦诚的一点是:根据 I/O 报道中的早期开发者反馈,复杂代理流程与错误处理的文档仍显不足。速率限制与配额管理也被视为摩擦点。随着时间推移,这些问题可能会缓解,但在您决定基于该栈构建之前,仍值得知悉。

Gemini Spark

Gemini Spark(不要与 Meta 最新 LLM Muse Spark 混淆)是 Google 面向个人用户的新 AI 代理,也是此次代理相关发布中最偏消费端的一项。它在 Google Cloud 的专用虚拟机上 24/7 持续运行,无需保持您的笔记本开启。Spark 由 Gemini 3.5 与 Antigravity 框架驱动,因而能够在后台处理长周期任务。

首发功能包括:

  • Google 自家工具(Workspace、Gmail、Calendar)集成;第三方工具通过 MCP 的支持将在随后几周推出。
  • 通过Gemini 应用进行交互,后续将支持邮件与聊天。
  • 作为Chrome中的代理浏览层直接运行,预计今夏稍晚推出。
  • 通过Android Halo 查看任务实时进度,这是一块 Android 上的新 UI 空间,预计今年晚些时候推出。

与 OpenAI 的代理生态、Anthropic 的工具使用能力的对比很有必要。Spark 的差异化在于其基于 Google Cloud 基础设施的 24/7 持续执行能力,以及与 Google 生产力套件的深度集成。若您的工作已深度依赖 Google Workspace,这会是实质优势;若非如此,其价值主张就没那么显而易见。

隐私是一个正当的担忧。持续监控您的收件箱、日历与文档的代理,确实会引发关于数据驻留与合规的疑问,尤其在受监管行业。例如,我自己会问:“员工离职后,代理的记忆如何处理?”Google 尚未就这些问题给出详尽答案。Spark 本周将面向受信任测试者逐步推出,下周将在美国向 Google AI Ultra 订阅用户(每月 100 美元)开启 Beta。

托管代理 vs Gemini Spark

搜索代理与 AI 模式

搜索中的 AI 模式于上届 I/O 首次亮相。一年之后,其月活已超过 10 亿。现在,Google 又在此基础上推进两项新的代理能力。

第一项是搜索中的信息代理:由您配置的个性化后台代理,用于持续监测主题,并在合适时机呈现相关信息。今年夏天开始向 Google AI Pro 与 Ultra 订阅用户推出。

第二项是搜索中的生成式界面,由 Gemini 3.5 Flash 与 Antigravity 提供支持。针对复杂且长周期的查询,搜索将构建自定义布局、交互式可视化,甚至是持久化的仪表板或迷你应用。生成式界面能力将于今夏免费向所有用户开放;持久化仪表板与自定义应用功能将首先向美国的 Pro 与 Ultra 订阅用户开放。

这对出版商与 SEO 从业者而言是实实在在的担忧(此前的 AI Overview 与 AI 模式已体现这一点)。当 AI 生成的答案在搜索中直接完全满足用户需求时,用户没有理由再点击来源站点。事实已经发生:AI Overview 与 AI 模式的初期上线,均导致行业普遍流量下滑。Google 仍未提出明确机制来分成或保障为这些答案提供内容的出版商的流量。

Google Flow

Google Flow 于 I/O 2025 以 AI 影视创作工具的身份亮相,此番通过三项关键更新实现重大跃迁:

  • 更聪明的规划代理。升级后的 Flow 代理可规划并推理多步骤的创意项目。您提供输入(例如概念、参考图、粗略脚本),它会在同一环境中,从早期脑暴到创作与编辑,帮您一路推进。新代理今日起向所有人开放。
  • 通过 Gemini Omni 的原生视频。Flow 现已通过 Omni 模型原生支持视频生成与编辑。您可以用自然语言描述对相册片段的修改,并以对话方式迭代。角色一致性也有所提升,能在多场景中保持身份与声音,特别适合制作含有复现角色的短片或广告活动。
  • 用于自定义工具的 Vibe 编码。不再局限于 Flow 自带工具,您现在可以在平台内直接构建自有工具。Google 展示了诸如定制视频特效、手绘动画工具、文本叠加流程等示例,且全程无需离开 Flow。

综合来看,这些更新让 Flow 不仅是创作助手,更正在成为构建创意工作流的平台;其移动应用已在 Android 上开启测试版,iOS 即将推出。

SynthID 扩展

SynthID 是 Google 的隐形 AI 水印系统,自三年前推出以来,已为逾 1000 亿张图像与视频、相当于 6 万年时长的音频资产添加水印。本次 I/O 最值得关注的并非规模,而是伙伴:OpenAI、Kakao 和 Eleven Labs 将与去年加入的 Nvidia 一同采用 SynthID。

跨行业的采用使其更有意义。水印标准只有在足够广泛普及时,“未加水印”才会成为有用信号。Google 还将内容凭据验证(C2PA 标准)扩展至搜索与 Chrome,向用户显示内容是由 AI 还是相机生成,以及是否使用生成式工具编辑。SynthID 与 C2PA 的组合为出处提供两层独立保障,这很有必要,因为任一层单独都容易被去除。

其他值得一提

I/O 的其他若干发布也值得快速关注:

  • Docs Live:Google 文档中的全新“语音优先”功能,支持您口述想法,由 Gemini 将其结构化为文档。今年夏天将向订阅用户推出,同时语音功能也将登陆 Gmail 与 Keep。
  • Google Pics:基于 Nano Banana 模型打造的全新 AI 图像创作与编辑工具,将每个元素视为独立对象而非平面图像。现已向受信任测试者开放,今夏稍晚向 Google AI Pro 与 Ultra 订阅用户推出。
  • Android Halo:Android 上的新 UI 空间,用于查看来自诸如 Gemini Spark 等代理的实时更新与任务进度。预计今年晚些时候推出。
  • Daily Brief:Gemini 应用内的开箱即用代理,从您的收件箱、日历与任务生成个性化的晨间简报,并附带后续建议。未单独公布定价,预计为 Gemini 应用体验的一部分。
  • TPU 8t 与 8i:Google 第八代 TPU 采用双芯片策略,8t 面向大规模预训练(原始算力较上代提升近 3 倍,可扩展至全球逾 100 万枚 TPU),8i 面向推理。二者的性能功耗比均提升至上代的最高 2 倍。
  • Gemini for Science:一组 AI 工具,将 Antigravity 连接到 30 余个主要生命科学数据库。Science Skills 今日可在 GitHub 与 Antigravity 中直接获取。

结语

Google I/O 2026 押注“代理”作为 AI 的主方向,Gemini 3.5 Flash 与 Antigravity 2.0 则是几乎所有发布背后的基础设施。您现在即可使用的包括 Gemini 3.5 Flash(通过 Gemini API 与 AI Studio)、新版 Flow 代理、Gemini Omni Flash,以及 Antigravity 2.0 桌面应用。Gemini Spark、搜索代理与搜索中的生成式界面将于今夏陆续推出,多数功能最初将置于每月 100 美元的 AI Ultra 套餐之后。

对我而言,Antigravity 的升级最有看点,因为它同时在两层面运作:作为独立开发者应用,它直接对标 Codex 与 Claude Code;作为平台,其底层 ADK 与托管代理 API 则挑战 LangChain、AutoGen 与 OpenAI 的 Agents SDK 等编排框架。Gemini 的一体化集成与 Google Cloud 的部署层,既是差异化优势,也是潜在的锁定风险。

Google I/O 2026 常见问题

Gemini 3.5 Flash 与 GPT-5.5 和 Claude Opus 4.7 相比如何?

Gemini 3.5 Flash 在多项代理基准上领先,如 MCP Atlas(83.6%)与 Finance Agent v2(57.9%);而 GPT-5.5 在 SWE-Bench Pro 与 ARC-AGI-2 上略胜一筹。Claude Opus 4.7 则在 Humanity's Last Exam(46.9%)上表现最强。总体来看,它在保持与前沿模型竞争力的同时,运行更快、在大规模下成本显著更低,正如其命名所暗示的那样。更强的 Pro 版本预计很快发布。

Google Antigravity 与 Claude Code 或 Codex 有何不同?

Google Antigravity 2.0 是一个“代理优先”的开发平台,支持您在桌面应用、CLI、SDK 与企业 API 上并行编排多个 AI 代理。不同于 Claude Code(终端原生的编码代理)或 Codex(基于任务队列的系统),Antigravity 提供更严格的项目级权限范围、子代理生成,以及与 Google Cloud 和 Firebase 的直接集成。其既是开发者工具,又是平台 SDK 的双重角色,使其更接近编排框架,而非单一的编码助手。

与 ChatGPT Pro 或 Claude Max 相比,每月 100 美元的 Google AI Ultra 套餐值得吗?

三种套餐均为每月 100 美元,但价值取决于您的生态选择。Google AI Ultra 的差异化在于可访问 Gemini Spark(24/7 持续运行的代理)、在 Antigravity 中 5 倍更高的使用额度,以及与 Google Workspace 的深度集成。若您的工作流主要在 Gmail、Docs、Calendar 中,Ultra 更具优势;若您主要需要编程协助或 API 级灵活性,ChatGPT Pro 或 Claude Max 可能更适合。

什么是 Gemini Omni?它如何处理视频生成?

Gemini Omni 是 Google 的原生多模态模型,接受文本、图像、音频与视频的任意组合作为输入,并生成视频输出。它将此前分离的系统(用于视频的 Veo、用于图像的 Imagen)统一到单一模型中,理论上能带来更一致的跨模态编辑体验。首个版本 Omni Flash 已可用,更强的 Omni Pro 预计很快发布。独立基准尚未公布,实际效果仍在评估中。

主题

了解 Google 的 AI 生态!

Tracks

Google Workspace 与 Gemini

4小时
你将了解 Gemini 的主要功能,以及如何利用它们提升 Google Workspace 中的生产力和效率。
查看详情Right Arrow
开始课程
查看更多Right Arrow