Tracks
Google 于 5 月 19 日在 I/O 2026 上宣布了 Gemini 3.5 Flash。这一模型在 Agentic 与编程基准上超越了 Gemini 3.1 Pro,同时在同级别前沿模型中实现了四倍的输出速度。
这一发布正值 AI 行业的竞争重心明确转向 Agentic 表现之际。代码代理、多步骤工作流自动化与长周期任务执行成为主要战场,Google 正将 3.5 Flash 定位为对这一趋势的回应。
对于数据科学家、ML 工程师和开发者等各类专业人士来说,这很重要,因为 3.5 Flash 现在(或即将)成为 Gemini 应用与搜索 AI 模式的默认模型,并已通过 Gemini API 上线可用。本文将涵盖发布内容、亮点、基准数据,以及这对您的工作意味着什么。
Gemini 3.5 Flash 有何新变化
Gemii 3.5 Flash 的核心卖点是速度与前沿级性能的结合。Google 表示,3.5 Flash 在单位时间输出的令牌数上快四倍于其他前沿模型,同时在对 Agentic 工作最关键的基准上优于 Gemini 3.1 Pro。
在 Terminal-Bench 2.1 上,它得分 76.2%。在 GDPval-AA 上,达到 1,656 Elo。在 MCP Atlas 上,达到 83.6%。在多模态理解方面,它在 CharXiv Reasoning 上得分 84.2%。
简而言之,这些数字意味着 AI 领域里“快、便宜、聪明三选二”的旧规则正变得不那么适用。我们正在获得一款轻量模型,能在不带来巨大延迟的情况下处理复杂的多步骤代理工作流。
Google 表示,该模型今天起将在 Google AI Studio、Gemini API、Android Studio、Gemini Enterprise Agent Platform 和 Gemini Enterprise 上普遍可用。它也成为全球范围内 Gemini 应用与搜索 AI 模式中的新默认模型。
Google 还宣布,Gemini 3.5 Pro 正在开发中,已在内部使用,预计下月开始推送。3.5 Flash 的发布,是 Google 所称围绕 Agentic 执行构建的新模型家族的开端。
Gemini 3.5 背景
Gemini 3 系列确立了 Google 在前沿模型竞赛中的当前位置。2026 年 2 月发布的 Gemini 3.1 Pro 上线时领跑 Artificial Analysis Intelligence Index,并在 ARC-AGI-2 上取得 77.1% 的成绩,较 Gemini 3 Pro 在同基准的 31.1% 实现了翻倍以上提升。
正如我们在GPT-5.5 与 Gemini 3.1 Pro 对比中所述,Gemini 3.1 Pro 的优势在于复杂的视觉推理与多模态任务。
在 Gemini 家族中,Flash 命名一向意味着为速度优化的模型。3.5 Flash 的不同之处在于,Google 声称它在保持 Flash 速度的同时具备前沿级智能,而非以质量作为交换。根据 Google 的说法,Artificial Analysis 指数将 3.5 Flash 放在右上象限,即同时具备高智能与高输出速度。
Antigravity 工具链——Google 用于部署协作子代理的框架——是 3.5 Flash 定位的核心。它不只是一个独立模型,更是 Google 与模型同步构建的多代理架构中的组件。
Gemini 3.5 的关键特性
以下是发布中最值得关注的信息拆解。
基准表现
关于 3.5 Flash 的基准主张相当具体,值得直接查看。该模型在以下方面优于 Gemini 3.1 Pro:
- Terminal-Bench 2.1:76.2%(根据我们此前报道,Gemini 3.1 Pro 在 Terminal-Bench 2.0 上为 68.5%)
- GDPval-AA:1,656 Elo(Claude Opus 4.7 发布时以 1,753 Elo 领跑该基准,见我们的Claude Opus 4.7 与 Gemini 3.1 Pro 评测)
- MCP Atlas:83.6%(我们此前测试中,Gemini 3.1 Pro 在 MCP Atlas 上为 73.9%)
- CharXiv Reasoning:多模态理解 84.2%
速度方面同样值得注意:在单位时间输出令牌数上比其他前沿模型快四倍。Google 在研究附注中未明确对比对象,因此该数字应视为方向性参考,而非精确的正面对比。
Agentic 架构与 Antigravity
3.5 Flash 旨在与 Antigravity 工具链协同工作,这是 Google 用于运行协作子代理的框架。借助 Antigravity,模型可以并行部署多个子代理、执行多步骤工作流,并在长周期任务中保持表现。
Google 的示例包括:用两个代理在六小时内综述 AlphaZero 论文并完成一款可完整游玩的游戏,以及将遗留代码库迁移至 Next.js。这些并非“玩具”演示,而是反映出开发者多日任务正由 Agentic 系统承担。
真实的企业落地
多家企业已在生产或试点中运行 3.5 Flash。具体用例值得关注,它们展示了模型的 Agentic 优势正被应用于何处:
- Shopify:并行运行子代理,在长周期内分析复杂数据,为商家增长做预测
- Macquarie Bank:以低延迟对 100 多页文档进行推理,用于客户开户试点
- Salesforce:集成至 Agentforce,实现多子代理的企业任务自动化与多轮工具调用
- Xero:部署代理以管理跨数周的工作流,包括为小企业准备 1099 税表
- Databricks:使用 Agentic 工作流监控实时信息、诊断问题,并在大型数据集上提出解决方案
- Ramp:通过多模态理解结合对历史模式的推理,提高复杂发票的 OCR 准确率
Gemini Spark 与消费者可用性
3.5 Flash 也是 Gemini Spark 的底层模型。Gemini Spark 是 Google 新的个人 AI 代理,可 24/7 代表用户采取行动。Google 正向受信任测试者推送 Spark,并计划在 I/O 公告后一周向美国的 Google AI Ultra 订阅者推出 Beta。
通过 Gemini 应用与搜索 AI 模式,该模型今天起面向全球数十亿用户开放使用,这是 Google 在 Gemini 模型上为消费者与开发者同时进行的规模最大的一次发布之一。
安全与防护
Google 表示,3.5 Flash 依照其 Frontier Safety Framework 开发,并强化了网络与 CBRN 防护。公司使用可解释性工具在模型响应前检查其内部推理,旨在同时减少有害输出与对安全查询的不当拒答。
面向数据与 AI 从业者的 Gemini 3.5
最直接的实际影响是:3.5 Flash 将在 Google AI Studio 的 Gemini API 上即刻可用。若您在构建 Agentic 流水线,MCP Atlas 83.6% 的分数与 Antigravity 多代理工具链的组合,值得与您当前使用的方案进行对比测试。
1,656 Elo 的 GDPval-AA 分数落后于我们早前评测中的 Claude Opus 4.7(1,753 Elo),但视您的延迟需求而定,3.5 Flash 的速度优势可能更为重要。
对于运行长周期工作流的团队,Xero 与 Shopify 的落地最具参考价值。将跨数周的工作流压缩为自动代理运行,是 Google 正在优化的用例,而 Antigravity 工具链是实现这一点的基础设施层。若您尚不熟悉多代理的编排模式,现在是补课的好时机。
我会特别关注的一点:Google 表示,3.5 Flash 在可比任务上的成本不到其他前沿模型的一半。该结论高度依赖于您的具体负载,但如果在实践中成立,将改变大规模运行 Agentic 系统的经济性。预计下月到来的 3.5 Pro,将是从事最重推理工作的团队更值得对比的对象。
结语
Gemini 3.5 Flash 表明 Google 打算在性能—速度曲线的两端同时竞争,而不仅是旗舰档。以 Flash 速度超越 Gemini 3.1 Pro 的 Agentic 基准表现是一次重要转变,而 Shopify、Macquarie 与 Salesforce 的企业部署也表明该模型在受控基准之外依旧可靠。
更宏观地看,Google 正在重注 Agentic 基础设施:Antigravity、Gemini Spark 与 3.5 Flash 指向同一方向。这一押注能否奏效,取决于下月到来的 3.5 Pro 的表现,以及 Antigravity 与竞品多代理框架在真实开发者工作流中的对比结果。
若您想尽快掌握 Agentic AI 的核心概念及其构建方法,建议查看 DataCamp 的AI Agent Fundamentals 技能路线。