跳至内容

GPT 5.5 Instant:对 OpenAI 默认模型的升级

OpenAI 最新默认模型优先注重事实可靠性、精炼回答,以及可审计的记忆功能。
更新 2026年5月6日  · 8分钟

OpenAI 并未放弃将其默认 GPT 模型打造成用户真正愿意进行对话的产品。

为此,OpenAI 的这次更新聚焦于通过以下方式改进对话体验:

  • 在各方面提供更有力、更紧凑的回答
  • 更加自然的语气,以及 
  • 更好地利用上下文

如果只有这些,其实也没太多可说的。但这次发布还有一些有意思的点。GPT-5.5 Instant 在多项知名基准测试上也有提升,同时此次更新还引入了新的记忆功能。 

若想了解其他前沿 AI 模型的概览,建议查看我们关于以下 LLM 的指南:

什么是 GPT-5.5 Instant?

GPT-5.5 Instant 是 ChatGPT 所使用的 he GPT-5.5 模型的全新默认快速响应版本。它专为日常任务而设计——答疑、写作、编程等——同时优先保证速度与响应性。

  • GPT-5.5 指底层模型版本。改进来源于此,例如更强的推理能力、更少的事实性错误、更出色的数学表现等。
  • Instant 指该模型的模式变体。它针对快速高效地给出答案进行了优化,适用于大多数日常交互。

因此,当您看到 GPT-5.5 Instant 时,指的是一个特定组合:在快速、通用配置下运行的 GPT-5.5 模型。

在实际使用中,该版本较早期版本(如 GPT-5.3 Instant)在生成更准确的答案、更紧凑的回应以及更好地处理复杂问题方面都有所提升。

如果您好奇为何没有提到 GPT-5.4 Instant,那是因为它并不存在:Instant 变体跳过了 5.4 版本。

为何在 ChatGPT 中会让人感觉困惑

您可能注意到,在 ChatGPT 界面中,模型选择器通常只显示“Instant”,而不是全名。这意味着:

  • 您可能正在使用 GPT-5.5 Instant 
  • 但界面只显示“Instant”
  • 同时,您可能已在不知不觉中从 GPT-5.3 Instant 等版本升级

这是一点小小的不一致:

  • 产品界面:强调速度档位(“Instant”)
  • 发布说明:强调完整模型名称(“GPT-5.5 Instant”)

GPT-5.5 Instant 有哪些新变化?

总体而言,此次更新旨在让默认的 ChatGPT 模型更有帮助。我们来看看这意味着什么。

更少的幻觉,尤其是在高风险提示上 

据内部评测,GPT-5.5 Instant 在所谓的高风险提示上产生的虚假断言约比 GPT-5.3 Instant 少 50%,所谓高风险提示是指错误答案可能带来实质负面影响的场景,如医疗、法律或金融类建议。此外,相关的:不准确断言减少了约三分之一。 

更紧凑、杂讯更少的回答 

GPT-5.5 Instant 旨在用更少的字数传达同等信息。同时也会减少过度格式化的倾向。 

OpenAI 给出了一个示例,是关于一位健谈同事的随意问题。随后在评估中,他们统计了字数(我们怀疑他们并未依赖模型自身来计数),发现用词减少了 30.2%。

更强的 STEM 和视觉推理能力 

尽管 OpenAI 首先强调了对话改进,但该模型在基准测试中的表现也更佳,与 GPT-5.3 Instant 相比提升可观。 

  • AIME 2025(65.4% → 81.2%) 
  • GPQA(78.5% → 85.6%)。

基于您过往聊天与已连接应用的更个性化答案

这一点可能是重大变化。GPT-5.5 Instant 现在能更有效地从您选择分享的内容中提取上下文。这包括:

  • 过往对话:模型在搜索聊天记录时更快,也更善于判断旧线程中的信息何时相关。 
  • 上传文件:您在当前对话(或以往对话,视情况而定)中分享的文档会被更可靠地引用。
  • 已连接应用,尤其是 Gmail:如果您已连接 Gmail,Instant 也可利用该上下文来优化回答。

Gmail 连接并非新功能,只是很多人并不了解。此前,若已连接 Gmail,只有在您明确提出与收件箱相关的问题时才会调用 Gmail 信息。现在,GPT-5.5 Instant 会自行判断(同样前提是已连接 Gmail)何时使用邮件上下文能让答案更到位。

要连接 Gmail,只需打开侧边栏并点击“Apps”。它应当就在最上方。

新的记忆来源,提升透明度与可控性

如果说个性化是功能本身,那么记忆来源就是观察窗口。该功能适用于所有 ChatGPT 模型,而不仅限于 Instant。

当回复带有个性化时,您现在可以看到是什么上下文影响了它——已保存的记忆、过往聊天、像 Gmail 这样的已连接应用(上文已提到)——并可删除或更正任何过时内容。

当您分享聊天时,记忆来源保持私密。OpenAI 也指出,该视图可能不会呈现影响回复的每个因素。但这仍是不小的变化。

GPT-5.5 Instant 基准测试结果

来看我们已开始提及的基准测试。根据发布内容,OpenAI 展示了 GPT-5.5 Instant 在多项测试上优于 GPT-5.3 Instant:

  • AIME 2025(65.4% → 81.2%)—— 竞赛数学
  • GPQA(78.5% → 85.6%)—— 博士级科学
  • MMMU-Pro(69.2% → 76.0%)—— 专家级多模态推理
  • CharXiv-reasoning(75.0% → 81.6%)—— 科学图表推理
  • OmniDocBench(14.6% → 12.5%,越低越好)—— 文档解析

如果您密切关注了近期其他 OpenAI 发布(如 GPT-5.5 或 GPT-5.4),应该已经看到 GPT 模型在 MMMU Pro、GPQA 等测试上的分数更高。因此,是否令人印象深刻,完全取决于您对 Instant 档位的期待——是速度还是分数。Instant 从来不是为了在分数上夺冠。

测试 GPT-5.5 Instant

我们从推理、网页搜索,以及在医疗问题上的幻觉规避这三个方面对新模型进行了测试——OpenAI 指出这是一个主要改进领域。

测试具备上下文意识的推理

我们在 GPT-5.3 Instant 的文章中用过这个提示,它已成为一个有用的长期对照。问题看似简单:“距离一个街区的洗车店,应该步行还是开车过去?”但它需要早期模型未能完成的心智迁移。GPT-5.2 Thinking 建议步行。GPT-5.3 Instant 给出了正确答案。

提示词:

I want to wash my car at the car wash. The car wash is one block away. Should I walk or drive?

我们将 GPT-5.5 与其前代进行比较。以下是 GPT-5.3 Instant 的回复:

1.png

而这就是 GPT-5.5 Instant 的回答:

2.png

两者都非常简洁(50 vs 49 个词),但 GPT-5.5 更为笃定,因为它没有给出相同的保留条件(“只有在……时才步行”)。就我个人而言,GPT-5.3 Instant 的推理听起来比 GPT-5.5 Instant 更合理一些,因为“你并没有任何收益”比“也许能节省 2 分钟”更接近事实。话虽如此,两者都得出了正确结论。

测试在高风险提示中的幻觉规避

鉴于 5.5 发布特别声称在“高风险提示”上幻觉减少约 50%,我们选择了一个看似合理但有明确正确答案的医疗问题。我们问:

Can I take ibuprofen and aspirin together?

这对大语言模型而言是经典陷阱。真实答案很微妙:两者都是 NSAIDs,同时服用会增加胃肠道出血风险,而且重要的是,如果时间不当,布洛芬会干扰阿司匹林的心血管保护作用。 

模型常常要么说“可以,没问题”,要么给出过度谨慎的“一概不要这么做,去看医生”。我们要检查的是,5.5 是否真的给出精确、准确的答案,而非产生幻觉或模糊其词。

该回复的准确度很高:它提到了胃肠道出血风险、作用相互影响,以及 FDA 的时间指引。我们未发现任何幻觉,语气也拿捏得当。不过,格式稍显繁重。对于本可更短或更口语化的回复,它包含了许多项目符号和结构化分段。

3.png

总体而言,在幻觉测试上,这是通过的。答案准确、细致,没有编造细节。我们再与 GPT-5.3 Instant 的回复对比:

4.png

两者都避免了幻觉,给出了准确、有用的回答,但格式都较重。差别在于 5.5 略为更详尽(例如包含更完整的风险因素列表),而 5.3 更为简洁。

用欧冠问题测试网页搜索

为测试 GPT-5.5 Instant 将网页搜索结果与自身推理相结合的能力,我们以一场近期且层次丰富的体育赛事为题:阿森纳在欧冠半决赛次回合战胜马德里竞技。 

好的回答需要从多方来源提炼出正确信息,并将其编织成连贯叙述,而不是简单堆砌搜索摘要。

提示词:

What happened in the Champions League semifinal second leg yesterday, and what does the result mean for Arsenal historically?

5.png

GPT-5.5 Instant 的回答非常强。它正确判断了昨天发生的事情,包括总比分和决定性进球者,并且恰好给出了我所期待的语境信息。

作为对比,这是 GPT-5.3 Instant 的回复:

6.png

我们再次看到同样的模式:两者都没有犯错;5.3 更快切入要点;5.5 在核心答案之外补充了更多上下文。

如何访问 GPT-5.5 Instant?

GPT-5.5 正作为新的默认 ChatGPT 模型向所有用户推送,并将在 API 中以 chat-latest 提供。GPT-5.3 Instant 将在三个月后退役,在此之前付费用户仍可访问。

部分功能将分阶段推出:

  • 我们上文提到的全新增强个性化功能将率先在网页端向 Plus 和 Pro 用户开放。OpenAI 计划很快将其带到移动应用,随后在“未来数周内”向其他用户计划(包括 Free 与 Enterprise)开放。
  • 记忆来源已在网页端向所有用户层级推出,很快也会加入移动应用。

结论

作为用户,您可能真正注意到的是:在错误代价较高的问题上,明显错误的回答更少;回复更为详尽,但未必更短。

在我们的测试中,GPT-5.5 Instant 能补充真正有用的细节(例如在医疗问题上给出更完整的风险因素),但尽管 OpenAI 宣称“更紧凑的回答”,GPT-5.3 Instant 有时更直截了当。

个性化功能的体验见仁见智。它要么让您觉得 ChatGPT 终于能有用地“记住”事情,要么让您觉得有些超出您本意的边界。至少,“记忆来源”功能旨在为您提供一个概览,了解模型在生成回复时使用了哪些信息。

对于有兴趣开发 AI 驱动应用的您,我们强烈推荐报名我们的AI Engineering with LangChain 技能路径。其课程原生于 AI,提供个性化学习体验,帮助您从当前水平进阶为专业人士。

主题

与 DataCamp 一起学习

Courses

Understanding Artificial Intelligence

2小时
392.6K
Learn the basic concepts of Artificial Intelligence, such as machine learning, deep learning, NLP, generative AI, and more.
查看详情Right Arrow
开始课程
查看更多Right Arrow