跳至内容

ChatGPT Images 2.0:OpenAI 次世代图像模型指南

了解 ChatGPT Images 2.0 如何以更强的真实世界推理、多语言文本渲染、风格化真实感与“视觉思维伙伴”式工作流,将图像生成带入新纪元。
更新 2026年4月22日  · 14分钟

距第一代 ChatGPT Images 搭载 GPT Image 1 模型发布几乎正好满一年。OpenAI 再次对其图像模型进行了全面升级,并提出了一个新概念:所谓的“图像生成器”如今是一个“视觉思维伙伴”。

本文将带您了解有哪些新变化、它与前代 ChatGPT Images 1.5 的对比、与 Google 的 Nano Banana 2 的对比,以及该模型的优势与不足。

什么是 ChatGPT Images 2.0?

ChatGPT Images 2.0 是 OpenAI 的下一代图像模型。其定位是:先推理、再检索、后渲染。

ChatGPT Images 2.0 有哪些新功能?

ChatGPT Images 1.5 发布时最显著的亮点之一是速度的大幅提升。当时宣称快了 4 倍。我们尝试验证该说法,发现主要适用于编辑流程,而非从零生成新图像。 

这一次,主打的则是“智能”。ChatGPT Images 2.0 是一个会“思考”的图像模型:它应该能检索、基于事实进行推理,并将粗糙的输入(笔记、草图、参考)以更少的手动提示,转化为打磨好的视觉作品。

发布中的其他重点包括:

  • 对生成过程拥有更高的精度与可控性
  • 在多语言与多种文字系统上的更强表现
  • 更成熟的风格化表达与真实感
  • 更强的真实世界智能 内置于模型之中
  • 灵活的纵横比,满足从移动端到横幅等多种格式

会思考的模型

此次最大的宣称之一是:新模型会“思考”,可充当“视觉思维伙伴”。其理念是,智能体会在后台先充分理解任务并进行推理,再执行生成请求。

其世界知识已更新至 2025 年 12 月的截止点,因此输出更具上下文的准确性。据称这使得新模型非常适合教育类图表以及需要上下文的多步工作流。

搜索全网

为弥合知识截止点与最新信息之间的鸿沟,Images 2.0 可以进行网络搜索以获取相关信息。OpenAI 的发布说明并未详细说明其工作机制,但据我们理解,网络搜索是由上述“思考”智能体调用的一种工具。

一条提示生成多张图

新模型还原生支持用同一提示生成多张图像。此前可通过 API 的“变通方法”(提示一个“组合”)实现,但现在在 UI 中也可以完成,最多可达 10 张。OpenAI 承诺这些输出之间的人物与物体可保持连贯一致。

测试 ChatGPT Images 2.0

现在来看看新模型到底能做什么!我们测试了 Images 2.0 的以下能力与特性:

  • 编辑工作流
  • 思考模式与网页搜索
  • 风格多样性
  • 将粗糙草图打磨为成品
  • 纵横比的灵活性
  • 创造力

测试编辑工作流

OpenAI 对 2.0 的定位强调迭代:粗糙输入进,打磨素材出,并提升了指令跟随与密集文本渲染能力。我们用 1898 年著名的美国邮票 Western Cattle in Storm 来测试这一闭环。

下图是一枚品相为 Fine 的邮票照片。

1898 Western Cattle in Storm stamp in fine condition

为专门测试编辑工作流,我们在未开启思考模式的情况下使用了以下提示。这也意味着模型无法访问网页搜索,我们另行单独测试了搜索。

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

以下是结果:

Prompt: Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

仅靠文本提示并不奏效。对邮票及其品相的详细描述在关键点上大多是错误的——颜色不对、面值布局不对、离心失衡呈现得很卡通。仅凭文字再现一个特定的历史实物,本就很难。

将参考图像交给模型,并要求进行定向编辑,才是 2.0 发挥价值的地方:齿孔不规则、合页残留、对角胶痕、轻微泛黄、局部销戳等。

这些编辑大体按我们的要求落位。模型一度引入了纵横比回退,但用一次自然语言的跟进就修正了。最终结果称不上“取证级”——“$1” 略显拉伸,玉米图样不同——但闭环是有效的:粗起步、修偏航、三轮内得到可用结果。

Edited version of the stamp

测试思考模式与网页搜索

我们在测试网页搜索能力时需格外谨慎,因为如果您在提示中直接告知所需信息,测试的就不是搜索,而是指令跟随。最干净的测试方式是:请求非常新且非常具体的内容,几乎不给模型信息,看看它能否正确补全空白。

我们选了昨天的波士顿马拉松。比赛于周一 4 月 20 日结束——也就是 ChatGPT Images 2.0 发布前一天——男子赛道纪录自 2011 年以来首次被打破。这给了我一组具体事实(冠军、国家、成绩、领先幅度、背景),模型不可能从训练中得来,但通过快速搜索即可核验。

下面是刻意不含细节的提示。您可以从结果中看到,模型确实进行了网页搜索!

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Prompt: Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

结果在视觉上非常吸引人,并沿用了波士顿马拉松的配色,这是个加分点。所有提及的事实均准确无误,我们已复核验证。

与旧模型(Images 1.5)或关闭思考模式的新模型用同一提示的输出相比,这一结果更令人印象深刻:

Prompt: Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful. (Result without thinking mode)

从风格上看可以一较高下,但在数字相关的信息上存在不少问题。

  • 这次是波士顿马拉松的第 130 届,应为“129 年传统”,而非 127。
  • “成为历史上第三位全马跑进 2:04 的选手”也不正确。已有约 20 名选手做到过。
  • 据波士顿田径协会网站,他的后半程成绩为 1:00:02,而非 1:01:05(尽管后者可能仍是史上最快的半程)。
  • 最重要的是,ChatGPT Images 混淆了新旧纪录时间。旧纪录为 2:03:02;新纪录为 2:01:52;差距是 1 分 10 秒。
  • 鉴于 John Korir 去年也赢得了波士顿马拉松,若今年冠军不同,它大概率也会把名字弄错。

在呈现最新信息的视觉化方面,搜索能力确实带来差异。要使用该能力,必须开启思考模式。

测试风格多样性

OpenAI 宣称在风格化表达方面取得了真实进展——涵盖摄影、插画、漫画、像素画等。更诚实的测试不是看单张图是否好看,而是看相同主体以三种不同风格呈现时,能否对各自流派做到真实还原,还是都会带着同样的“AI 光泽”。

为测试这一点,我们请求了三种版本的同一主题:一台放在木质工作台上的意式咖啡机(摄影、漫画、像素风)。以下是提示与结果:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

Vintage espresso machine (photograph)

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Copyright-related request denial

这是个有趣且颇具讽刺意味的结果——要知道,一年前 Image 1 因为人人都在做“吉卜力工作室风”蒙太奇而走红(我们也做过)。看来 OpenAI 如今在版权与知识产权方面更加谨慎。

通过描述大友克洋的风格特征而不直接点名,我们成功生成了类似风格。需要注意的是,我们必须开启一个新的对话才奏效。在原对话中,模型似乎意识到我们在试图绕过限制。

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

Vintage espresso machine (black-white anime)

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Vintage espresso machine (pixel-art)

在我们看来,三张图都很出色,并忠实呈现了所请求的特定风格。照片非常自然,另外两张分别可直接放进漫画书或 SNES 游戏中。

上述测试中另一个显著点是:模型利用其灵活的纵横比能力为每张图量身定制——照片为 16:9 横构图,漫画版为竖构图,像素画为方形。

测试灵活纵横比

本次发布支持 3:1 到 1:3 的纵横比,以及最高 2K 分辨率。有趣的问题不在于它能否生成很高或很宽的图像——而在于模型是否会在不同格式间智能重构画面,而非仅仅裁剪。

要揭示模型底层的空间逻辑,我们需要一个包含多轴向、不可或缺元素的场景(既有高耸元素、也有横向元素,还有一个中心主体)。

作为测试,我们先基于一个提示生成主体(特定场景中的宇航员),然后让模型分别将其重制为手机壁纸、横幅与方图,观察构图如何自适应。

基础提示:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Prompt: A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

看看它如何变化:

Recreate the original image as a banner

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Recreate the original image as a square

每个版本都选择了与请求相称的纵横比,包含所有关键元素(宇航员、探测车、行星),按原提示要求的相对位置进行编排,并确保居中。测试通过。

测试从粗糙输入到打磨输出

“思维伙伴”的定位,建立在模型能够接受模糊或杂乱的输入——粗糙草图、要点清单、若干参考——并将其转化为成品素材之上。这正是本次发布的核心工作流,最值得直接测试。

为此,我们上传了下面这张非常粗糙的湖畔小屋铅笔草图:

Pencil sketch

为增加难度,草图包含不少细节,使用了芬兰语“码头”一词“laituri”,且因同时包含两类建筑(房屋与木屋)和两类水面(湖与池塘)而具有潜在混淆点。

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Prompt: Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

在未开启思考模式时,结果看起来尚可,但并不十分逼真。尽管如此,光线匹配良好,整体氛围与提示高度契合。我们几乎能看到草图中的所有元素。有几处细节有误:

  • 没有小船
  • 码头在池塘上,而不是在湖上
  • 太阳位置不在右上角

当我们使用相同提示和草图、但开启思考模式时,输出更为逼真,并修复了所有小的不准确之处:

Prompt: Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

图像在指定位置包含了草图中的每个元素,且十分精致。这里的主要结论是:当要把粗糙草图转为写实图像时,开启思考模式能得到最佳效果。

测试创造力

下一个测试中,我们想看看它能否重现 新宫义一的具体诗

这首著名的诗以“雨”字为核心,被雨水环绕——在我们看来,像是在用语言“接住”雨。

concrete poetry of Niikuni Seiichi

我们的提示如下:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

是输出:

Prompt: Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

一次,我们觉得很有意思。它并没有完全重现原作,而是创造了另一种耐人寻味的呈现:新构图中,“雨”的汉字不是被雨包围,而是化作雨落下。符号的排布看上去十分随机,正如雨滴应有的模样,与原作的井然有序形成了有趣的对比。

如何获取 ChatGPT Images 2.0?

访问路径与上一版本一致。它保留了 12 月引入的专用创作空间——画布式编辑器、持久性作品、风格预设——并在底层换装了能力显著更强的模型。

  • Web、移动端 App 与 Codex:Free、Plus 与 Pro 用户可在 Images 标签中使用 ChatGPT Images 2.0,配额按订阅档位递增。Business 与 Enterprise 通常在初期推广后开放。
  • API:开发者可通过 OpenAI API 与 Azure OpenAI Service 使用新模型,覆盖图像生成与编辑端点。与 1.5 一样,图像输出按 token 计费,编辑时的“部分再生成”可显著降低相较每次全量再生的成本。

ChatGPT Images 2.0 vs. Nano Banana 2

您或许会好奇 ChatGPT Images 2.0 与 Nano Banana 2 的对比。两者皆为近期发布,均是各自生态中的默认体验,且都围绕速度、推理与真实世界智能进行定位。

 

ChatGPT Images 2.0

Nano Banana 2

底层架构

GPT-Image-2(GPT-Image-1.5 的继任者)

Gemini 3.1 Flash

编辑模型

精度:区域选取与就地编辑

推理:对话式与智能遮罩

工作流

专用创作空间(Images 标签)

集成于 Gemini 聊天

迭代

高效:部分再生成

快速:1K 分辨率 4–6 秒,可通过思考模式调优

真实世界锚定

内置推理与最新知识

图像搜索锚定(从 Google 搜索拉取实时参考)

多面板一致性

在序列与角色设定表上表现强劲

表现强劲,强调主体一致性

多语言文本

较 1.5 大幅升级;广泛的文字体系支持

强,尤其在中文和东亚版式中

默认分辨率

标准 + 灵活纵横比

Gemini 应用中默认 2K

生态系统

OpenAI 与 Azure

Google / Gemini 技术栈、Search、Lens

何时使用 ChatGPT Images 2.0 与 Nano Banana 2

在以下情况下使用 ChatGPT Images 2.0…

  • 当您需要基于参考图的编辑闭环。模型可接收参考图,并在多轮中实施定向更改(纹理细节、位置校正、纵横比修复),且通过自然语言跟进即可可靠地引导输出,无需重头开始,这也为您节省 token
  • 当您要将粗糙输入打磨为成品。思考模式可将模糊草图与空间指令解析为准确、写实的构图,并将元素精确放置于预期位置
  • 当图像中的事实准确性至关重要。网页搜索锚定可拉取实时信息,并在图像中正确呈现,使其适用于活动海报、新闻信息图,或任何数字与姓名必须准确的视觉。请记得开启思考模式以启用网页搜索

在以下情况下使用 Nano Banana 2…

  • 当您要将特定的真实主体或地点放入场景。图像搜索锚定可从 Google 拉取实时视觉参考,准确复原特定地点(甚至可按 GPS 坐标),并与主体一致的角色在一次生成中结合
  • 当您需要在同一工作流中维持多个角色与物体的身份一致性。该模型明确支持最多 5 个角色与合计 14 个参考(角色 + 物体)的严格一致性,非常适合分镜、产品照或多角色叙事
  • 当您在 Google 生态中构建。Nano Banana 原生集成于 Gemini 聊天、Google 搜索、Google Ads、Firebase 与 Vertex AI

在图像内文本渲染、风格多样性与对话式编辑方面,两者都表现不俗。

总结

“视觉思维伙伴”的定位站得住脚——但前提是开启思考模式。关闭时,模型在空间逻辑与写实性上会吃力;开启后,它可以将含糊输入转化为更像协作产物、而非机械输出的结果。即便不启用思考模式,模型在风格真实感与纵横比灵活性两方面也表现出色。

与 Images 1.5 相比,网页搜索锚定显然是最大的升级。在波士顿马拉松测试中,这一差距非常明显:2.0 全部信息准确,1.5 则未能及时更新。同样重要的是,网页搜索也只在思考模式下可用。

另一个有趣发现是版权防护更严了,并且确有体现。如果您想重现某家公司或个人被广泛认知的风格,需要多走一步:抓住其风格精髓并加以描述(从某种意义上说,如今这一步也并不难)。

总体而言,该模型较前代有显著升级,并对 Nano Banana 2 在 AI 图像生成与编辑领域的头号地位发起挑战。

要充分发挥此类工具的价值,掌握提示工程是关键技能。我们强烈推荐您学习Understanding Prompt EngineeringPrompt Engineering with the OpenAI API 课程,夯实理论与实践基础。

主题

与 DataCamp 一起学习

Courses

Understanding Prompt Engineering

1小时
181.5K
Learn how to write effective prompts with ChatGPT to apply in your workflow today.
查看详情Right Arrow
开始课程
查看更多Right Arrow