ChatGPT Images 2.0：OpenAI 下一代图像模型指南

了解 ChatGPT Images 2.0 如何凭借更强的现实世界推理、多语言文本渲染、风格真实感与“视觉思维伙伴”工作流，将图像生成带入新纪元。

更新 2026年4月24日 · 14分钟读

用 AI 探索

在 ChatGPT 中打开在 Claude 中打开在 Perplexity 中打开

距离首款 ChatGPT Images 搭载的 GPT Image 1 发布，几乎整整一年。OpenAI 再次对其图像模型进行了全面升级，并提出了一个新概念：如今的“图像生成器”是一位“视觉思维伙伴”。

本文将带您了解有哪些新功能、它与前代 ChatGPT Images 1.5 的对比、与 Google 的 Nano Banana 2 的对比，以及该模型在哪些方面表现出色（以及不足）。

我们也推荐您查看关于 OpenAI 最新 LLM 的指南：GPT-5.5。

什么是 ChatGPT Images 2.0？

ChatGPT Images 2.0 是 OpenAI 的下一代图像模型。其定位是能够“推理、检索、再渲染”。

ChatGPT Images 2.0 有哪些新变化？

ChatGPT Images 1.5 发布时，最大的亮点之一是速度大幅提升。当时宣称快了 4 倍。我们尝试验证后发现，这主要体现在编辑环节，而非从零生成新图像。

这一次，重点在“智能”。ChatGPT Images 2.0 是一款会“思考”的图像模型：它应该能够搜索、基于事实推理，并将粗糙的输入（笔记、草图、参考）转化为更少手动提示即可得到的精致视觉效果。

公告中的其他要点包括：

对生成过程有更高的精度与可控性
多语言与多脚本表现更强
风格上的复杂度与真实感更高
更强的现实世界智能 融入模型
灵活的纵横比，覆盖从移动端到横幅等多种格式

会“思考”的模型

此次发布最重要的论断之一是新模型会“思考”，并充当“视觉思维伙伴”。其思路是：智能体在幕后先充分理解任务并进行推理，再执行生成请求。

其世界知识已更新至 2025 年 12 月，因此输出的语境更准确。据称这让新模型非常适合教育类图表，以及依赖上下文的多步骤工作流。

网页搜索

为弥合知识截止时间与最新信息之间的差距，Images 2.0 可通过网页搜索获取相关信息。OpenAI 的发布说明并未明确其工作机制，但据我们理解，网页搜索作为上文所述“思考型智能体”调用的一个工具。

一条提示生成多张图片

新模型原生支持从同一提示生成多张图像。此前可在 API 中通过“composition”提示变通实现，如今在界面中也能完成，最多十张。OpenAI 承诺这些输出在角色与物体上保持连贯一致。

测试 ChatGPT Images 2.0

现在来看看新模型的实际表现！我们测试了以下 Images 2.0 的能力与特性：

编辑工作流
思考模式与网页搜索
风格多样性
将粗糙草图打磨成品
纵横比的灵活性
创造力

测试编辑工作流

OpenAI 对 2.0 的定位强调迭代：粗糙输入，精致输出，在指令遵循与密集文本渲染方面有所提升。我们用一枚 1898 年美国著名邮票“Western Cattle in Storm”来测试该循环。

下图是其中一枚品相为 Fine 的邮票。

为专门测试编辑流程，我们在未开启思考模式的情况下使用了以下提示。这也意味着模型无法进行网页搜索，我们会单独测试。

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

结果如下：

仅用文本提示并不奏效。对邮票及品相的详细描述在大多数关键细节上都错了——颜色不对、面值布局不对、居中偏移也显得很卡通。仅凭文本复刻一件特定的历史器物，难度很大。

向模型提供参考图像并要求定向修改，才是 2.0 发挥价值的地方：齿孔不齐、铰痕残留、斜向胶痕、轻微泛黄、以及部分销戳。

修改大致落在我们要求的位置。模型引入了一个纵横比回退，但用一句自然语言的跟进就修正了。最终结果称不上取证级——“$1” 略显拉伸，玉米图案也不同——但循环有效：粗起步、纠偏、三轮内得到可用结果。

测试多语言文本渲染

非拉丁文字脚本的文本渲染一直是图像模型的顽疾，OpenAI 将此作为重点修复项。此次发布声称在日语、韩语、中文、印地语、孟加拉语等的高保真文本生成上表现出色——不仅翻译准确，版式也连贯、字形更“本地化”。

一个公平的测试方式是，请求一张带有大段此类文字的海报或信息图，并让母语者检查输出。我们让模型制作一张现代日本生活方式海报，宣传一家虚构的本地咖啡店及其季节限定樱花拿铁。

「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体（sans-serif）。

テキスト内容：
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』

テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」

输出如下：

据我们一位会日语的同事（向 Sven 致意！）反馈，这比早期模型好太多，以前很多字符都是乱码。现在读起来很自然，母语者可轻松识别。

在思考模式下，它甚至在左下角的小黑板上加了提示外的几句文案。既契合语境又不重复，翻译大意为“当季温柔风味。放松片刻——在一杯中邂逅春天。”

测试思考模式与网页搜索

测试网页搜索能力时，我们需要小心：如果在提示里直接告诉模型您要什么，那测的不是搜索，而是执行指令的能力。最干净的测试是，要求其生成关于“非常近期且非常具体”的内容，几乎不给信息，看看它能否通过搜索补全细节。

我们选择了昨天的波士顿马拉松。T比赛于周一 4 月 20 日结束——恰好早于 ChatGPT Images 2.0 发布的前一天——男子赛道纪录自 2011 年以来首次被打破。这给了我一组具体可查的事实（冠军、国家、成绩、打破幅度、语境），模型不可能从训练中获得，但可通过快速搜索核实。

以下是刻意“留白”的提示。您可以在结果中看到，模型确实进行了网页搜索！

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

结果在视觉上非常吸引人，并采用了波士顿马拉松的配色，这一点很加分。所有事实均准确，我们已复核验证。

由于旧模型（Images 1.5）无法进行网页搜索，我们确信它会给出错误答案。我们仍用相同提示进行了测试，结果如下：

在风格上可圈可点，但数字相关的问题不少：

本次是波士顿马拉松第 130 届，应为“129 年传统”，而非 127。
“历史上第三位跑进 2:04 的选手”这一说法也不对。已有约 20 位选手做到。
据波士顿田协网站数据，他的下半程为 1:00:02，而非 1:01:05（后者也可能仍是史上最快下半程）。
最重要的是，ChatGPT Images 混淆了新纪录与旧纪录时间。旧纪录为 2:03:02；新纪录为 2:01:52，差值 1 分 10 秒。此外，2:03:02 当时也并非正确时间。

在呈现最新信息的视觉内容时，搜索能力确实会带来差异。要启用网页搜索，须开启思考模式。

测试风格多样性

OpenAI 宣称在风格复杂性上有实质性提升——涵盖摄影、插画、漫画、像素风等。检验标准不在于单张图是否好看，而在于同一主体用三种不同风格呈现时，是否都能真实还原各自流派，而不是都带着同一种“AI 味”。

为测试这一点，我们请求生成同一台放在木质工作台上的意式咖啡机的三种版本（摄影、漫画、像素风）。以下是提示与结果：

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

这一结果颇为有趣，也有些讽刺：要知道一年前 Image 1 因“吉卜力风”蒙太奇风靡（我们也做过）。看来 OpenAI 近年来在版权与知识产权方面更为谨慎。

不直接点名大友克洋，仅描述其风格后就能生成。需要注意的是，我们得在新对话中尝试才行；在原对话里，模型似乎意识到我们在试图绕过限制。

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

我们认为三张图都很出色，并且真实再现了我们要求的具体风格。照片十分自然，另外两张仿佛直接出自漫画书与 SNES 游戏。

上述测试还有一点显眼之处：模型利用其灵活的纵横比能力，为每张图量体裁衣——照片为 16:9 横幅、漫画为竖幅、像素图为方图。

测试灵活纵横比

本次发布支持从 3:1 到 1:3 的纵横比，分辨率最高至 2K。更有趣的问题不是能否生成高或宽图，而是模型是否会在不同格式间进行智能重构，而不仅仅是裁剪。

要暴露模型的空间逻辑，我们需要一个在多个轴上拥有清晰且不可替代元素的场景（例如既有高的、也有宽的元素，再加上中心主体）。

我们以一个基础提示生成主体（特定场景中的宇航员），然后让模型分别将其重制为手机壁纸、横幅与方图，观察构图如何自适应。

基础提示：

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

来看变化：

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

每个版本都选择了合适的纵横比，包含所有关键元素（宇航员、火星车、行星），并按照原提示的要求进行排列，同时确保构图居中。测试通过。

测试从粗糙到精致

“思维伙伴”的定位，取决于模型是否能接受模糊或杂乱的输入——粗糙草图、要点清单、零散参考——并将其转化为成品资产。这也是本次发布真正围绕的循环，最值得直接检验。

为测试，我们上传了下面这张非常粗糙的湖边小屋铅笔草图：

为增加难度，草图包含了不少细节，用了芬兰语“码头”的单词“laituri”，并且容易产生歧义：既有两类建筑（房屋与小屋），也有两种水面（湖与池塘）。

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

在未开启思考模式下的结果看起来还不错，但不算非常“照片级”。不过光照匹配很好，整体氛围也贴合提示。我们能看到草图中的几乎所有元素。但仍有几点偏差：

小船缺失
码头在池塘上，而非湖面
太阳位置不在右上角

在相同提示、相同草图下开启思考模式后，输出更为真实，且修正了所有小瑕疵：

图像包含了草图中的全部元素，并处在对应位置，且观感非常整洁。这里的关键结论是：要把粗糙草图转为照片级图像，开启思考模式往往能得到最佳结果。

测试创造力

接下来，我们想看看它能否重现新宫废一的具体诗（Concrete Poetry）。

这首名作以日本汉字“雨”为核心，被“雨”所环绕，我们理解为在语言中“捕捉”雨。

我们的提示如下：

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

以下是输出：

这个结果很有意思。它并未“复刻”原图，而是创作了另一种同样耐人寻味的表达：新构图中，“雨”的汉字不是被雨包围，而是化作雨落下。符号的分布看似随机，正如雨滴应有的状态，也与原作的秩序感形成了有趣对比。

如何使用 ChatGPT Images 2.0？

获取方式与上个版本一致。保留了 12 月引入的专用创作空间——画布式编辑器、持久化工件、风格预设——并在底层替换为更强大的模型。

网页、移动应用与 Codex：Free、Plus 和 Pro 用户可在 Images 选项卡中使用 ChatGPT Images 2.0，不同等级有相应使用额度。Business 与 Enterprise 通常在初始推广后陆续开放。
API：开发者可通过 OpenAI API 与 Azure OpenAI Service 使用新模型，支持图像生成与编辑端点。与 1.5 一样，图像输出按 token 计费；编辑时的“部分再生成”可比每次整图重生更省成本。

ChatGPT Images 2.0 vs. Nano Banana 2

您也许想知道 ChatGPT Images 2.0 与 Nano Banana 2 的对比如何。两者均为近期发布，均是各自生态的默认体验，也都围绕速度、推理与现实世界智能来定位。

	ChatGPT Images 2.0	Nano Banana 2
底层架构	GPT-Image-2（GPT-Image-1.5 的继任者）	Gemini 3.1 Flash
编辑模型	精度：区域选取与就地编辑	推理：对话式与智能遮罩
工作流	专用创作空间（Images 选项卡）	集成于 Gemini 聊天
迭代	高效：部分再生成	快速：1K 分辨率 4–6 秒，可通过思考模式调节
现实世界锚定	内置推理与最新知识	图像搜索锚定（从 Google 搜索获取实时参考）
多画幅一致性	在序列与角色设定表上表现出色	表现强劲，强调主体一致性
多语言文本	较 1.5 有重大升级；广泛脚本支持	强项，尤其在中文与东亚版式
默认分辨率	标准 + 灵活纵横比	Gemini 应用默认 2K
生态	OpenAI 与 Azure	Google / Gemini 技术栈、Search、Lens

何时使用 ChatGPT Images 2.0 与 Nano Banana 2

在以下场景使用 ChatGPT Images 2.0：

需要参考图驱动的编辑循环。模型可接收参考图像并跨轮次进行定向修改（纹理细节、位置校正、纵横比修复），且用自然语言跟进即可可靠引导输出，无需从头再来，同时也能节省 token
将粗糙输入打磨为精致资产。思考模式能将含糊的草图与空间指令解析为准确、照片级的构图，并精确放置各元素
图像内的事实准确性至关重要。网页搜索锚定可拉取实时信息，并在图像中正确呈现，使其可用于活动海报、新闻信息图，或任何对数字与姓名要求准确的视觉内容。请注意需开启思考模式以启用网页搜索

在以下场景使用 Nano Banana 2：

要将特定的现实世界主体或地点放入场景。图像搜索锚定可从 Google 获取实时视觉参考，准确重建特定地点（甚至通过 GPS 坐标），并与主体一致的角色一并在一次生成中完成
需在同一工作流中维护多个角色与物体的身份一致性。模型明确支持最多五个角色与十四个参考（角色 + 物体），并提供严格一致性。这使其适合分镜头脚本、产品图或多角色叙事
构建在 Google 生态内。Nano Banana 原生集成于 Gemini 聊天、Google 搜索、Google Ads、Firebase 与 Vertex AI

在图像内文本渲染、风格多样性与对话式编辑方面，两者都表现可观。