ChatGPT Images 2.0: руководство по модели изображений OpenAI нового поколения

Узнайте, как ChatGPT Images 2.0 выводит генерацию изображений на новый уровень благодаря улучшенному прикладному рассуждению, многоязычной отрисовке текста, стилевому реализму и рабочему процессу с визуальным партнёром по мышлению.

Обновлено 24 апр. 2026 г. · 14 мин читать

Изучить с помощью AI

Открыть в ChatGPT Открыть в Claude Открыть в Perplexity

Прошёл почти ровно год со дня выпуска первых ChatGPT Images с моделью под названием GPT Image 1. OpenAI вновь полностью переработала свою модель изображений и предлагает новое видение: «генератор изображений» теперь это «визуальный партнёр по мышлению».

В этой статье мы разберём, что нового, как это сравнивается с предшественником ChatGPT Images 1.5, как это выглядит на фоне Nano Banana 2 от Google, а также где модель особенно сильна (и где нет).

Рекомендуем также ознакомиться с нашим руководством по новейшей LLM от OpenAI — GPT-5.5.

Что такое ChatGPT Images 2.0?

ChatGPT Images 2.0 — это модель изображений следующего поколения от OpenAI. Её подают как систему, которая может рассуждать, исследовать, а затем визуализировать.

Что нового в ChatGPT Images 2.0?

Одним из главных итогов релиза ChatGPT Images 1.5 стало заметное увеличение скорости. Тогда заявлялось, что она стала в 4 раза выше. Мы пытались проверить это утверждение и увидели, что речь шла об изменениях, а не о генерации новых изображений.

На этот раз основной акцент сделан на интеллекте. ChatGPT Images 2.0 — «думающая» модель изображений: она должна искать, рассуждать о фактах и переводить сырые вводные (заметки, эскизы, референсы) в выверенную визуализацию при гораздо меньшем ручном промптинге.

Среди ключевых тем анонса:

Более высокая точность и контроль над самой генерацией
Усиленная работа с языками и письменностями
Более богатая стилистика и реализм
Улучшенный «здравый смысл» о реальном мире, встроенный в модель
Гибкие соотношения сторон — от мобильных до баннерных форматов

Модель, которая думает

Одно из главных заявлений релиза — новая модель «думает» и выступает «визуальным партнёром по мышлению». Идея в том, что агенты выполняют невидимую подготовительную работу: детально понимают задачу и рассуждают над ней перед генерацией.

Её знания о мире обновлены до отсечки в декабре 2025 года, поэтому результаты контекстуально точнее. Это, как заявляется, делает модель сильной для учебной графики и многошаговых сценариев, требующих контекста.

Поиск в интернете

Чтобы преодолеть разрыв между отсечкой и актуальными данными, Images 2.0 умеет искать информацию в интернете. Из заметок OpenAI не вполне ясно, как именно это работает, но, насколько мы понимаем, веб-поиск выступает инструментом, к которому обращается упомянутый «думающий» агент.

Создание нескольких изображений по одному промпту

Новая модель нативно поддерживает генерацию нескольких изображений по одному и тому же промпту. Раньше это можно было сделать через обходной путь в API (просить «композицию»), теперь — и в интерфейсе, до десяти изображений. OpenAI обещает непрерывность персонажей и объектов во всех вариантах.

Тестирование ChatGPT Images 2.0

Пора посмотреть, на что модель действительно способна. Мы протестировали следующие возможности Images 2.0:

Процесс редактирования
Режим мышления и веб-поиск
Стилистический диапазон
Полировка грубых эскизов
Гибкость соотношений сторон
Креативность

Тестирование процесса редактирования

Посыл OpenAI для версии 2.0 — опора на итерации: грубый ввод — на выходе отточенный ассет, с улучшениями в следовании инструкциям и рендеринге плотного текста. Мы проверили этот цикл на примере знаменитой марки США 1898 года Western Cattle in Storm.

Вот изображение одной из марок в состоянии Fine.

Чтобы целенаправленно протестировать процесс редактирования, мы использовали следующий промпт без режима мышления. Это также означает отсутствие доступа к веб-поиску — его мы проверяли отдельно.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

А вот результат:

Промпт только текстом не сработал. Подробное описание марки и её состояния вернулось с ошибками по ключевым признакам — неверный цвет, неправильная вёрстка номинала, карикатурный сдвиг по центру. Воссоздать конкретный исторический артефакт лишь по описанию — задача нетривиальная.

Передача модели референса и просьба о точечных правках — вот где 2.0 себя оправдала: неровности перфорации, след от петли, диагональная складка от клея, лёгкое пожелтение, частичная отметка гашения.

Правки легли примерно туда, куда мы просили. Модель внесла регрессию по соотношению сторон, но одно уточнение простыми словами это исправило. Итог не уровня экспертизы — «$1» немного растянут, кукуруза отличается, — но цикл сработал: неудачный старт, коррекция, пригодный результат за три хода.

Тестирование многоязычного рендеринга текста

Отрисовка текста в нелатинских письменностях — давняя слабость моделей изображений, и OpenAI напрямую заявляет о решении этой проблемы. В релизе обещана высокоточная генерация текста на японском, корейском, китайском, хинди и бенгальском — не просто перевод, а согласованная вёрстка и нативная типографика.

Корректный тест — попросить постер или инфографику с текстовым блоком на одном из этих языков и проверить вывод с носителем. Мы попросили модель создать современный японский лайфстайл-постер, рекламирующий вымышленную местную кофейню и их сезонный латте с сакурой.

「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体（sans-serif）。

テキスト内容：
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』

テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」

Вот как выглядит результат:

По словам нашего коллеги, говорящего по-японски (привет, Свен!), это выглядит гораздо лучше, чем в ранних моделях, где многие символы превращались в бессмысленный набор. Здесь текст ощущается естественно и легко читается носителями.

В режиме мышления модель даже добавила несколько фраз сверх указаний — на небольшой меловой доске в левом нижнем углу. Они хорошо вписываются в контекст и приблизительно переводятся как: «Сезонный, мягкий вкус. Отдохните — насладитесь чашкой, которая приносит весну».

Тестирование режима мышления и веб-поиска

При тестировании возможностей веб-поиска нужно быть аккуратнее: если вы заранее укажете, что хотите, вы проверяете не поиск, а следование инструкциям. Самый «чистый» тест — запросить что-то очень недавнее и конкретное, почти не давать информации и посмотреть, сможет ли модель правильно заполнить пробелы.

Мы выбрали вчерашний Бостонский марафон. Забег завершился в понедельник, 20 апреля — за день до анонса ChatGPT Images 2.0 — и рекорд мужской трассы был побит впервые с 2011 года. Это даёт нам конкретный набор фактов (победитель, страна, время, отрыв, контекст), которых модель не может иметь из обучения, но которые легко проверяются быстрым поиском.

Вот промпт, намеренно лишённый деталей. И, как видно по результату, модель действительно ищет в сети!

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Результат визуально очень привлекателен и выдержан в цветовой гамме Бостонского марафона — приятный бонус. Все указанные факты точны — мы перепроверили.

Поскольку старая модель (Images 1.5) не умела искать в сети, мы были уверены, что она даст неверный ответ. Мы всё же протестировали её тем же промптом — вот результат:

По стилю изображение может конкурировать, но здесь довольно много проблем с числами:

Это был 130-й выпуск Бостонского марафона, так что должно быть «129 лет традиций», а не 127.
Утверждение, что он «3-й бегун в истории, пробежавший марафон быстрее 2:04», — неверно. Таких около двух десятков.
По данным сайта Boston Athletic Association, вторая половина была 1:00:02, а не 1:01:05 (хотя последнее всё ещё могло быть самым быстрым вторым полумарафоном).
И самое важное — ChatGPT Images перепутала новое и старое рекордные времена. Старый рекорд был 2:03:02; новый — 2:01:52. Разница — 1:10. К тому же 2:03:02 указано было неверно.

Поисковые возможности действительно важны для визуальной подачи актуальной информации. Чтобы ими пользоваться, нужно включить режим мышления.

Тестирование стилистического диапазона

OpenAI заявляет о реальном прогрессе в стилевой изощрённости — от фотографии и иллюстрации до манги, пиксель-арта и прочего. Честный тест — не то, выглядит ли отдельная картинка хорошо, а то, читается ли один и тот же объект в трёх разных стилях аутентично для каждого жанра, или всё возвращается с одинаковым «ИИ-глянцем» под поверхностью.

Для проверки мы запросили три версии эспрессо-машины на деревянном верстаке (фото, манга, пиксель-арт). Вот промпты и результаты:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Интересный и даже ироничный результат, если вспомнить, что Image 1 стала известна благодаря коллажам в стиле Studio Ghibli, которые год назад делали все (включая нас). Похоже, OpenAI стала осторожнее в вопросах авторского права и ИС.

Описав стиль Кацухиро Отомо без упоминания имени, мы добились нужного. Отметим, что пришлось открыть новый чат. В том же чате, что и исходный промпт, модель, кажется, распознавала попытку обойти блокировку.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

На наш взгляд, все три изображения выглядят отлично и аутентично передают запрошенные стили. Фото выглядит очень естественно, а два других варианта вполне могли бы быть взяты из манги или игры для SNES соответственно.

Бросается в глаза и то, как модель использует гибкие соотношения сторон под каждый образ: 16:9 для фотографии, портретное — для версии в стиле манги и квадрат — для пиксель-арта.

Тестирование гибких соотношений сторон

Релиз поддерживает соотношения от 3:1 до 1:3 и разрешения до 2K. Интересен не сам факт, что можно сделать «высокую» или «широкую» картинку, а вопрос, умеет ли модель разумно перекомпоновывать под формат, а не просто кадрировать.

Чтобы выявить пространственную логику, нужна сцена с различимыми, «обязательными» элементами на нескольких осях (что-то высокое, что-то широкое и центральный объект).

В качестве теста мы сгенерировали сюжет (астронавт в конкретной обстановке) по базовому промпту, затем попросили пересобрать в мобильные обои, баннер и квадрат, чтобы увидеть, как меняется композиция.

Базовый промпт:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Посмотрим, как это меняется:

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Каждая версия выбрала подходящее соотношение сторон для запроса, включает все важные элементы (астронавт, ровер, планета), располагает их согласно исходному описанию и следит за центровкой. Тест пройден.

Тестирование перехода от грубого ввода к отточенному результату

Концепция «партнёра по мышлению» опирается на то, что модель принимает расплывчатые или неаккуратные вводные — грубый эскиз, маркированные заметки, пару референсов — и превращает их в готовый ассет. Это ключевой цикл релиза и самый ценный тест.

Мы загрузили следующий очень грубый карандашный эскиз домика у озера:

Чтобы усложнить задачу, мы добавили немало деталей, использовали финское слово для пристани — «laituri», и создали простор для путаницы, включив два типа построек (дом и домик) и две водные поверхности (озеро и пруд).

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Результат без режима мышления выглядит достойно, но не очень фотореалистично. Тем не менее свет соответствует сцене, и изображение отлично передаёт настроение промпта. Мы видим почти все элементы из эскиза. Пара деталей не сошлась:

Лодки нет
Пристань расположена у пруда, а не у озера
Солнце не в правом верхнем углу

Когда мы запустили тот же промпт с тем же эскизом в режиме мышления, результат стал намного реалистичнее и исправил все мелкие неточности:

Изображение содержит все элементы из эскиза в заданных местах и выглядит очень аккуратно. Главный вывод — используйте режим мышления для наилучших результатов при превращении грубых эскизов в фотореалистичные изображения.

Тестирование креативности

Далее мы хотели проверить, сумеет ли модель воссоздать конкретную поэзию Ниикуни Сэйити.

Это знаменитое стихотворение показывает японский кандзи «дождь», окружённый дождём — своего рода «поймать дождь языком», как мы это видим.

Вот наш промпт:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

А вот и результат:

Этот случай нам кажется любопытным. Модель не воссоздала изображение буквально, но создала нечто иное и выразительное. В новой композиции кандзи «дождь» не окружён дождём, а будто падает как дождь. Компоновка символов кажется случайной — как и ожидалось бы от капель, — и образует выразительный контраст с крайне упорядоченным оригиналом.

Как получить доступ к ChatGPT Images 2.0?

Доступ предоставляется по той же схеме, что и раньше. Сохраняется выделенное креативное пространство, представленное в декабре — редактор в формате холста, постоянные артефакты, пресеты стилей — с существенно более мощной моделью «под капотом».

Веб, мобильное приложение и Codex: ChatGPT Images 2.0 доступна на вкладке Images для пользователей Free, Plus и Pro, с лимитами использования по уровням. Доступ для Business и Enterprise обычно следует после начального развёртывания.
API: Разработчики могут использовать новую модель через OpenAI API и Azure OpenAI Service — через эндпоинты генерации и редактирования изображений. Как и в 1.5, вывод изображений тарифицируется в токенах, а частичная регенерация при редактировании снижает стоимость по сравнению с полной перегенерацией.

ChatGPT Images 2.0 vs. Nano Banana 2

Возможно, вы задумываетесь, как ChatGPT Images 2.0 выглядит на фоне Nano Banana 2. Обе модели свежие, обе — опыт «по умолчанию» в своих экосистемах и обе рекламируются через скорость, рассуждение и «заземление» на реальный мир.

	ChatGPT Images 2.0	Nano Banana 2
Базовая архитектура	GPT-Image-2 (преемник GPT-Image-1.5)	Gemini 3.1 Flash
Модель редактирования	Точность: выделение областей и правка на месте	Рассуждение: диалоговое управление и «умное» маскирование
Рабочий процесс	Выделенное креативное пространство (вкладка Images)	Интеграция в чат Gemini
Итерации	Эффективность: частичная регенерация	Скорость: 4–6 с при 1K, настраивается режимом мышления
Привязка к реальности	Встроенные рассуждения и актуальные знания	Image Search Grounding (подтягивает живые референсы из Google Search)
Согласованность серии	Сильная в последовательностях и шитах персонажей	Сильная, с фокусом на согласованность объекта
Многоязычный текст	Существенный апгрейд по сравнению с 1.5; широкая поддержка письменностей	Сильная, особенно для китайского и восточноазиатских макетов
Разрешение по умолчанию	Стандартное + гибкие соотношения сторон	2K по умолчанию в приложении Gemini
Экосистема	OpenAI и Azure	Стек Google / Gemini, Search, Lens

Когда использовать ChatGPT Images 2.0 и когда — Nano Banana 2

Используйте ChatGPT Images 2.0, когда…

Вам нужен цикл редактирования по референсу. Модель принимает референс и вносит точечные изменения (детали фактуры, коррекции позиций, правки соотношения сторон) в нескольких шагах; уточнения простыми фразами надёжно корректируют вывод без перезапуска, что также экономит токены
Вы превращаете грубые вводные в готовые ассеты. Режим мышления разрешает расплывчатые эскизы и пространственные инструкции в точные, фотореалистичные композиции с элементами ровно там, где задумано
Критична фактическая точность внутри изображения. Заземление через веб-поиск подтягивает актуальные сведения и корректно отображает их прямо в изображении, что важно для афиш событий, новостных инфографик и любой графики, где имена и цифры должны быть верны. Не забудьте включить режим мышления для веб-поиска

Используйте Nano Banana 2, когда…

Вы помещаете в сцену конкретные реальные объекты или локации. Image Search Grounding подтягивает живые визуальные референсы из Google, точно воссоздавая места (вплоть до координат) и сочетая их с персонажами с сохранением идентичности за одну генерацию
Нужно сохранять идентичность нескольких персонажей и объектов в одном процессе. Модель явно поддерживает до пяти персонажей и четырнадцати общих референсов (персонажи + объекты) с жёсткой согласованностью. Это сильный выбор для раскадровок, продуктовых снимков или много-персонажных историй
Вы строите решения в экосистеме Google. Nano Banana нативно интегрирована в чат Gemini, Google Search, Google Ads, Firebase и Vertex AI

Обе модели достойны в рендеринге текста внутри изображений, стилистическом диапазоне и диалоговом редактировании.

Итоги

Концепция «визуального партнёра по мышлению» выдерживает проверку — но только при включённом режиме мышления. Без него модели сложнее с пространственной логикой и фотореализмом; с ним — неоднозначные вводные превращаются в результат, который ощущается совместной работой, а не механикой. Две области, где модель сильна даже без режима мышления, — стилистическая аутентичность и гибкость соотношений сторон.

Заземление через веб-поиск — крупнейшее улучшение по сравнению с Images 1.5. В тесте с Бостонским марафоном это было особенно заметно: 2.0 всё указала верно, а 1.5 оказалась неактуальной. Важно помнить, что веб-поиск тоже работает только в режиме мышления.

Любопытное наблюдение — более строгие защитные барьеры по авторскому праву. Если хотите воспроизвести стиль компании или автора, придётся сделать дополнительный шаг: выделить суть стиля и описать её (что сегодня, по сути, несложно).

В целом модель значительно превосходит предшественницу и бросает вызов статусу Nano Banana 2 как инструменту №1 для генерации и редактирования изображений ИИ.

Чтобы извлечь максимум из таких инструментов, умение составлять промпты — ключевой навык. Мы настоятельно рекомендуем пройти наши курсы Understanding Prompt Engineering и Prompt Engineering with the OpenAI API для теоретической базы и практики.

Темы

ChatGPT