Course
Прошел почти ровно год с того дня, как была выпущена самая первая версия ChatGPT Images с моделью под названием GPT Image 1. OpenAI вновь полностью переработала свою модель изображений и предлагает нам новую концепцию: «генератор изображений» теперь — это «визуальный партнёр по мышлению».
В этой статье мы разберём, что нового, как это сравнивается с предшественником ChatGPT Images 1.5, как это соотносится с Nano Banana 2 от Google, а также где новая модель особенно сильна (и где нет).
Что такое ChatGPT Images 2.0?
ChatGPT Images 2.0 — это модель изображений нового поколения от OpenAI. Её позиционируют как систему, которая умеет рассуждать, исследовать, а затем визуализировать.
Что нового в ChatGPT Images 2.0?
Одним из главных итогов релиза ChatGPT Images 1.5 был серьёзный рост скорости. Тогда заявлялось ускорение в 4 раза. Мы попытались это подтвердить, но увидели, что это касалось скорее редактирования, а не генерации новых изображений.
На этот раз главное заявление — интеллект. ChatGPT Images 2.0 — «мыслящая» модель изображений: она должна искать, рассуждать о фактах и переводить черновые вводы (заметки, скетчи, референсы) в отточенные визуалы с гораздо меньшим объёмом ручных подсказок.
Другие ключевые тезисы анонса:
- Больше точности и управляемости непосредственно в процессе генерации
- Усиленная работа с разными языками и письменностями
- Более богатая стилистика и реализм
- Улучшенное «реальное» понимание мира, встроенное в модель
- Гибкие соотношения сторон — от мобильных до баннерных форматов
Модель, которая думает
Одно из самых громких утверждений релиза — новая модель «думает» и действует как «визуальный партнёр по мышлению». Идея в том, что агенты выполняют работу за кулисами: тщательно понимают задачу и рассуждают о ней, прежде чем приступать к генерации.
Её знания о мире обновлены до отсечки декабрем 2025 года, поэтому результаты более контекстно точны. Это, как заявлено, делает новую модель отличным вариантом для учебной графики и многошаговых сценариев, где важен контекст.
Поиск в интернете
Чтобы сократить разрыв между отсечкой и актуальной информацией, Images 2.0 умеет искать в сети релевантные сведения. Из заметок OpenAI не совсем ясно, как именно это работает, но, по нашему пониманию, веб-поиск выступает в роли инструмента, который вызывает упомянутый выше «мыслящий» агент.
Создание нескольких изображений по одному запросу
Новая модель изначально поддерживает генерацию нескольких изображений из одного и того же запроса. Раньше это можно было сделать обходным путём через API (прося «композицию»), а теперь — и в интерфейсе, до десяти изображений. OpenAI обещает согласованность персонажей и объектов во всех этих результатах.
Тестирование ChatGPT Images 2.0
Пора посмотреть, на что новая модель действительно способна. Мы протестировали следующие возможности и функции Images 2.0:
- Процесс редактирования
- Режим мышления и веб-поиск
- Стилистический охват
- Полировка грубых скетчей
- Гибкость соотношения сторон
- Креативность
Тестирование процесса редактирования
OpenAI позиционирует 2.0 как систему для итераций: на вход идёт грубый материал, на выходе — отполированный актив, с улучшением следования инструкциям и рендеринга плотного текста. Мы протестировали цикл на примере известной почтовой марки США 1898 года «Western Cattle in Storm».
Вот фото одной из марок в состоянии Fine.

Чтобы отдельно протестировать процесс редактирования, мы использовали следующий промпт без режима мышления. Это также означает отсутствие доступа к веб-поиску, который мы проверяли отдельно.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
А вот результат:

Подсказка только текстом не сработала. Подробное описание марки и её града состояния оказалось неверным по большинству важных пунктов — неправильный цвет, неверная раскладка номинала, карикатурное смещение. Воссоздать конкретный исторический артефакт лишь по тексту — очень трудная задача.
Передача модели референсного изображения и запрос точечных правок — вот где 2.0 оправдала себя: неровности перфорации, след от петельки, диагональная складка клея, лёгкое тонирование и частичное гашение.
Правки попали примерно куда нужно. Модель внесла регрессию по соотношению сторон, но одно уточнение на простом языке это исправило. Итог не уровня криминалистики — «$1» слегка вытянут, кукуруза другая, — но цикл сработал: грубый старт, корректировка курса, пригодный результат за три хода.

Тестирование режима мышления и веб-поиска
Мы подошли аккуратно к тестированию возможностей веб-поиска, потому что если вы прямо говорите модели, что хотите, вы тестируете не поиск, а следование инструкциям. Самый чистый тест — попросить о чём-то очень свежем и конкретном, дать минимум информации и посмотреть, сможет ли модель правильно заполнить пробелы.
Мы выбрали вчерашний Бостонский марафон. Забег завершился в понедельник, 20 апреля — за день до анонса ChatGPT Images 2.0 — и рекорд мужской трассы был побит впервые с 2011 года. Это даёт нам конкретный набор фактов (победитель, страна, время, отрыв, контекст), которых модель не могла иметь из обучения, но которые легко проверить быстрым поиском.
Вот промпт, намеренно без деталей. И по результату видно, что модель действительно ищет в сети!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Результат выглядит очень привлекательно и выдержан в цветовой гамме Бостонского марафона — приятный бонус. Все упомянутые факты точны, что мы перепроверили.
Это ещё заметнее в сравнении с результатом старой модели (Images 1.5) или новой без режима мышления, при том же промпте:

По стилю конкурировать можно, но здесь немало проблем с цифрами.
- Это был 130-й Бостонский марафон, значит, должно быть «129 лет традиции», а не 127.
- Заявление, что он «3-й бегун в истории, выбежавший марафон из 2:04», тоже неверно. Так сделали около 20 бегунов.
- По сайту Boston Athletic Association, его время второй половины — 1:00:02, а не 1:01:05 (впрочем, это мог быть и самый быстрый второй полумарафон).
- Самое важное — ChatGPT Images перепутал новое и старое время рекорда. Старый — 2:03:02; новый — 2:01:52. Разница — 1:10.
- Учитывая, что Джон Корир выиграл и прошлогодний Бостонский марафон, можно предположить, что при другом победителе модель могла бы ошибиться с именем.
Возможности поиска действительно меняют дело, когда нужно визуально представить актуальную информацию. Чтобы они работали, необходимо включить режим мышления.
Тестирование стилистического диапазона
OpenAI заявляет о реальном прогрессе в стилистической выразительности — в фотографии, иллюстрации, манге, пиксель-арте и других визуальных стилях. Честный тест — не то, выглядит ли одна конкретная картинка хорошо, а то, воспринимается ли один и тот же сюжет в трёх разных стилях аутентично для каждого жанра, или всё возвращается с одинаковым «ИИ-налётом».
Для проверки мы запросили три версии эспрессо-машины на деревянном верстаке (фото, манга, пиксель-арт). Вот промпты и результаты:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Это оказалось любопытным и даже ироничным, учитывая, что Image 1 прославилась монтажами в стиле Studio Ghibli, которые год назад делали все (включая нас). Похоже, с тех пор OpenAI стала осторожнее в вопросах авторских прав и ИС.
Описав стиль Кацуихиро Отомо без упоминания его имени, мы добились результата. Заметим, что пришлось открыть новый чат. В том же чате, где был исходный запрос, похоже, модель распознала попытку обойти блокировку.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

На наш взгляд, все три изображения выглядят отлично и аутентично отражают запрошенные стили. Фотография очень естественна, а две другие версии впрочь можно принять за страницу манги или сцену из игры для SNES соответственно.
Ещё бросается в глаза, как модель использует гибкость соотношения сторон, подстраивая его под каждый случай: 16:9 для фотографии, портретная ориентация для манги и квадрат для пиксель-арта.
Тестирование гибких соотношений сторон
Релиз поддерживает соотношения сторон от 3:1 до 1:3 и разрешения до 2K. Интересный вопрос — не просто может ли модель выдать «высокую» или «широкую» картинку, а умеет ли она по-умному перекомпоновывать сцены под формат или просто кадрирует.
Чтобы выявить пространственную логику модели, нужна сцена с отдельными, «обязательными» элементами по нескольким осям (что-то высокое, что-то широкое и центральный объект).
В качестве теста мы сгенерировали сюжет (астронавт в заданной обстановке) по базовому промпту, а затем попросили воссоздать его как мобильные обои, баннер и квадрат, чтобы увидеть, как меняется композиция.
Базовый промпт:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Посмотрим, как меняется формат:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Каждый вариант выбрал подходящее соотношение сторон, включает все важные элементы (астронавт, ровер, планета), располагает их согласно исходному промпту и следит за центровкой. Тест пройден.
Тестирование: от грубого ввода к отточенному результату
Концепция «партнёра по мышлению» опирается на то, что модель принимает расплывчатые или неаккуратные вводы — грубый скетч, маркированные заметки, несколько референсов — и превращает их в готовый актив. Именно вокруг этого цикла построен релиз, и именно его стоит проверить напрямую.
Для теста мы загрузили очень грубый карандашный набросок домика у озера:

Для усложнения мы добавили множество деталей, использовали финское слово для «пристани» — «laituri», а также потенциально запутали сцену наличием двух типов строений (дом и домик) и двух водных поверхностей (озеро и пруд).
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Результат без режима мышления выглядит неплохо, но не слишком фотореалистично. Тем не менее свет передан удачно, а картинка отлично улавливает атмосферу промпта. Мы видим почти все элементы из скетча. Пара деталей не совпала:
- Отсутствует лодка
- Пристань на пруду, а не на озере
- Положение солнца не в правом верхнем углу.
При том же промпте и том же скетче, но с включённым режимом мышления, результат выглядел гораздо реалистичнее и исправил все мелкие неточности:

Изображение содержит каждый элемент из скетча в заданном месте и выглядит очень аккуратно. Главный вывод: используйте режим мышления для наилучших результатов при превращении грубых набросков в фотореалистичные изображения.
Тестирование креативности
Далее мы хотели проверить, сможет ли модель воссоздать конкретную поэзию Сэити Ниикуни.
Это знаменитое стихотворение показывает японский кандзи «дождь», окружённый дождём — как будто язык ловит дождь, на наш взгляд.

Вот наш промпт:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
А вот и результат:

Этот результат, как нам кажется, интересен. Модель не пересоздала изображение буквально, но придумала нечто по-своему увлекательное. В новой композиции кандзи «дождь» не окружён дождём, а как будто падает сам дождём. Расположение символов выглядит случайным, чего и ожидаешь от капель, но это хорошо контрастирует с очень упорядоченным оригиналом.
Как получить доступ к ChatGPT Images 2.0?
Доступ организован по той же схеме, что и ранее. Сохраняется выделенное креативное рабочее пространство, появившееся в декабре — редактор в виде холста, постоянные артефакты, пресеты стилей — а под капотом ставится значительно более мощная модель.
- Веб, мобильное приложение и Codex: ChatGPT Images 2.0 доступна на вкладке Images для пользователей Free, Plus и Pro с лимитами использования по уровням. Обычно доступ для Business и Enterprise следует после начального развёртывания.
- API: Разработчики могут использовать новую модель через OpenAI API и Azure OpenAI Service — через эндпоинты генерации и редактирования изображений. Как и в 1.5, вывод изображений тарифицируется в токенах, а частичная регенерация при правках помогает снизить стоимость по сравнению с полной регенерацией каждый раз.
ChatGPT Images 2.0 против Nano Banana 2
Возможно, вы задаётесь вопросом, как ChatGPT Images 2.0 выглядит на фоне Nano Banana 2. Обе модели свежие, обе являются вариантом по умолчанию в своих экосистемах и обеориентированы на скорость, рассуждение и «заземление» в реальном мире.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Базовая архитектура |
GPT-Image-2 (преемник GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Модель редактирования |
Точность: выделение области и правка на месте |
Рассуждение: диалог и умное маскирование |
|
Рабочий процесс |
Выделенное креативное пространство (вкладка Images) |
Интегрировано в чат Gemini |
|
Итерации |
Эффективность: частичная регенерация |
Скорость: 4–6 с при 1K, настраивается режимом мышления |
|
Привязка к реальному миру |
Встроенные рассуждения и актуальные знания |
Image Search Grounding (подтягивает живые референсы из Google Поиска) |
|
Согласованность в сериях |
Сильная — для последовательностей и «шитов» персонажей |
Сильная, с фокусом на согласованность объекта |
|
Многоязычный текст |
Существенный апгрейд по сравнению с 1.5; широкая поддержка письменностей |
Сильная, особенно для китайского и восточноазиатских компоновок |
|
Разрешение по умолчанию |
Стандартное + гибкие соотношения сторон |
2K по умолчанию в приложении Gemini |
|
Экосистема |
OpenAI и Azure |
Стек Google / Gemini, Поиск, Lens |
Когда использовать ChatGPT Images 2.0 и когда — Nano Banana 2
Используйте ChatGPT Images 2.0, когда…
- Вам нужен цикл редактирования с опорой на референсы. Модель принимает референс и вносит точечные изменения (текстуры, позиционные правки, фиксы соотношения сторон) в нескольких итерациях; последующие уточнения на простом языке надёжно направляют результат без старта с нуля, что экономит токены
- Вы превращаете грубые вводы в готовые активы. Режим мышления переводит размытые скетчи и пространственные инструкции в точные, фотореалистичные композиции с элементами строго на своих местах
- Критична фактическая точность внутри изображения. Веб-поиск подтягивает актуальные данные и корректно визуализирует их прямо в изображении, что делает модель надёжной для постеров событий, новостных инфографик и любых визуалов, где цифры и имена должны быть верными. Не забудьте включить режим мышления для активации веб-поиска
Используйте Nano Banana 2, когда…
- Вы размещаете в сцене конкретные объекты реального мира или локации. Image Search Grounding подтягивает живые визуальные референсы из Google, точно воссоздаёт конкретные места (вплоть до GPS-координат) и сочетает их с согласованными персонажами в одной генерации
- Нужно сохранять идентичность нескольких персонажей и объектов в одном процессе. Модель явно поддерживает до пяти персонажей и четырнадцати референсов (персонажи + объекты) со строгой согласованностью — сильный выбор для раскадровок, продуктовых сцен и многоперсонажных историй
- Вы работаете внутри экосистемы Google. Nano Banana нативно интегрирована с чатом Gemini, Google Поиском, Google Ads, Firebase и Vertex AI
Обе модели достойны для рендеринга текста на изображениях, широкого стилистического охвата и диалогового редактирования.
Итоги
Концепция «визуального партнёра по мышлению» работает — но только при включённом режиме мышления. Без него модель испытывает трудности с пространственной логикой и фотореализмом; с ним — превращает неоднозначные вводы в результаты, которые ощущаются как совместное творчество, а не механика. Две области, где модель сильна даже без режима мышления, — стилистическая аутентичность и гибкость соотношения сторон.
Веб-поиск как опора — крупнейшее улучшение по сравнению с Images 1.5. В тесте с Бостонским марафоном это особенно заметно: 2.0 верно указала все факты, тогда как 1.5 не была актуальной. Важно помнить, что веб-поиск также работает только в режиме мышления.
Интересная находка — более жёсткие ограничения по авторскому праву, и это заметно. Если хотите воссоздать стиль компании или человека, придётся сделать дополнительный шаг: выделить суть этого стиля и описать её (что, по сути, сегодня несложно).
В целом модель — значительный апгрейд по сравнению с предшественницей и реальный соперник Nano Banana 2 за звание инструмента номер один для генерации и редактирования изображений ИИ.
Чтобы эффективнее пользоваться такими инструментами, умение формулировать промпты — ключевой навык. Мы настоятельно рекомендуем пройти наши курсы Understanding Prompt Engineering и Prompt Engineering with the OpenAI API для теоретической и практической базы.