courses
첫 번째 ChatGPT Images가 GPT Image 1이라는 모델과 함께 출시된 지 정확히 거의 1년이 되었습니다. OpenAI는 다시 한번 이미지 모델을 전면 개편했고, 이제 "이미지 생성기"가 "시각적 사고 파트너"라는 새로운 개념을 제시하고 있습니다.
이 글에서는 무엇이 새로워졌는지, 이전 버전인 ChatGPT Images 1.5와의 비교, Google의 Nano Banana 2와의 비교, 그리고 이 모델이 뛰어난 부분(과 그렇지 않은 부분)을 살펴보겠습니다.
ChatGPT Images 2.0이란?
ChatGPT Images 2.0은 OpenAI의 차세대 이미지 모델입니다. 사고하고, 조사하고, 그다음 렌더링까지 할 수 있는 모델로 소개되고 있습니다.
ChatGPT Images 2.0의 새로운 점은?
ChatGPT Images 1.5 출시에서 가장 큰 포인트 중 하나는 성능 속도의 큰 향상이었습니다. 당시 발표에서는 4배 더 빠르다고 했죠. 저희가 이를 검증해 보니 신규 이미지 생성이 아닌 편집에 주로 해당하는 주장으로 보였습니다.
이번에는 지능이 핵심 주장입니다. ChatGPT Images 2.0은 "생각하는" 이미지 모델입니다. 검색하고 사실을 추론하며, 거친 입력(메모, 스케치, 레퍼런스)을 훨씬 적은 수작업 프롬프트로 다듬어진 비주얼로 변환한다고 합니다.
발표의 주요 주제는 다음과 같습니다.
- 생성 과정에 대한 더 높은 정밀도와 제어력
- 언어와 문자 전반에서 더 강력한 성능
- 더 세련된 스타일과 사실감
- 현실 세계에 대한 향상된 지능이 모델에 내장됨
- 유연한 가로세로 비율로 모바일부터 배너 포맷까지 대응
생각하는 모델
이번 출시의 큰 주장 중 하나는 새 모델이 "생각"하고 "시각적 사고 파트너"처럼 행동한다는 점입니다. 에이전트가 백그라운드에서 작업을 충분히 이해하고 그 위에서 추론한 뒤, 생성 요청을 실행한다는 개념입니다.
세계에 대한 이해는 2025년 12월 컷오프로 업데이트되어 결과물이 맥락적으로 더 정확해졌습니다. 이는 교육용 그래픽과 맥락이 필요한 다단계 워크플로우에 적합하다고 홍보되고 있습니다.
웹 검색
컷오프와 최신 정보 사이의 격차를 메우기 위해 Images 2.0은 관련 정보를 찾기 위해 웹을 검색할 수 있습니다. OpenAI의 릴리스 노트만으로는 정확한 동작 방식이 명확하지 않지만, 저희 이해로는 위에서 언급한 사고 에이전트가 호출하는 도구로 웹 검색이 사용되는 것으로 보입니다.
하나의 프롬프트로 여러 이미지 생성
새 모델은 동일한 프롬프트에서 여러 이미지를 네이티브로 생성할 수 있습니다. 이는 API에서 "composition"을 요청하는 우회 방법으로도 가능했지만, 이제 UI에서도 최대 10장까지 가능합니다. OpenAI는 그 모든 출력에서 캐릭터와 객체의 연속성을 보장한다고 약속합니다.
ChatGPT Images 2.0 테스트
이제 새 모델이 실제로 무엇을 할 수 있는지 확인해 보겠습니다! 저희는 다음과 같은 Images 2.0의 기능을 테스트했습니다.
- 편집 워크플로우
- 생각 모드와 웹 검색
- 스타일 범위
- 거친 스케치 다듬기
- 가로세로 비율 유연성
- 창의성
편집 워크플로우 테스트
OpenAI의 2.0 소개는 반복에 무게를 둡니다. 거친 입력을 넣으면 지시 준수와 조밀한 텍스트 렌더링에서 향상된 결과로 다듬어진 에셋이 나온다는 것이죠. 이를 검증하기 위해 1898년 미국 우표인 Western Cattle in Storm으로 테스트했습니다.
다음은 상태가 양호(Fine)한 우표 사진입니다.

편집 워크플로우를 구체적으로 테스트하기 위해, 생각 모드 없이 아래 프롬프트를 사용했습니다. 이는 웹 검색에 접근하지 못하는 상태이며, 웹 검색은 별도로 테스트했습니다.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
결과는 다음과 같습니다.

텍스트만으로는 잘 되지 않았습니다. 우표와 그 컨디션 등급에 대한 상세 설명이 중요한 대부분의 부분에서 틀렸습니다 — 색상, 액면 표기 레이아웃, 과장된 중심 이탈 등. 텍스트만으로 특정 역사적 유물을 재현하는 것은 쉽지 않습니다.
모델에 레퍼런스 이미지를 제공하고 타깃 편집을 요청했을 때 2.0의 진가가 드러났습니다. 즉, 톱니 구멍 불규칙, 경첩 잔재, 대각선 방향의 검 자국, 옅은 변색, 부분 소인 등입니다.
편집은 대체로 요청한 위치에 반영되었습니다. 모델이 가로세로 비율을 잘못 잡는 퇴행이 있었지만, 간단한 후속 지시로 해결되었습니다. 최종 결과가 포렌식 수준은 아닙니다 — "$1" 표기가 약간 늘어나 보이고, 옥수수 표현이 다릅니다 — 그래도 루프는 잘 작동했습니다. 거친 시작, 경로 수정, 세 번의 턴으로 쓸 만한 결과를 얻었습니다.

생각 모드와 웹 검색 테스트
웹 검색 기능을 테스트할 때는 약간 주의가 필요했습니다. 프롬프트에서 원하는 내용을 모두 알려주면 검색을 테스트하는 것이 아니라 지시 준수를 테스트하는 것이기 때문입니다. 가장 깔끔한 방법은 매우 최근이면서 구체적인 것을 요청하고, 모델에 거의 정보를 주지 않은 채 빈칸을 제대로 채울 수 있는지를 보는 것입니다.
저희는 어제 열린 보스턴 마라톤을 선택했습니다. 레이스는 월요일, 4월 20일에 끝났으며 — ChatGPT Images 2.0 발표 전날 — 남자 코스 레코드가 2011년 이후 처음으로 경신되었습니다. 이는 모델이 학습으로는 알 수 없지만, 빠른 검색으로 확인 가능한 구체적인 사실(우승자, 국가, 기록, 격차, 맥락)을 제공합니다.
다음은 의도적으로 세부 정보를 뺀 프롬프트입니다. 결과에서 실제로 모델이 웹을 검색한다는 것을 볼 수 있습니다!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

결과물은 시각적으로 매우 매력적이며, 보스턴 마라톤의 색상 코드를 잘 유지한 점도 인상적입니다. 언급된 모든 사실은 정확했고, 저희가 재확인했습니다.
같은 프롬프트로 구형 모델(Images 1.5) 또는 새 모델을 생각 모드 없이 사용했을 때의 출력과 비교하면 더욱 두드러집니다.

스타일 면에서는 경쟁 가능하지만, 숫자와 관련된 문제가 꽤 있습니다.
- 이번 대회는 보스턴 마라톤의 130번째 개최였으므로, "129년의 전통"이 아니라 127이 아닌 129여야 합니다.
- "마라톤 2:04 미만 기록 3번째 주자"라는 주장도 사실이 아닙니다. 약 20명의 주자가 해당 기록을 보유하고 있습니다.
- 보스턴육상협회 웹사이트에 따르면 그의 후반 구간 기록은 1:00:02로, 1:01:05가 아닙니다(후반 최고 기록일 수는 있었음)
- 가장 중요한 것은 ChatGPT Images가 신기록과 구기록 시간을 혼동했다는 점입니다. 구기록은 2:03:02, 신기록은 2:01:52이며, 차이는 1분 10초입니다.
- John Korir가 지난해 보스턴 마라톤 우승자였다는 점을 감안하면, 다른 우승자였을 경우 이름도 제대로 맞히지 못했을 가능성이 큽니다.
최신 정보를 시각적으로 제시할 때 검색 기능은 차이를 만듭니다. 이를 사용하려면 생각 모드를 활성화해야 합니다.
스타일 범위 테스트
OpenAI는 사진, 일러스트, 만화, 픽셀 아트 등에서 스타일적 세련미가 크게 향상되었다고 강조합니다. 정직한 테스트는 개별 이미지가 보기 좋은지 여부가 아니라, 동일한 주제를 세 가지 다른 스타일로 렌더링했을 때 각 장르에 진정성 있게 읽히는지, 아니면 모든 결과가 동일한 AI스러운 광택을 공유하는지 확인하는 것입니다.
이를 위해 나무 작업대 위에 놓인 에스프레소 머신을 세 가지 버전(사진, 만화, 픽셀 아트)으로 요청했습니다. 프롬프트와 결과는 다음과 같습니다.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

이는 흥미로운 결과였습니다. 1년 전 Image 1이 모두가 시도했던 스튜디오 지브리 몽타주로 유명해졌다는 점을 떠올리면 꽤 아이러니하죠(저희도 포함). 그 이후로 OpenAI가 저작권과 IP에 더 신중해진 듯합니다.
Katsuhiro Otomo의 이름을 직접 언급하지 않고 스타일을 서술하자 작동했습니다. 유의할 점은 새 채팅을 열어야 했다는 것입니다. 같은 채팅에서 시도했을 때는 우회하려는 의도를 모델이 파악한 듯했습니다.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

저희 의견으로는 세 이미지 모두 훌륭하며, 요청한 매우 구체적인 스타일을 진정성 있게 구현합니다. 사진은 매우 자연스럽고, 나머지 두 버전은 각각 만화책이나 SNES 비디오게임에서 바로 가져온 듯합니다.
또 하나 눈에 띄는 점은 각 이미지에 맞춰 유연한 가로세로 비율 기능을 활용했다는 것입니다. 사진은 16:9 가로 화면, 만화 버전은 세로 비율, 픽셀 아트는 정사각형을 선택했습니다.
유연한 가로세로 비율 테스트
릴리스는 3:1부터 1:3까지의 가로세로 비율과 최대 2K 해상도를 지원합니다. 중요한 질문은 세로로 길거나 가로로 넓은 이미지를 만들 수 있느냐가 아니라, 모델이 포맷 전환 시 지능적으로 재구성하느냐, 아니면 단순히 크롭하느냐입니다.
모델의 공간 논리를 드러내기 위해, 여러 축에서 분명하고 양보할 수 없는 요소들(높은 것, 넓은 것, 중앙 주제)이 있는 장면이 필요합니다.
테스트로, 기본 프롬프트에서 주제(특정 배경의 우주비행사)를 생성한 뒤, 모바일 배경화면, 배너, 정사각형으로 재생성하도록 요청해 구성이 어떻게 적응하는지 확인했습니다.
기본 프롬프트:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

어떻게 달라지는지 보겠습니다:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

각 버전은 요청에 맞는 가로세로 비율을 선택했고, 중요한 요소(우주비행사, 로버, 행성)를 모두 포함했으며, 원래 프롬프트에서 요청한 대로 배치하고 중심을 잘 맞췄습니다. 테스트 통과입니다.
거친 입력을 다듬어 완성도로
사고 파트너라는 프레이밍은 거친 입력 — 러프 스케치, 글머리표 메모, 몇 가지 레퍼런스 — 을 받아 완성된 에셋으로 바꾸는 데 달려 있습니다. 이번 릴리스가 진짜로 구축된 루프이며, 가장 직접적으로 테스트할 가치가 있는 부분입니다.
이를 위해 호숫가 오두막의 매우 거친 연필 스케치를 업로드했습니다.

난도를 높이기 위해 여러 디테일을 담고, 부두를 뜻하는 핀란드어 "laituri"를 사용했으며, 집과 오두막 두 종류의 건물과 호수와 연못 두 종류의 수면이 있어 혼동의 여지를 남겼습니다.
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

생각 모드 비활성화 상태의 결과는 준수하지만 매우 포토리얼리스틱하지는 않습니다. 그래도 조명은 잘 맞고, 프롬프트의 분위기를 완벽하게 담아냈습니다. 스케치의 거의 모든 요소를 확인할 수 있습니다. 몇 가지는 다릅니다.
- 보트가 없습니다.
- 부두가 호수가 아니라 연못에 있습니다.
- 해의 위치가 오른쪽 상단이 아닙니다.
같은 스케치 이미지와 프롬프트를 생각 모드로 시도하자, 출력은 훨씬 더 사실적으로 보였고 작은 부정확성도 모두 수정되었습니다.

이미지는 스케치의 모든 요소를 지정한 위치에 담고 있으며 매우 깔끔합니다. 핵심 교훈은, 러프 스케치를 포토리얼리스틱 이미지로 바꿀 때 최상의 결과를 원한다면 생각 모드를 사용하라는 점입니다.
창의성 테스트
다음 테스트에서는 니이쿠니 세이이치의 콘크리트 포에트리를 재현할 수 있는지 확인하고자 했습니다.
이 유명한 시는 비를 뜻하는 일본어 한자(雨)를 비가 둘러싼 형태로 보여줍니다. 언어로 비를 붙잡는 듯한 작품이죠.

프롬프트는 다음과 같습니다.
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
이고 출력은 다음과 같습니다.

이 결과는 흥미롭습니다. 원작을 정확히 재현하진 않았지만, 매력적인 다른 작품을 만들어 냈습니다. 새로운 구성에서는 "비"를 뜻하는 한자가 비에 둘러싸인 형태가 아니라, 한자 자체가 비처럼 내려옵니다. 기호의 배치는 빗방울처럼 무작위적이며, 매우 질서정연한 원작과 멋진 대조를 이룹니다.
ChatGPT Images 2.0은 어떻게 사용할 수 있나요?
접근 방식은 이전 릴리스와 동일한 패턴을 따릅니다. 12월에 도입된 전용 크리에이티브 작업 공간 — 캔버스형 에디터, 영속 아티팩트, 스타일 프리셋 — 을 유지하면서, 그 아래에 훨씬 더 강력한 모델을 탑재했습니다.
- 웹, 모바일 앱, Codex: ChatGPT Images 2.0은 Free, Plus, Pro 사용자에게 Images 탭에서 제공되며, 등급에 따라 사용 한도가 달라집니다. Business 및 Enterprise 액세스는 초기 롤아웃 후에 보통 이어집니다.
- API: 개발자는 OpenAI API와 Azure OpenAI Service를 통해 이미지 생성 및 편집 엔드포인트로 새 모델을 사용할 수 있습니다. 1.5와 마찬가지로 이미지 출력은 토큰 기준으로 과금되며, 편집 중 부분 재생성은 매번 전체 이미지를 재생성하는 것보다 비용을 절감합니다.
ChatGPT Images 2.0 vs. Nano Banana 2
ChatGPT Images 2.0이 Nano Banana 2와 어떻게 비교되는지 궁금할 수 있습니다. 두 모델 모두 최근 출시되었고, 각 생태계의 기본 경험을 담당하며, 속도, 추론, 현실 지능을 내세운다는 점에서 유사합니다.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
기반 아키텍처 |
GPT-Image-2 (GPT-Image-1.5의 후속) |
Gemini 3.1 Flash |
|
편집 모델 |
정밀도: 영역 선택 및 제자리 편집 |
추론: 대화형 및 스마트 마스킹 |
|
워크플로우 |
전용 크리에이티브 작업 공간(Images 탭) |
Gemini 채팅에 통합 |
|
반복 |
효율적: 부분 재생성 |
빠름: 1K에서 4–6초, Thinking Mode로 조절 가능 |
|
현실 고정 |
내장 추론과 최신 지식 |
Image Search Grounding(구글 검색의 라이브 레퍼런스 활용) |
|
멀티패널 일관성 |
시퀀스와 캐릭터 시트 전반에 강함 |
강함, 주제 일관성 중점 |
|
다국어 텍스트 |
1.5 대비 대폭 향상; 광범위한 문자 지원 |
강함, 특히 중문 및 동아시아 레이아웃 |
|
기본 해상도 |
표준 + 유연한 가로세로 비율 |
Gemini 앱에서 2K 기본값 |
|
생태계 |
OpenAI & Azure |
Google / Gemini 스택, Search, Lens |
ChatGPT Images 2.0을 언제, Nano Banana 2를 언제 쓸까요
다음과 같은 경우 ChatGPT Images 2.0을 사용하세요…
- 레퍼런스 기반 편집 루프가 필요할 때. 모델은 레퍼런스 이미지를 받아 타깃 변경(텍스처 디테일, 위치 보정, 가로세로 비율 수정)을 여러 턴에 걸쳐 적용합니다. 자연어 후속 지시로 처음부터 다시 시작하지 않고도 출력을 안정적으로 조정할 수 있어 토큰도 절약됩니다.
- 거친 입력을 다듬어 완성된 에셋으로 만들 때. 생각 모드는 모호한 스케치와 공간 지시를 정확하고 포토리얼리스틱한 구성으로 해석하며, 요소를 의도한 위치에 정확히 배치합니다.
- 이미지 내부의 사실 정확성이 중요할 때. 웹 검색 기반은 라이브 정보를 끌어와 이미지 내부에 정확히 렌더링하여, 이벤트 포스터, 뉴스 인포그래픽, 숫자와 이름이 정확해야 하는 모든 비주얼에 신뢰성을 제공합니다. 웹 검색을 활성화하려면 생각 모드를 사용해야 함을 기억하세요.
다음과 같은 경우 Nano Banana 2를 사용하세요…
- 특정 현실 세계의 대상이나 위치를 장면에 배치할 때. Image Search Grounding은 Google에서 라이브 시각 레퍼런스를 가져와 특정 장소(심지어 GPS 좌표로도)를 정확히 재구성하고, 주제 일관성이 유지되는 캐릭터와 하나의 생성물에 결합합니다.
- 하나의 워크플로우에서 여러 캐릭터와 객체의 정체성을 유지해야 할 때. 이 모델은 최대 5명의 캐릭터와 총 14개의 레퍼런스(캐릭터 + 객체)의 엄격한 일관성을 명시적으로 지원합니다. 스토리보드, 제품 샷, 다중 캐릭터 내러티브에 적합한 선택입니다.
- Google 생태계 내에서 구축할 때. Nano Banana는 Gemini 채팅, Google 검색, Google Ads, Firebase, Vertex AI에 네이티브로 통합되어 있습니다.
이미지 내 텍스트 렌더링, 스타일 범위, 대화형 편집 측면에서는 두 모델 모두 준수한 선택입니다.
마무리 생각
"시각적 사고 파트너"라는 프레이밍은 유효합니다 — 단, 생각 모드가 켜져 있을 때만요. 생각 모드 없이 모델은 공간 논리와 사실감에서 어려움을 겪지만, 생각 모드가 켜지면 모호한 입력을 기계적이기보다 협업적인 느낌의 출력으로 바꿉니다. 생각 모드 없이도 모델이 돋보이는 두 영역은 스타일의 진정성과 가로세로 비율의 유연성입니다.
웹 검색 기반은 Images 1.5 대비 가장 큰 업그레이드로 느껴집니다. 보스턴 마라톤 테스트에서 그 차이가 분명했습니다. 2.0은 모든 사실을 정확히 반영했지만 1.5는 최신이 아니었습니다. 웹 검색 역시 생각 모드에서만 작동한다는 점이 중요합니다.
흥미로운 발견은 저작권 가드레일이 더 엄격해졌다는 점이며, 실제로 체감됩니다. 특정 회사나 인물이 인정받는 스타일을 재현하려면, 그 스타일의 정수를 포착해 서술하는 추가 단계를 거쳐야 합니다(요즘은 비교적 쉬운 작업이기도 합니다).
전반적으로 이 모델은 전작 대비 큰 업그레이드이며, AI 이미지 생성 및 편집 분야에서 Nano Banana 2의 1위 지위를 위협합니다.
이러한 도구를 최대한 활용하려면 프롬프트 작성법이 필수 역량입니다. Understanding Prompt Engineering 및 Prompt Engineering with the OpenAI API 과정을 통해 이론과 실무를 모두 갖추시길 권합니다.