courses
첫 번째 ChatGPT Images가 GPT Image 1이라는 모델과 함께 출시된 지 거의 정확히 1년이 지났습니다. OpenAI는 지금 다시 이미지 모델을 전면 개편했고, 이제 "이미지 생성기"가 "시각적 사고 파트너"라는 새로운 개념을 제시하고 있습니다.
이 글에서는 무엇이 새로워졌는지, 이전 버전인 ChatGPT Images 1.5와 어떻게 비교되는지, Google의 Nano Banana 2와는 어떻게 다른지, 그리고 이 모델이 강점을 보이는 영역(및 그렇지 않은 영역)은 어디인지 살펴보겠습니다.
또한 OpenAI의 최신 LLM인 GPT-5.5 가이드도 함께 참고하시길 추천합니다.
ChatGPT Images 2.0이란?
ChatGPT Images 2.0은 OpenAI의 차세대 이미지 모델입니다. 이 모델은 사고하고, 조사하고, 그다음 렌더링하는 것으로 소개되고 있습니다.
ChatGPT Images 2.0의 새로운 점
ChatGPT Images 1.5 출시 때 가장 크게 눈에 띄었던 건 성능 속도의 큰 향상이었습니다. 당시 발표에서는 4배 더 빠르다고 했죠. 직접 검증해 보니 신규 이미지 생성보다는 편집에 해당하는 속도였습니다.
이번에는 지능이 핵심 주장입니다. ChatGPT Images 2.0은 "생각하는" 이미지 모델로, 검색하고, 사실을 추론하며, 거친 입력(메모, 스케치, 참고 자료)을 훨씬 적은 수작업 프롬프트로도 다듬어진 비주얼로 변환한다고 합니다.
발표에서 강조된 다른 주요 테마는 다음과 같습니다.
- 생성 과정에 대한 더 높은 정밀도와 제어력
- 언어와 문자 전반에서 더 강한 성능
- 더 세련된 스타일 표현과 사실감
- 향상된 실제 세계 지능이 모델에 내장
- 유연한 가로세로비로 모바일부터 배너 포맷까지 대응
생각하는 모델
이번 출시에서 가장 큰 주장 중 하나는 새 모델이 “생각”하고 “시각적 사고 파트너”처럼 행동한다는 것입니다. 에이전트가 백그라운드에서 작업을 충분히 이해하고 그에 대해 추론한 뒤 생성 요청을 실행한다는 개념입니다.
세계에 대한 이해는 2025년 12월 기준으로 업데이트되어 출력이 더 맥락적으로 정확합니다. 이는 교육용 그래픽과 맥락이 필요한 다단계 워크플로에 특히 적합하다고 홍보되고 있습니다.
웹 검색
컷오프와 최신 정보 간의 간극을 메우기 위해 Images 2.0은 웹을 검색해 관련 정보를 찾을 수 있습니다. OpenAI의 릴리스 노트에서 정확한 동작 방식은 명확하지 않지만, 이해하기로는 위에서 언급한 사고 에이전트가 호출하는 도구로 웹 검색이 제공되는 듯합니다.
하나의 프롬프트로 여러 이미지 생성
새 모델은 동일한 프롬프트로 여러 이미지를 기본 지원합니다. API에서 "composition"을 요청하는 우회 방법으로도 가능했지만, 이제 UI에서도 최대 10개까지 생성할 수 있습니다. OpenAI는 모든 출력에서 캐릭터와 객체의 연속성을 보장한다고 합니다.
ChatGPT Images 2.0 테스트
이제 새 모델이 실제로 무엇을 할 수 있는지 살펴봅시다! 다음과 같은 Images 2.0의 기능을 테스트했습니다.
- 편집 워크플로
- 생각 모드와 웹 검색
- 스타일 범위
- 거친 스케치 다듬기
- 가로세로비 유연성
- 창의성
편집 워크플로 테스트
OpenAI는 2.0을 반복 중심으로 소개합니다. 거친 입력을 넣으면 지시 준수 능력과 촘촘한 텍스트 렌더링에서 개선을 보이며 다듬어진 결과물을 내놓는다는 것이죠. 이를 검증하기 위해 1898년 미국의 유명한 우표 Western Cattle in Storm을 사용했습니다.
다음은 상태가 양호(Fine) 등급인 우표 사진입니다.

편집 워크플로를 구체적으로 시험하기 위해 생각 모드 없이 아래 프롬프트를 사용했습니다. 즉, 웹 검색 접근은 없으며, 이는 별도로 테스트했습니다.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
결과는 다음과 같습니다.

텍스트만으로 프롬프트를 준 것은 통하지 않았습니다. 우표와 상태 등급에 대한 상세 설명은 핵심적인 부분에서 대부분 틀렸습니다. 색상도, 액면가 배치도, 과장된 중심 이탈도 잘못되었죠. 텍스트만으로 특정 역사적 유물을 재현하는 일은 쉽지 않습니다.
모델에 참고 이미지를 제공하고 목표 편집을 요청하자 2.0의 진가가 드러났습니다. 천공 불규칙, 힌지 잔흔, 대각선 방향의 검자국 구김, 약한 변색, 부분 소인 등입니다.
대체로 원하는 위치에 편집이 반영되었습니다. 모델이 가로세로비를 한 번 망가뜨렸지만, 간단한 언어로 후속 지시를 하자 해결됐습니다. 최종 결과가 포렌식 수준은 아닙니다. "$1" 표기가 약간 늘어나 보이고, 옥수수 디테일이 다릅니다. 그래도 반복 루프는 잘 작동했습니다. 거친 시작, 경로 수정, 세 번의 턴 만에 실사용 가능한 결과.

다국어 텍스트 렌더링 테스트
비라틴 문자 텍스트 렌더링은 이미지 모델의 지속적인 약점이었고, OpenAI는 이를 핵심 개선점으로 내세웁니다. 발표에 따르면 일본어, 한국어, 중국어, 힌디어, 벵골어에서 고충실도 텍스트 생성을 지원하며, 단순 번역이 아니라 일관된 레이아웃과 현지 감각의 타이포그래피까지 구현한다고 합니다.
공정한 테스트는 이러한 문자 중 하나로 텍스트 블록이 포함된 포스터나 인포그래픽을 요청하고, 원어 화자가 읽어보는 것입니다. 저희는 허구의 동네 카페와 시즌 한정 벚꽃 라떼를 홍보하는 모던한 일본 라이프스타일 포스터를 요청했습니다.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
출력은 다음과 같습니다.

일본어를 구사하는 동료(Sven님께 감사!)에 따르면, 예전 모델에서 많은 문자가 깨져 의미 없는 경우가 많았던 것과 달리 훨씬 좋아졌다고 합니다. 이번 출력은 훨씬 자연스럽고 원어민이 쉽게 읽을 수 있습니다.
생각 모드에서는 왼쪽 하단의 작은 칠판 표지에 프롬프트 지시를 넘어서는 문장도 추가했습니다. 맥락에 잘 맞고 중복되지 않으며, 대략 “계절 한정, 은은한 풍미. 잠시 쉬어가며 봄을 머금은 한 잔을 즐기세요.” 정도로 번역됩니다.
생각 모드와 웹 검색 테스트
웹 검색 기능을 테스트할 때는 주의가 필요했습니다. 프롬프트에서 원하는 정보를 모두 알려주면 검색이 아니라 지시 준수 능력을 시험하는 셈이기 때문입니다. 가장 깔끔한 테스트는 아주 최근의 매우 구체적인 사안을 거의 정보 없이 요청하고, 모델이 빈칸을 올바르게 채우는지 확인하는 것입니다.
저희는 어제 열린 보스턴 마라톤을 선택했습니다. 경기는 4월 20일 월요일에 끝났고(바로 다음 날 ChatGPT Images 2.0 발표), 남자부 코스 레코드가 2011년 이후 처음으로 경신되었습니다. 이는 모델이 학습으로 알 수 없는 사실(우승자, 국가, 기록, 격차, 맥락)이며, 빠른 검색으로 쉽게 검증 가능한 항목들입니다.
아래는 의도적으로 세부 정보를 뺀 프롬프트입니다. 결과에서 모델이 실제로 웹을 검색하는 것을 볼 수 있습니다!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

결과는 시각적으로 매우 뛰어나며 보스턴 마라톤의 컬러 코드를 유지한 점도 좋습니다. 언급된 모든 사실은 정확했고, 저희가 재확인했습니다.
이전 모델(Images 1.5)은 웹 검색을 하지 못하기 때문에 잘못된 답을 낼 것임을 확신했습니다. 그래도 같은 프롬프트로 테스트해 본 결과는 다음과 같습니다.

스타일 면에서는 경쟁력이 있지만, 숫자 관련 문제가 다수 보입니다.
- 이번 대회는 130회였으므로 “129년의 전통”이 아니라 127이라고 표기한 것은 잘못입니다.
- “마라톤에서 2:04 미만 기록을 낸 역사상 3번째 주자”라는 주장도 사실이 아닙니다. 약 20명의 주자가 이를 달성했습니다.
- 보스턴육상협회 웹사이트에 따르면, 그의 하프 이후 구간 기록은 1:00:02로, 1:01:05가 아닙니다(후자도 당시 기준 최속 세컨드 하프였을 수 있음)
- 가장 중요한 오류는 신기록과 구기록 시간을 혼동한 점입니다. 구기록은 2:03:02, 신기록은 2:01:52로 차이는 1분 10초입니다. 또한 2:03:02도 정확한 시간이 아니었습니다.
최신 정보를 시각적으로 제시할 때 검색 기능은 확실한 차이를 만듭니다. 이를 활용하려면 생각 모드를 켜야 합니다.
스타일 범위 테스트
OpenAI는 사진, 일러스트, 만화, 픽셀 아트 등 전반에서 스타일적 정교함이 크게 향상됐다고 말합니다. 정직한 테스트는 단일 이미지의 퀄리티가 아니라, 동일한 주제를 세 가지 다른 스타일로 렌더링했을 때 각각이 장르의 본질을 진짜처럼 담아내는지, 아니면 모두 AI스러운 공통된 느낌이 배어 나오는지를 보는 것입니다.
이를 위해 나무 작업대 위 에스프레소 머신을 사진, 만화, 픽셀 아트 등 세 가지 버전으로 요청했습니다. 프롬프트와 결과는 다음과 같습니다.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

이는 흥미로운 결과입니다. Image 1이 1년 전 모두가 만들던 스튜디오 지브리 몽타주로 유명해졌다는 점을 떠올리면 다소 아이러니하죠. 그때보다 OpenAI가 저작권과 IP에 더 신중해진 것으로 보입니다.
구체적 인명을 언급하지 않고 카츠히로 오토모의 스타일 특성을 묘사하자 작동했습니다. 다만 새 채팅을 열어야 했습니다. 같은 채팅에서는 우회하려 한다고 모델이 인지한 듯 차단이 유지됐습니다.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

저희가 보기엔 세 이미지 모두 훌륭하며 요청한 매우 구체적인 스타일을 진정성 있게 구현했습니다. 사진은 매우 자연스럽고, 나머지 두 버전은 각각 만화책이나 SNES 게임에서 바로 가져온 듯합니다.
또 하나 눈에 띄는 점은, 모델이 유연한 가로세로비 기능을 활용해 각 이미지에 맞게 조정했다는 것입니다. 사진은 16:9 가로, 만화는 세로, 픽셀 아트는 정사각형을 택했습니다.
유연한 가로세로비 테스트
이번 릴리스는 3:1부터 1:3까지의 가로세로비와 최대 2K 해상도를 지원합니다. 흥미로운 질문은 세로형 또는 가로형 이미지를 만들 수 있는지가 아니라, 모델이 포맷에 맞춰 지능적으로 재구성하는지 아니면 단순히 크롭하는지 여부입니다.
모델의 공간 논리를 드러내려면 여러 축에 뚜렷하고 대체 불가한 요소가 있는 장면이 필요합니다(높은 것, 넓은 것, 중앙 주제).
테스트로, 기본 프롬프트에서 주제(특정 배경의 우주비행사)를 생성한 뒤 모바일 배경, 배너, 정사각형으로 재생성하도록 요청해 구성이 어떻게 적응하는지 보았습니다.
기본 프롬프트:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

어떻게 바뀌는지 보겠습니다.
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

각 버전은 요청에 맞는 가로세로비를 선택하고, 중요한 요소(우주비행사, 로버, 행성)를 모두 포함하며, 원 프롬프트에서 요청한 배치를 유지하고, 중심 정렬을 보장했습니다. 테스트 통과입니다.
거친 입력을 다듬은 출력으로
사고 파트너라는 프레이밍은 모델이 모호하거나 지저분한 입력—거친 스케치, 글머리표 메모, 몇 가지 참고 자료—을 받아 완성 자산으로 전환한다는 전제에 기반합니다. 이번 릴리스가 특히 강조하는 루프이며, 가장 직접적으로 테스트할 가치가 있습니다.
이를 위해 호수 근처 오두막의 매우 거친 연필 스케치를 업로드했습니다.

난이도를 높이기 위해 여러 디테일을 넣었고, 핀란드어로 부두를 뜻하는 “laituri”를 사용했으며, 두 종류의 건물(집과 오두막)과 두 종류의 수면(호수와 연못)을 포함해 혼동의 여지도 만들었습니다
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

생각 모드를 끈 상태의 결과는 그럴듯하지만 아주 사진 같지는 않습니다. 그럼에도 조명은 잘 맞고, 프롬프트의 분위기를 잘 포착했습니다. 스케치의 요소 대부분을 볼 수 있습니다. 다만 몇 가지는 아쉽습니다.
- 보트가 없음
- 부두가 호수가 아니라 연못에 있음
- 태양의 위치가 오른쪽 상단이 아님
같은 스케치와 동일 프롬프트를 생각 모드로 실행하자 출력은 훨씬 더 사실적이었고, 작은 부정확성들이 모두 수정되었습니다.

이미지에는 스케치의 모든 요소가 지정된 위치에 들어 있으며, 매우 깔끔합니다. 핵심 교훈은 거친 스케치를 사진 같은 이미지로 만들 때 최상의 결과를 얻으려면 생각 모드를 사용하라는 점입니다.
창의성 테스트
다음 테스트에서는 니이쿠니 세이이치의 구체시를 재현할 수 있는지 보고자 했습니다.
이 유명한 시는 비가 오는 모습을 일본 한자 ‘비(雨)’로 둘러싸 표현하여, 언어로 비를 포착한 작품이라고 볼 수 있습니다.

프롬프트는 다음과 같습니다.
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
그리고 출력은 다음과 같습니다.

이 결과는 흥미롭습니다. 원작을 정확히 재현하진 않았지만, 다른 방식으로 매력적인 구성을 만들었습니다. 새 구성에서는 “비(雨)”라는 한자가 비에 둘러싸인 것이 아니라, 한자가 비처럼 쏟아집니다. 기호의 배열은 빗방울처럼 무작위에 가깝지만, 아주 질서정연한 원작과 멋진 대비를 이룹니다.
ChatGPT Images 2.0은 어떻게 사용할 수 있나요?
접근 방식은 이전 릴리스와 동일한 패턴을 따릅니다. 12월에 도입된 전용 크리에이티브 작업 공간—캔버스 스타일 에디터, 지속 아티팩트, 스타일 프리셋—을 유지하면서, 그 아래에 훨씬 더 강력한 모델을 탑재합니다.
- 웹, 모바일 앱, Codex: ChatGPT Images 2.0은 Free, Plus, Pro 사용자에게 Images 탭에서 제공되며, 사용 한도는 등급에 따라 달라집니다. Business와 Enterprise 접근은 초기 롤아웃 후에 이어지는 것이 일반적입니다.
- API: 개발자는 OpenAI API와 Azure OpenAI Service의 이미지 생성 및 편집 엔드포인트를 통해 새 모델을 사용할 수 있습니다. 1.5와 마찬가지로 이미지 출력은 토큰 기준으로 과금되며, 편집 중 부분 재생성은 매번 전체 이미지를 재생성하는 것보다 비용을 낮춥니다.
ChatGPT Images 2.0 vs. Nano Banana 2
ChatGPT Images 2.0이 Nano Banana 2와 어떻게 비교되는지 궁금하실 겁니다. 두 모델 모두 최신이며, 각자 생태계의 기본 경험을 제공하고, 속도, 추론, 실제 세계 지능을 핵심 가치로 내세웁니다.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
기반 아키텍처 |
GPT-Image-2 (GPT-Image-1.5 후속) |
Gemini 3.1 Flash |
|
편집 모델 |
정밀도: 영역 선택 및 인플레이스 편집 |
추론: 대화형 및 스마트 마스킹 |
|
워크플로 |
전용 크리에이티브 작업 공간(Images 탭) |
Gemini 채팅에 통합 |
|
반복 |
효율적: 부분 재생성 |
빠름: 1K에서 4–6초, 생각 모드로 조정 가능 |
|
현실 반영 |
내장 추론과 최신 지식 |
Image Search Grounding(구글 검색에서 실시간 참고 자료 활용) |
|
멀티 패널 일관성 |
연속 시퀀스와 캐릭터 시트 전반에서 강함 |
강함, 피사체 일관성 중점 |
|
다국어 텍스트 |
1.5 대비 대폭 업그레이드; 광범위한 문자 지원 |
강함, 특히 중국어 및 동아시아 레이아웃 |
|
기본 해상도 |
표준 + 유연한 가로세로비 |
Gemini 앱에서 2K 기본 |
|
생태계 |
OpenAI & Azure |
Google / Gemini 스택, Search, Lens |
ChatGPT Images 2.0와 Nano Banana 2 중 언제 무엇을 쓸까
다음과 같은 경우 ChatGPT Images 2.0을 사용하세요…
- 참고 이미지를 활용한 편집 루프가 필요할 때. 모델은 참고 이미지를 받아 타깃 변경(텍스처 디테일, 위치 수정, 가로세로비 보정)을 턴마다 적용합니다. 간단한 언어로 후속 지시를 주면 처음부터 다시 시작하지 않고도 출력을 안정적으로 조정할 수 있어 토큰도 절약됩니다.
- 거친 입력을 다듬어 완성 자산으로 만들 때. 생각 모드는 모호한 스케치와 공간 지시를 정확하고 사진 같은 구성으로 해석해, 요소를 의도한 위치에 정확히 배치합니다.
- 이미지 내부의 사실 정확도가 중요할 때. 웹 검색 기반으로 최신 정보를 끌어와 이미지 자체 안에 정확히 렌더링합니다. 행사 포스터, 뉴스 인포그래픽, 숫자와 이름이 정확해야 하는 모든 비주얼에 유용합니다. 웹 검색을 활성화하려면 생각 모드를 꼭 사용하세요.
다음과 같은 경우 Nano Banana 2를 사용하세요…
- 특정 현실의 대상이나 장소를 장면에 배치할 때. Image Search Grounding이 구글에서 실시간 시각 참고를 가져와 특정 장소(심지어 GPS 좌표로도)를 정확히 재구성하고, 피사체 일관성이 유지된 캐릭터와 한 번에 결합합니다.
- 하나의 워크플로에서 여러 캐릭터와 객체의 정체성을 유지해야 할 때. 이 모델은 최대 다섯 캐릭터와 총 14개의 참고(캐릭터 + 객체)를 엄격한 일관성으로 지원합니다. 스토리보드, 제품 샷, 다캐릭터 내러티브에 적합합니다.
- 구글 생태계에서 구축할 때. Nano Banana는 Gemini 채팅, Google 검색, Google Ads, Firebase, Vertex AI에 기본 통합되어 있습니다.
두 모델 모두 이미지 내 텍스트 렌더링, 스타일 범위, 대화형 편집 측면에서는 준수한 선택입니다.
마무리 생각
“시각적 사고 파트너”라는 프레이밍은—생각 모드를 켠 경우에—타당합니다. 이를 끄면 모델은 공간 논리와 사진 사실감에서 고전하지만, 켜면 모호한 입력을 기계적이기보다 협업적으로 느껴지는 출력으로 바꿉니다. 생각 모드 없이도 강점을 보이는 영역은 스타일의 진정성, 가로세로비의 유연성입니다.
웹 검색 기반은 Images 1.5 대비 가장 큰 업그레이드로 보입니다. 보스턴 마라톤 테스트에서 그 격차가 분명했습니다. 2.0은 모든 사실을 정확히 잡아냈지만, 1.5는 최신이 아니었습니다. 웹 검색 역시 생각 모드에서만 작동한다는 점을 유의하세요.
흥미로운 발견 중 하나는 저작권 가드레일이 더 촘촘해졌다는 점입니다. 특정 기업이나 인물이 알아볼 만한 스타일을 재현하려면, 그 스타일의 핵심을 추려 묘사하는 추가 단계가 필요합니다(요즘은 비교적 쉬운 작업이기도 합니다).
전반적으로 이 모델은 전작 대비 의미 있는 업그레이드이며, AI 이미지 생성 및 편집 분야 1위 도구로서 Nano Banana 2의 위치에 도전합니다.
이러한 도구를 최대한 잘 활용하려면 프롬프트 작성법이 필수 역량입니다. 이론과 실습을 모두 다루는 Understanding Prompt Engineering 및 Prompt Engineering with the OpenAI API 강의를 강력히 추천합니다.