Kursus
Sudah hampir tepat satu tahun sejak peluncuran ChatGPT Images pertama dengan model bernama GPT Image 1. OpenAI kini kembali merombak model gambarnya, dan perusahaan memperkenalkan gagasan baru bahwa "pembangkit gambar" kini adalah "mitra berpikir visual."
Dalam artikel ini, kami akan membahas apa yang baru, bagaimana perbandingannya dengan pendahulunya ChatGPT Images 1.5, bagaimana perbandingannya dengan Nano Banana 2 milik Google, serta di mana model ini unggul (dan di mana tidak).
Kami juga merekomendasikan panduan kami tentang LLM terbaru OpenAI, GPT-5.5.
Apa Itu ChatGPT Images 2.0?
ChatGPT Images 2.0 adalah model gambar generasi berikutnya dari OpenAI. Model ini diposisikan sebagai sesuatu yang dapat menalar, meneliti, lalu merender.
Apa yang Baru di ChatGPT Images 2.0?
Salah satu hal paling menonjol dari rilis ChatGPT Images 1.5 adalah peningkatan besar dalam kecepatan performa. Saat itu disebutkan 4x lebih cepat. Kami mencoba memverifikasi klaim tersebut namun melihatnya berlaku untuk pengeditan, bukan pembuatan gambar baru.
Kali ini, klaim besarnya adalah kecerdasan. ChatGPT Images 2.0 adalah model gambar yang "berpikir": seharusnya dapat mencari, menalar fakta, dan menerjemahkan masukan kasar (catatan, sketsa, referensi) menjadi visual yang rapi dengan jauh lebih sedikit prompt manual.
Tema utama lain dari pengumuman ini adalah:
- Presisi dan kontrol yang lebih besar atas proses generasi itu sendiri
- Kinerja lebih kuat lintas bahasa dan aksara
- Kehalusan gaya dan realisme yang lebih baik
- Kecerdasan dunia nyata yang ditingkatkan tertanam dalam model
- Rasio aspek fleksibel untuk segala kebutuhan dari format seluler hingga banner
Model yang berpikir
Salah satu klaim terbesar dari rilis ini adalah bahwa model baru tersebut “berpikir” dan bertindak seperti “mitra berpikir visual”. Idenya, agen melakukan sebagian pekerjaan di belakang layar untuk benar-benar memahami tugas dan menalarnya sebelum mengeksekusi permintaan generasi.
Pemahamannya tentang dunia telah diperbarui hingga cutoff Desember 2025, sehingga keluaran menjadi lebih akurat secara kontekstual. Ini diklaim membuat model baru sangat baik untuk grafik edukasi dan alur kerja multi-langkah yang membutuhkan konteks.
Menelusuri web
Untuk menjembatani kesenjangan antara cutoff dan informasi terbaru, Images 2.0 dapat menelusuri web untuk menemukan informasi relevan. Tidak jelas dari catatan rilis OpenAI bagaimana tepatnya hal itu bekerja, namun sejauh yang kami pahami, penelusuran web berfungsi sebagai alat yang dipanggil oleh agen berpikir yang disebutkan di atas.
Buat banyak gambar dari satu prompt
Model baru juga secara native mendukung pembuatan banyak gambar dari prompt yang sama. Ini sebelumnya mungkin dilakukan lewat solusi di API (meminta “komposisi”), tetapi kini dapat dilakukan juga di UI, hingga sepuluh gambar. OpenAI menjanjikan kesinambungan karakter dan objek di semua keluaran tersebut.
Menguji ChatGPT Images 2.0
Saatnya melihat apa yang benar-benar bisa dilakukan model baru! Kami menguji kemampuan dan fitur Images 2.0 berikut:
- Alur kerja pengeditan
- Mode berpikir dan penelusuran web
- Rentang gaya
- Pemolesan sketsa kasar
- Fleksibilitas rasio aspek
- Kreativitas
Menguji alur kerja pengeditan
Pitch OpenAI untuk 2.0 bertumpu pada iterasi: masukan kasar, keluaran aset yang rapi, dengan peningkatan dalam mengikuti instruksi dan perenderan teks padat. Kami menguji putaran itu menggunakan prangko AS terkenal dari tahun 1898 bernama Western Cattle in Storm.
Berikut adalah foto salah satu prangko dalam kondisi Fine.

Untuk secara khusus menguji alur kerja pengeditan, kami menggunakan prompt berikut tanpa mode berpikir. Ini juga berarti model tidak memiliki akses ke penelusuran web, yang kami uji secara terpisah.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Dan berikut hasilnya:

Prompt berbasis teks saja tidak berhasil. Deskripsi detail tentang prangko dan tingkat kondisinya kembali salah dalam banyak hal penting — warna salah, tata letak denominasi salah, pergeseran pusat yang terasa kartun. Mereproduksi artefak sejarah tertentu hanya dari teks memang berat.
Memberikan gambar referensi kepada model dan meminta pengeditan terarah adalah titik di mana 2.0 menunjukkan kemampuannya: ketidakteraturan perforasi, sisa engsel, lekukan gum diagonal, toning ringan, dan pembatalan sebagian.
Editnya mendarat kira-kira sesuai permintaan. Model memperkenalkan regresi rasio aspek, tetapi satu tindak lanjut dengan bahasa sederhana memperbaikinya. Hasil akhirnya bukan setingkat forensik — "$1" terlihat sedikit memanjang, jagungnya berbeda — tetapi putarannya bekerja: awal yang kasar, koreksi arah, hasil yang dapat digunakan dalam tiga langkah.

Menguji perenderan teks multibahasa
Perenderan teks dalam aksara non-Latin telah lama menjadi titik lemah model gambar, dan OpenAI menyoroti hal ini sebagai perbaikan utama. Rilis ini menyebutkan pembuatan teks berkualitas tinggi dalam bahasa Jepang, Korea, Tionghoa, Hindi, dan Bengali — bukan sekadar diterjemahkan, tetapi ditata dengan tata letak yang koheren dan tipografi yang terasa native.
Uji yang adil di sini adalah meminta poster atau infografik dengan blok teks dalam salah satu aksara tersebut dan memeriksa keluarannya bersama penutur asli. Kami meminta model membuat poster gaya hidup Jepang modern yang mengiklankan kedai kopi lokal fiksi dan latte bunga sakura musiman mereka.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
Berikut tampilan keluarannya:

Menurut rekan kami yang berbahasa Jepang (shoutout untuk Sven!), ini terlihat jauh lebih baik dibanding model-model sebelumnya, ketika banyak karakter menjadi berantakan dan tak bermakna. Yang ini terasa lebih natural dan mudah dibaca penutur asli.
Dalam mode berpikir, model bahkan menambahkan beberapa kalimat di luar instruksi prompt pada papan tulis kecil di sudut kiri bawah. Kalimat-kalimat itu pas dengan konteks tanpa terasa berulang, kira-kira bermakna “Rasa musiman yang lembut. Rehat sejenak—nikmati secangkir yang membawa musim semi.”
Menguji mode berpikir dan penelusuran web
Kami harus sedikit berhati-hati saat menguji kemampuan penelusuran web, karena jika Anda memberi tahu model apa yang Anda inginkan dalam prompt, Anda tidak menguji penelusuran, melainkan kemampuan mengikuti instruksi. Uji paling bersih adalah meminta sesuatu yang sangat baru dan sangat spesifik, memberi model hampir tanpa informasi, dan melihat apakah model dapat mengisinya dengan benar.
Kami memilih Boston Marathon kemarin. Perlombaan berakhir pada Senin, 20 April — sehari sebelum pengumuman ChatGPT Images 2.0 — dan rekor lintasan putra dipecahkan untuk pertama kalinya sejak 2011. Itu memberi kami seperangkat fakta konkret (pemenang, negara, waktu, selisih, konteks) yang mustahil dimiliki model dari pelatihan, namun mudah diverifikasi lewat pencarian singkat.
Berikut promptnya, sengaja dilucuti dari detail. Dan Anda dapat melihat pada hasil bahwa model memang menelusuri web!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Hasilnya terlihat sangat menarik secara visual dan menggunakan kode warna Boston Marathon, yang merupakan nilai tambah. Semua fakta yang disebutkan akurat, yang sudah kami periksa ulang dan verifikasi.
Karena model lama (Images 1.5) tidak dapat menelusuri web, kami yakin model lama akan memberikan jawaban yang salah. Kami tetap mengujinya dengan prompt yang sama, dan berikut hasilnya:

Dari sisi gaya, ini bisa bersaing, tetapi ada cukup banyak masalah terkait angka di sini:
- Lomba tersebut menandai edisi ke-130 Boston Marathon, jadi seharusnya tertulis “129 years of tradition”, bukan 127.
- Klaim bahwa ia adalah “pelari ke-3 dalam sejarah yang berlari di bawah 2:04 dalam maraton” juga salah. Sekitar 20 pelari telah melakukannya.
- Menurut situs Boston Athletic Association, waktu paruh keduanya adalah 1:00:02, bukan 1:01:05 (yang mungkin masih menjadi paruh kedua tercepat sepanjang masa)
- Yang paling penting, ChatGPT Images mengacaukan waktu rekor baru dan lama. Rekor lama adalah 2:03:02; rekor baru 2:01:52. Selisihnya 1:10 menit. Selain itu, 2:03:02 bukan waktu yang benar.
Kemampuan pencarian membuat perbedaan saat menyajikan informasi terkini secara visual. Untuk menggunakannya, mode berpikir harus diaktifkan.
Menguji rentang gaya
OpenAI mempromosikan peningkatan nyata dalam kecanggihan gaya — lintas fotografi, ilustrasi, manga, pixel art, dan gaya visual lain. Uji yang jujur bukanlah apakah satu gambar terlihat bagus, melainkan apakah subjek yang sama dirender dalam tiga gaya berbeda terasa autentik untuk tiap genre, atau semuanya kembali dengan kilau khas AI yang sama di baliknya.
Untuk mengujinya, kami meminta tiga versi berbeda dari mesin espresso di atas meja kerja kayu (fotografi, manga, pixel art). Berikut prompt dan hasilnya:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Ini hasil yang menarik, dan cukup ironis jika mengingat Image 1 terkenal karena montase Studio Ghibli yang banyak dibuat orang setahun lalu (termasuk kami). Tampaknya OpenAI kini lebih berhati-hati soal hak cipta dan kekayaan intelektual.
Dengan mendeskripsikan gaya Katsuhiro Otomo tanpa menyebut namanya secara spesifik, itu berhasil. Satu hal yang perlu dicatat, kami harus membuka chat baru agar berhasil. Dalam chat yang sama seperti prompt asli, model tampaknya menyadari kami mencoba mengakali pemblokiran.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Menurut kami, ketiga gambar tersebut terlihat bagus dan mewujudkan gaya yang sangat spesifik secara autentik. Foto terlihat sangat natural, dan dua versi lainnya bisa saja diambil langsung dari buku manga atau gim SNES.
Hal lain yang mencolok dari pengujian di atas adalah bagaimana model menggunakan kemampuan rasio aspek fleksibel untuk menyesuaikannya dengan setiap gambar: lanskap 16:9 untuk foto, rasio potret untuk versi manga, dan gambar pixel art berbentuk kotak.
Menguji rasio aspek yang fleksibel
Rilis ini mendukung rasio aspek dari 3:1 hingga 1:3 dan resolusi hingga 2K. Pertanyaannya bukan apakah model dapat menghasilkan gambar tinggi atau lebar — melainkan apakah model menyusun ulang komposisi secara cerdas lintas format atau sekadar memotong.
Untuk mengekspos logika spasial dasar model, kita membutuhkan adegan dengan elemen-elemen yang berbeda dan tak bisa ditawar pada banyak sumbu (sesuatu yang tinggi, sesuatu yang lebar, dan subjek sentral).
Sebagai uji, kami menghasilkan subjek kami (seorang astronot dalam latar tertentu) dari prompt dasar, lalu meminta model untuk membuat ulang sebagai wallpaper seluler, banner, dan kotak untuk melihat bagaimana komposisinya beradaptasi.
Prompt dasar:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Mari lihat bagaimana perubahannya:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Setiap versi memilih rasio aspek yang pas untuk permintaan, menyertakan semua elemen penting (astronot, rover, planet), menatanya seperti yang kami minta pada prompt asli, dan memastikan semuanya terpusat. Tes lolos.
Menguji dari masukan kasar ke keluaran rapi
Kerangka “mitra berpikir” bergantung pada model yang menerima masukan samar atau berantakan — sketsa kasar, catatan berpoin, beberapa referensi — dan mengubahnya menjadi aset jadi. Inilah putaran yang benar-benar jadi inti rilis ini, dan yang paling layak diuji secara langsung.
Untuk mengujinya, kami mengunggah sketsa pensil yang sangat kasar tentang kabin dekat danau berikut:

Untuk membuatnya menantang, sketsa ini memuat cukup banyak detail, menggunakan kata Finlandia untuk dermaga, “laituri”, dan berpotensi membingungkan karena memuatdua jenis bangunan (rumah dan kabin) serta dua jenis permukaan air (danau dan kolam)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Hasil dalam mode tanpa berpikir terlihat oke, namun tidak terlalu fotorealistik. Meski begitu, pencahayaannya selaras, dan gambar ini menangkap nuansa prompt dengan baik. Kami bisa melihat hampir semua elemen dari sketsa. Beberapa detail meleset:
- Perahu tidak ada
- Dermaga berada di kolam, bukan di danau
- Posisi matahari tidak di pojok kanan atas.
Saat kami mencoba prompt yang sama dengan gambar sketsa yang sama dalam mode berpikir, keluarannya terlihat jauh lebih realistis dan memperbaiki semua ketidakakuratan kecil:

Gambar memuat setiap elemen dari sketsa pada posisinya masing-masing, dan terlihat sangat rapi. Temuan utama di sini adalah gunakan mode berpikir untuk hasil terbaik saat mengubah sketsa kasar menjadi gambar fotorealistik.
Menguji kreativitas
Untuk tes berikutnya, kami ingin melihat apakah model dapat merekreasi puisi konkret karya Niikuni Seiichi.
Puisi terkenal ini menampilkan kanji Jepang untuk hujan, dikelilingi oleh hujan, jadi seolah menangkap hujan dalam bahasa, menurut kami.

Berikut prompt kami:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Dan berikut keluarannya:

Yang ini, menurut kami, menarik. Model tidak merekreasi gambar tersebut persis, tetapi menciptakan sesuatu yang memikat. Dalam komposisi baru, kanji untuk “hujan” bukan dikelilingi oleh hujan, melainkan turun sebagai hujan. Komposisi simbolnya tampak acak, seperti tetesan hujan pada umumnya, namun menciptakan kontras yang apik dengan karya asli yang sangat tertata.
Bagaimana Cara Mengakses ChatGPT Images 2.0?
Akses mengikuti pola yang sama seperti rilis sebelumnya. Model ini mempertahankan ruang kerja kreatif khusus yang diperkenalkan pada Desember — editor bergaya kanvas, artefak persisten, preset gaya — dan menggantinya dengan model yang kemampuan dasarnya jauh lebih mumpuni.
- Web, aplikasi seluler, dan Codex: ChatGPT Images 2.0 tersedia di tab Images untuk pengguna Free, Plus, dan Pro, dengan batas penggunaan yang meningkat sesuai tingkat langganan. Akses Business dan Enterprise biasanya menyusul setelah peluncuran awal.
- API: Pengembang dapat menggunakan model baru melalui OpenAI API dan Azure OpenAI Service, melalui endpoint pembuatan dan pengeditan gambar. Seperti pada 1.5, keluaran gambar dihargai dalam token, dan regenerasi parsial selama pengeditan menjaga biaya lebih rendah dibanding meregenerasi gambar penuh setiap saat.
ChatGPT Images 2.0 vs. Nano Banana 2
Anda mungkin bertanya-tanya bagaimana ChatGPT Images 2.0 dibandingkan dengan Nano Banana 2. Keduanya baru, keduanya menjadi pengalaman default di ekosistem masing-masing, dan keduanya dipromosikan seputar kecepatan, penalaran, dan kecerdasan dunia nyata.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Arsitektur dasar |
GPT-Image-2 (penerus GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Model pengeditan |
Presisi: pemilihan area & pengeditan in-place |
Penalaran: percakapan & masking cerdas |
|
Alur kerja |
Ruang kerja kreatif khusus (tab Images) |
Terintegrasi dalam chat Gemini |
|
Iterasi |
Efisien: regenerasi parsial |
Cepat: 4–6 dtk pada 1K, dapat diatur via Thinking Mode |
|
Landasan dunia nyata |
Penalaran bawaan dan pengetahuan terbaru |
Image Search Grounding (menarik referensi langsung dari Google Search) |
|
Konsistensi multi-panel |
Kuat pada sekuens dan lembar karakter |
Kuat, dengan fokus pada konsistensi subjek |
|
Teks multibahasa |
Peningkatan besar atas 1.5; dukungan aksara luas |
Kuat, terutama dalam Tionghoa dan tata letak Asia Timur |
|
Resolusi default |
Standar + rasio aspek fleksibel |
Default 2K di aplikasi Gemini |
|
Ekosistem |
OpenAI & Azure |
Tumpukan Google / Gemini, Search, Lens |
Kapan Menggunakan ChatGPT Images 2.0 vs. Nano Banana 2
Gunakan ChatGPT Images 2.0 ketika…
- Anda membutuhkan loop pengeditan berbasis referensi. Model menerima gambar referensi dan menerapkan perubahan terarah (detail tekstur, koreksi posisi, perbaikan rasio aspek) lintas putaran, dengan tindak lanjut berbahasa natural yang andal mengarahkan keluaran tanpa memulai dari awal, sehingga juga menghemat token
- Anda mengubah masukan kasar menjadi aset rapi. Mode berpikir menyelesaikan sketsa samar dan instruksi spasial menjadi komposisi fotorealistik yang akurat dengan elemen ditempatkan persis seperti yang dimaksudkan
- Keakuratan faktual di dalam gambar itu krusial. Landasan penelusuran web menarik informasi langsung dan merendernya dengan benar ke dalam gambar itu sendiri, membuatnya andal untuk poster acara, infografik berita, atau visual apa pun yang harus tepat angka dan namanya. Ingat untuk menggunakan mode berpikir guna mengaktifkan penelusuran web
Gunakan Nano Banana 2 ketika…
- Anda menempatkan subjek atau lokasi dunia nyata tertentu ke dalam sebuah adegan. Image Search Grounding menarik referensi visual langsung dari Google, membangun ulang tempat spesifik secara akurat (bahkan berdasarkan koordinat GPS) dan menggabungkannya dengan karakter yang konsisten dalam sekali generasi
- Anda perlu mempertahankan identitas lintas banyak karakter dan objek dalam satu alur kerja. Model ini secara eksplisit mendukung hingga lima karakter dan total empat belas referensi (karakter + objek) dengan konsistensi ketat. Ini menjadikannya pilihan kuat untuk storyboard, foto produk, atau narasi multi-karakter
- Anda membangun di dalam ekosistem Google. Nano Banana terintegrasi secara native dalam chat Gemini, Google Search, Google Ads, Firebase, dan Vertex AI
Keduanya merupakan pilihan yang layak untuk perenderan teks dalam gambar, rentang gaya, dan pengeditan percakapan.
Penutup
Kerangka “mitra berpikir visual” terbukti – tetapi hanya dengan mode berpikir aktif. Tanpanya, model kesulitan dengan logika spasial dan fotorealisme; dengannya, model mengubah masukan ambigu menjadi keluaran yang terasa kolaboratif alih-alih mekanis. Dua area di mana model ini bersinar bahkan tanpa mode berpikir adalah keaslian gaya dan fleksibilitas rasio aspek.
Landasan penelusuran web terasa seperti peningkatan terbesar atas Images 1.5. Dalam uji Boston Marathon, kami bisa melihat celah itu jelas: 2.0 mendapatkan semua fakta dengan benar, sementara 1.5 tidak mutakhir. Penting untuk diketahui bahwa penelusuran web juga hanya bekerja dalam mode berpikir.
Temuan menarik lainnya adalah pagar pembatas hak cipta kini lebih ketat, dan itu terlihat. Jika Anda ingin merekreasi gaya yang diakui milik perusahaan atau orang tertentu, Anda harus mengambil langkah ekstra untuk mengidentifikasi esensi gayanya dan mendeskripsikannya (yang, bisa dibilang, kini mudah dilakukan).
Secara keseluruhan, model ini merupakan peningkatan signifikan atas pendahulunya dan menantang status Nano Banana 2 sebagai alat nomor satu dalam pembuatan dan pengeditan gambar AI.
Untuk memaksimalkan alat semacam ini, kemampuan membuat prompt adalah keterampilan penting. Kami sangat merekomendasikan mengikuti kursus Understanding Prompt Engineering dan Prompt Engineering with the OpenAI API untuk landasan teoretis dan praktis.

Saya penulis dan editor data science dengan kontribusi pada artikel riset di jurnal ilmiah. Saya sangat tertarik pada aljabar linear, statistika, R, dan sejenisnya. Saya juga cukup sering bermain catur!

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.
