Kursus
Hampir tepat satu tahun sejak versi pertama ChatGPT Images dirilis dengan model bernama GPT Image 1. OpenAI kini kembali merevisi model gambarnya, dan perusahaan mengajukan gagasan baru bahwa "pembangkit gambar" kini menjadi "mitra berpikir visual."
Dalam artikel ini, kami akan membahas apa yang baru, bagaimana perbandingannya dengan pendahulunya ChatGPT Images 1.5, bagaimana perbandingannya dengan Nano Banana 2 dari Google, serta di mana model ini unggul (dan di mana tidak).
Apa Itu ChatGPT Images 2.0?
ChatGPT Images 2.0 adalah model gambar generasi berikutnya dari OpenAI. Model ini diposisikan sebagai sesuatu yang dapat bernalar, meneliti, lalu merender.
Apa yang Baru di ChatGPT Images 2.0?
Salah satu sorotan terbesar dari rilis ChatGPT Images 1.5 adalah peningkatan besar dalam kecepatan performa. Saat itu dikatakan 4x lebih cepat. Kami mencoba memverifikasi klaim tersebut namun melihatnya berlaku pada pengeditan, bukan pembuatan gambar baru.
Kali ini, klaim besarnya adalah kecerdasan. ChatGPT Images 2.0 adalah model gambar yang "berpikir": Seharusnya dapat mencari, bernalar tentang fakta, dan menerjemahkan masukan kasar (catatan, sketsa, referensi) menjadi visual yang rapi dengan jauh lebih sedikit prompt manual.
Tema utama lain dari pengumuman ini adalah:
- Presisi dan kontrol yang lebih besar atas proses generasi itu sendiri
- Performa lebih kuat di berbagai bahasa dan aksara
- Keanggunan gaya dan realisme yang lebih tinggi
- Kecerdasan dunia nyata yang disematkan ke dalam model
- Rasio aspek fleksibel untuk segala kebutuhan dari format seluler hingga banner
Model yang berpikir
Salah satu klaim terbesar dari rilis ini adalah bahwa model baru tersebut “berpikir” dan bertindak seperti “mitra berpikir visual”. Idenya adalah agen melakukan pekerjaan di balik layar untuk benar-benar memahami tugas dan bernalar sebelum mengeksekusi permintaan generasi.
Pemahamannya tentang dunia telah diperbarui hingga batas waktu Desember 2025, sehingga keluaran menjadi lebih akurat secara kontekstual. Ini diklaim membuat model baru sangat cocok untuk grafik edukasi dan alur kerja multi-langkah yang memerlukan konteks.
Menelusuri web
Untuk menjembatani kesenjangan antara batas waktu pelatihan dan informasi terbaru, Images 2.0 dapat menelusuri web untuk menemukan informasi relevan. Tidak jelas dari catatan rilis OpenAI bagaimana persisnya hal ini bekerja, namun sejauh yang kami pahami, penelusuran web berfungsi sebagai alat yang dipanggil oleh agen berpikir yang disebutkan di atas.
Membuat beberapa gambar dari satu prompt
Model baru juga secara native mendukung pembuatan beberapa gambar dari prompt yang sama. Ini sebelumnya dimungkinkan melalui jalan pintas di API (meminta “komposisi”), tetapi kini dapat dilakukan di UI juga, hingga sepuluh gambar. OpenAI menjanjikan kontinuitas karakter dan objek di seluruh keluaran tersebut.
Menguji ChatGPT Images 2.0
Saatnya melihat apa yang sebenarnya bisa dilakukan model baru! Kami menguji kemampuan dan fitur Images 2.0 berikut:
- Alur kerja pengeditan
- Mode berpikir dan penelusuran web
- Rentang gaya
- Memoles sketsa kasar
- Fleksibilitas rasio aspek
- Kreativitas
Menguji alur kerja pengeditan
Penawaran OpenAI untuk 2.0 menekankan iterasi: masukan kasar masuk, aset rapi keluar, dengan peningkatan dalam mengikuti instruksi dan perenderan teks padat. Kami menguji loop itu menggunakan prangko AS terkenal dari tahun 1898 bernama Western Cattle in Storm.
Berikut adalah gambar salah satu prangko dalam kondisi Fine.

Untuk secara khusus menguji alur kerja pengeditan, kami menggunakan prompt berikut tanpa mode berpikir. Ini juga berarti model tidak memiliki akses ke pencarian web, yang kami uji secara terpisah.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Dan berikut hasilnya:

Prompt berbasis teks saja tidak berhasil. Deskripsi rinci tentang prangko dan tingkat kondisinya kembali salah dalam sebagian besar hal yang penting — warna salah, tata letak denominasi salah, pergeseran pusat yang berlebihan. Mereproduksi artefak sejarah tertentu hanya dari teks memang sulit.
Memberikan gambar referensi ke model dan meminta pengeditan terarah adalah titik di mana 2.0 menunjukkan kemampuannya: ketidakrataan perforasi, sisa engsel, lipatan gum diagonal, toning ringan, dan pembatalan sebagian.
Editnya mendarat kurang lebih sesuai permintaan. Model memperkenalkan regresi rasio aspek, tetapi satu tindak lanjut dengan bahasa biasa memperbaikinya. Hasil akhirnya bukan kelas forensik — "$1" tampak sedikit memanjang, jagungnya berbeda — tetapi loop-nya bekerja: awal yang kasar, koreksi arah, hasil yang dapat digunakan dalam tiga giliran.

Menguji perenderan teks multibahasa
Perenderan teks dalam aksara non-Latin telah lama menjadi titik lemah model gambar, dan OpenAI menyoroti ini sebagai perbaikan utama. Rilis ini menyebutkan perenderan teks dengan fidelitas tinggi dalam bahasa Jepang, Korea, Tiongkok, Hindi, dan Bengali — bukan sekadar terjemahan, tetapi juga tata letak yang koheren dan tipografi yang terasa alami.
Uji yang adil di sini adalah meminta poster atau infografik dengan blok teks dalam salah satu aksara tersebut dan memeriksa hasilnya dengan penutur asli. Kami meminta model membuat poster gaya hidup Jepang modern yang mengiklankan kedai kopi lokal fiksi dan latte bunga sakura musiman mereka.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
Beginilah tampilan hasilnya:

Menurut rekan kami yang berbahasa Jepang (shoutout untuk Sven!), ini terlihat jauh lebih baik dibanding model sebelumnya, ketika banyak karakter menjadi acak tak bermakna. Yang ini terasa lebih alami dan mudah dibaca penutur asli.
Dalam mode berpikir, model bahkan menambahkan beberapa kalimat di luar instruksi prompt pada papan tulis kecil di sudut kiri bawah. Kalimat tersebut pas dengan konteks tanpa berulang, kira-kira menerjemahkan “Rasa musiman yang lembut. Istirahatlah dengan tenang — nikmati secangkir yang menghadirkan musim semi.”
Menguji mode berpikir dan penelusuran web
Kami harus sedikit berhati-hati saat menguji kemampuan penelusuran web, karena jika Anda memberi tahu model apa yang Anda inginkan dalam prompt, Anda bukan menguji pencarian, melainkan pengikutinstruksian. Uji paling bersih adalah meminta sesuatu yang sangat baru dan sangat spesifik, memberikan informasi hampir nol kepada model, lalu melihat apakah ia dapat melengkapi kekosongan dengan benar.
Kami memilih Boston Marathon kemarin. Perlombaan selesai pada Senin, 20 April — sehari sebelum pengumuman ChatGPT Images 2.0 — dan rekor lintasan putra dipecahkan untuk pertama kalinya sejak 2011. Itu memberi kami serangkaian fakta konkret (pemenang, negara, waktu, selisih, konteks) yang mustahil dimiliki model dari pelatihan, tetapi mudah diverifikasi dengan pencarian cepat.
Berikut promptnya, sengaja dilucuti dari detail. Dan Anda dapat melihat pada hasilnya bahwa model memang menelusuri web!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Hasilnya terlihat sangat menarik secara visual dan mengikuti kode warna Boston Marathon, yang merupakan nilai tambah. Semua fakta yang disebutkan akurat, yang telah kami periksa dan verifikasi.
Ini bahkan lebih mengesankan bila dibandingkan dengan keluaran model lama (Images 1.5) atau model baru tanpa mode berpikir, dengan prompt yang sama:

Secara gaya, bisa bersaing, tetapi ada cukup banyak masalah terkait angka di sini.
- Lomba tersebut menandai iterasi ke-130 Boston Marathon, jadi seharusnya tertulis “129 years of tradition”, bukan 127.
- Klaim bahwa ia adalah “pelari ke-3 dalam sejarah yang berlari di bawah 2:04 dalam maraton” juga salah. Sekitar 20 pelari telah melakukannya.
- Menurut situs Boston Athletic Association, waktu paruh keduanya adalah 1:00:02, bukan 1:01:05 (yang mungkin tetap menjadi paruh kedua tercepat yang pernah ada)
- Yang paling penting, ChatGPT Images tertukar antara waktu rekor baru dan lama. Rekor lama adalah 2:03:02; rekor baru adalah 2:01:52. Selisihnya 1:10 menit.
- Mengingat John Korir juga menang pada Boston Marathon tahun lalu, tampaknya masuk akal untuk berasumsi bahwa model mungkin tidak akan mendapatkan nama yang benar jika pemenangnya berbeda
Kemampuan penelusuran membuat perbedaan saat menyajikan informasi terkini secara visual. Untuk menggunakannya, mode berpikir harus diaktifkan.
Menguji rentang gaya
OpenAI menawarkan peningkatan nyata dalam kecanggihan gaya — lintas fotografi, ilustrasi, manga, pixel art, dan gaya visual lainnya. Uji yang jujur bukan apakah satu gambar tampak bagus, tetapi apakah subjek yang sama dirender dalam tiga gaya berbeda terasa autentik untuk tiap genre, atau semuanya kembali dengan sentuhan “AI” yang sama di baliknya.
Untuk mengujinya, kami meminta tiga versi berbeda dari mesin espresso di bangku kerja kayu (fotografi, manga, pixel art). Berikut prompt dan hasilnya:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Ini hasil yang menarik, dan cukup ironis, jika mengingat Image 1 terkenal karena montase Studio Ghibli yang dilakukan semua orang setahun lalu (termasuk kami). Sepertinya OpenAI kini lebih berhati-hati terkait hak cipta dan kekayaan intelektual.
Dengan mendeskripsikan gaya Katsuhiro Otomo tanpa menyebut namanya secara spesifik, ini berhasil. Satu hal yang perlu dicatat adalah kami harus membuka chat baru agar berhasil. Di chat yang sama dengan prompt awal, tampaknya model menyadari bahwa kami mencoba mengakali pemblokiran.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Menurut kami, ketiga gambar terlihat bagus dan autentik mewujudkan gaya yang sangat spesifik seperti yang diminta. Fotografinya tampak sangat natural, dan dua versi lainnya bisa saja diambil langsung dari buku manga atau gim SNES.
Hal lain yang mencolok dari uji di atas adalah bagaimana model menggunakan kemampuan rasio aspek fleksibel untuk menyesuaikan tiap gambar: lanskap 16:9 untuk foto, rasio potret untuk versi manga, dan gambar pixel art persegi.
Menguji rasio aspek fleksibel
Rilis ini mendukung rasio aspek dari 3:1 hingga 1:3 dan resolusi hingga 2K. Pertanyaan menariknya bukan apakah ia bisa menghasilkan gambar tinggi atau lebar — melainkan apakah model mampu menyusun ulang komposisi secara cerdas di berbagai format atau hanya memotong.
Untuk mengekspos logika spasial di balik model, kita memerlukan adegan dengan elemen-elemen berbeda yang tidak bisa ditawar di beberapa sumbu (sesuatu yang tinggi, sesuatu yang lebar, dan subjek pusat).
Sebagai uji, kami membuat subjek kami (seorang astronaut dalam setelan tertentu) dari prompt dasar, lalu meminta model untuk membuat ulang sebagai wallpaper seluler, banner, dan persegi untuk melihat bagaimana komposisinya beradaptasi.
Prompt dasar:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Mari kita lihat bagaimana perubahannya:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Masing-masing versi memilih rasio aspek yang sesuai untuk permintaan, mencakup semua elemen penting (astronaut, rover, planet), menatanya seperti yang kami minta pada prompt asli, dan memastikan semuanya terpusat. Uji lolos.
Menguji masukan kasar menjadi keluaran rapi
Kerangka mitra berpikir bergantung pada model yang menerima masukan samar atau berantakan — sketsa kasar, catatan berpoin, beberapa referensi — dan mengubahnya menjadi aset jadi. Inilah loop yang benar-benar menjadi fokus rilis, dan layak diuji secara langsung.
Untuk mengujinya, kami mengunggah sketsa pensil yang sangat kasar berikut tentang kabin dekat danau:

Untuk membuatnya menantang, sketsa ini memuat cukup banyak detail, menggunakan kata Finlandia untuk dermaga, “laituri”, dan berpotensi membingungkan karena memuatdua jenis bangunan (rumah dan kabin) dan dua jenis permukaan air (danau dan kolam)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Hasil dalam mode tanpa berpikir terlihat lumayan, tetapi tidak terlalu fotorealistik. Meski begitu, pencahayaannya sesuai dan gambar menangkap nuansa prompt dengan baik. Kita dapat melihat hampir semua elemen dari sketsa. Beberapa detail meleset:
- Perahu tidak ada
- Dermaga berada di kolam, bukan di danau
- Posisi matahari tidak di pojok kanan atas.
Saat kami mencoba prompt yang sama dengan gambar sketsa yang sama dalam mode berpikir, hasilnya terlihat jauh lebih realistis dan memperbaiki semua ketidakakuratan kecil:

Gambar memuat setiap elemen dari sketsa pada posisi yang ditentukan, dan terlihat sangat rapi. Kesimpulan utamanya adalah gunakan mode berpikir untuk hasil terbaik ketika mengubah sketsa kasar menjadi gambar fotorealistik.
Menguji kreativitas
Untuk uji berikutnya, kami ingin melihat apakah model ini dapat merekreasikan puisi konkret Niikuni Seiichi.
Puisi terkenal ini menampilkan kanji Jepang untuk hujan, dikelilingi oleh hujan, jadi seperti menangkap hujan dalam bahasa, menurut kami.

Berikut prompt kami:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Dan berikut keluarannya:

Menurut kami, yang ini menarik. Model tidak merekreasikan gambar secara persis, tetapi membuat sesuatu yang menggugah. Dalam komposisi baru, kanji untuk “hujan” bukan dikelilingi oleh hujan, melainkan turun sebagai hujan. Komposisi simbolnya tampak sangat acak, seperti yang Anda harapkan dari tetesan hujan, namun memberi kontras yang bagus dengan karya asli yang sangat teratur.
Bagaimana Cara Mengakses ChatGPT Images 2.0?
Akses mengikuti pola yang sama seperti rilis sebelumnya. Ia mempertahankan ruang kerja kreatif khusus yang diperkenalkan pada Desember — editor gaya kanvas, artefak persisten, preset gaya — dan menggantinya dengan model yang jauh lebih cakap di bawahnya.
- Web, aplikasi seluler, dan Codex: ChatGPT Images 2.0 tersedia di tab Images untuk pengguna Free, Plus, dan Pro, dengan batas penggunaan yang meningkat menurut tingkat langganan. Akses Business dan Enterprise biasanya menyusul setelah peluncuran awal.
- API: Pengembang dapat menggunakan model baru melalui OpenAI API dan Azure OpenAI Service, melalui endpoint pembuatan dan pengeditan gambar. Seperti 1.5, keluaran gambar dihargai dalam token, dan regenerasi parsial selama pengeditan menjaga biaya lebih rendah dibanding meregenerasi gambar penuh setiap kali.
ChatGPT Images 2.0 vs. Nano Banana 2
Anda mungkin bertanya-tanya bagaimana ChatGPT Images 2.0 dibandingkan dengan Nano Banana 2. Keduanya baru dirilis, keduanya menjadi pengalaman default di ekosistem masing-masing, dan keduanya diposisikan seputar kecepatan, penalaran, dan kecerdasan dunia nyata.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Arsitektur dasar |
GPT-Image-2 (penerus GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Model pengeditan |
Presisi: pemilihan area & pengeditan di tempat |
Penalaran: percakapan & masking cerdas |
|
Alur kerja |
Ruang kerja kreatif khusus (tab Images) |
Terintegrasi di obrolan Gemini |
|
Iterasi |
Efisien: regenerasi parsial |
Cepat: 4–6 dtk pada 1K, dapat disetel via Thinking Mode |
|
Landasan dunia nyata |
Penalaran bawaan dan pengetahuan terbaru |
Image Search Grounding (mengambil referensi langsung dari Google Search) |
|
Konsistensi multi-panel |
Kuat di urutan dan lembar karakter |
Kuat, dengan fokus konsistensi subjek |
|
Teks multibahasa |
Peningkatan besar atas 1.5; dukungan aksara luas |
Kuat, terutama dalam Tionghoa dan tata letak Asia Timur |
|
Resolusi default |
Standar + rasio aspek fleksibel |
Default 2K di aplikasi Gemini |
|
Ekosistem |
OpenAI & Azure |
Tumpukan Google / Gemini, Search, Lens |
Kapan Menggunakan ChatGPT Images 2.0 vs. Nano Banana 2
Gunakan ChatGPT Images 2.0 ketika…
- Anda memerlukan loop pengeditan berbasis referensi. Model menerima gambar referensi dan menerapkan perubahan terarah (detail tekstur, koreksi posisi, perbaikan rasio aspek) lintas giliran, dengan tindak lanjut berbahasa alami yang andal mengarahkan keluaran tanpa harus memulai dari awal, sekaligus menghemat token
- Anda mengubah masukan kasar menjadi aset rapi. Mode berpikir menerjemahkan sketsa samar dan instruksi spasial menjadi komposisi fotorealistik yang akurat dengan elemen ditempatkan persis seperti yang dimaksudkan
- Akurasi faktual di dalam gambar sangat penting. Landasan pencarian web menarik informasi langsung dan merendernya dengan benar di dalam gambar itu sendiri, membuatnya andal untuk poster acara, infografik berita, atau visual apa pun yang menuntut angka dan nama yang tepat. Ingat untuk menggunakan mode berpikir guna mengaktifkan pencarian web
Gunakan Nano Banana 2 ketika…
- Anda menempatkan subjek atau lokasi dunia nyata tertentu ke dalam sebuah adegan. Image Search Grounding menarik referensi visual langsung dari Google, merekonstruksi tempat tertentu secara akurat (bahkan berdasarkan koordinat GPS) dan menggabungkannya dengan karakter yang konsisten dalam satu generasi
- Anda perlu mempertahankan identitas di banyak karakter dan objek dalam satu alur kerja. Model ini secara eksplisit mendukung hingga lima karakter dan empat belas referensi total (karakter + objek) dengan konsistensi ketat. Ini menjadikannya pilihan kuat untuk storyboard, foto produk, atau narasi multi-karakter
- Anda membangun di dalam ekosistem Google. Nano Banana terintegrasi secara native dengan obrolan Gemini, Google Search, Google Ads, Firebase, dan Vertex AI
Keduanya merupakan pilihan yang layak untuk perenderan teks di dalam gambar, rentang gaya, dan pengeditan percakapan.
Pemikiran Akhir
Kerangka “mitra berpikir visual” terbukti — namun hanya jika mode berpikir aktif. Tanpanya, model kesulitan dengan logika spasial dan fotorealisme; dengannya, model mengubah masukan ambigu menjadi keluaran yang terasa kolaboratif alih-alih mekanis. Dua area di mana model bersinar bahkan tanpa mode berpikir adalah keautentikan gaya dan fleksibilitas rasio aspek.
Landasan pencarian web terasa seperti peningkatan terbesar dibanding Images 1.5. Dalam uji Boston Marathon, kami dapat melihat perbedaannya dengan jelas: 2.0 mendapatkan semua fakta dengan benar, sementara 1.5 tidak mutakhir. Penting untuk diketahui bahwa pencarian web juga hanya berfungsi dalam mode berpikir.
Temuan menarik lainnya adalah pagar pembatas hak cipta lebih ketat, dan itu terlihat. Jika Anda ingin merekreasi gaya yang diakui milik perusahaan atau seseorang, Anda harus mengambil langkah ekstra untuk mengidentifikasi esensi gaya mereka dan mendeskripsikannya (yang, bisa dibilang, kini mudah dilakukan).
Secara keseluruhan, model ini merupakan peningkatan signifikan atas pendahulunya dan menantang status Nano Banana 2 sebagai alat nomor satu dalam pembuatan dan pengeditan gambar AI.
Untuk memaksimalkan alat semacam ini, kemampuan membuat prompt adalah keterampilan penting. Kami sangat merekomendasikan mengikuti kursus Understanding Prompt Engineering dan Prompt Engineering with the OpenAI API untuk landasan teoretis dan praktis.

Saya penulis dan editor data science dengan kontribusi pada artikel riset di jurnal ilmiah. Saya sangat tertarik pada aljabar linear, statistika, R, dan sejenisnya. Saya juga cukup sering bermain catur!

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.
