course
आज से लगभग ठीक एक साल पहले पहला ChatGPT Images एक मॉडल GPT Image 1 के साथ जारी हुआ था। अब OpenAI ने अपने इमेज मॉडल को फिर से ओवरहॉल किया है, और कंपनी हमें यह नया विचार पेश कर रही है कि "इमेज जेनरेटर" अब एक "विजुअल थॉट पार्टनर" है।
इस लेख में, हम देखेंगे कि इसमें क्या नया है, यह अपने पूर्ववर्ती ChatGPT Images 1.5 की तुलना में कैसा है, Google के Nano Banana 2 से इसकी तुलना कैसे बैठती है, और यह मॉडल कहाँ चमकता है (और कहाँ नहीं)।
ChatGPT Images 2.0 क्या है?
ChatGPT Images 2.0 OpenAI का अगली पीढ़ी का इमेज मॉडल है। इसे ऐसा कुछ बताया जा रहा है जो पहले सोचता है, शोध करता है, और उसके बाद रेंडर करता है।
ChatGPT Images 2.0 में नया क्या है?
ChatGPT Images 1.5 की रिलीज़ से सबसे बड़ा निष्कर्ष प्रदर्शन गति में बड़ी बढ़त थी। उस समय की रिलीज़ में इसे 4x तेज बताया गया था। हमने उस दावे को परखने की कोशिश की, लेकिन पाया कि यह नई इमेज बनाने पर नहीं, एडिट्स पर लागू होता है।
इस बार बड़ा दावा बुद्धिमत्ता का है। ChatGPT Images 2.0 एक "सोचने वाला" इमेज मॉडल है: यह खोज करने, तथ्यों पर तर्क करने, और खुरदुरे इनपुट (नोट्स, स्केच, रेफरेंस) को बहुत कम मैनुअल प्रॉम्प्टिंग के साथ परिष्कृत विज़ुअल्स में बदलने वाला बताया जा रहा है।
घोषणा से अन्य प्रमुख बातें:
- जनरेशन पर अधिक सटीकता और नियंत्रण
- भाषाओं और लिपियों में बेहतर प्रदर्शन
- अधिक शैलीगत परिष्कार और यथार्थवाद
- वास्तविक‑दुनिया की बुद्धिमत्ता मॉडल में समाहित
- लचीले आस्पेक्ट रेशियो—मोबाइल से लेकर बैनर फ़ॉर्मेट तक
सोचने वाला मॉडल
रिलीज़ का एक बड़ा दावा है कि नया मॉडल “सोचता” है और एक “विजुअल थॉट पार्टनर” की तरह काम करता है। विचार यह है कि एजेंट्स पृष्ठभूमि में काम करके कार्य को भली‑भांति समझते हैं और जनरेशन रिक्वेस्ट चलाने से पहले उस पर तर्क करते हैं।
इसका विश्व‑सम्बंधी ज्ञान दिसंबर 2025 तक के कटऑफ तक अद्यतन किया गया है, इसलिए आउटपुट अधिक संदर्भानुकूल हैं। बताया जा रहा है कि इससे शैक्षिक ग्राफ़िक्स और संदर्भ पर निर्भर बहु‑चरणीय वर्कफ़्लोज़ के लिए मॉडल बेहतरीन हो जाता है।
वेब खोजें
कटऑफ और ताज़ा, अप‑टू‑डेट जानकारी के बीच की खाई पाटने के लिए, Images 2.0 वेब पर खोज कर प्रासंगिक जानकारी ढूँढ सकता है। OpenAI के रिलीज़ नोट्स से यह स्पष्ट नहीं है कि यह ठीक कैसे काम करता है, लेकिन हमारी समझ में वेब सर्च ऊपर बताए गए थिंकिंग एजेंट द्वारा कॉल किया जाने वाला एक टूल है।
एक प्रॉम्प्ट से कई इमेज बनाएँ
नया मॉडल अब स्वाभाविक रूप से एक ही प्रॉम्प्ट से कई इमेज जनरेट करना सपोर्ट करता है। यह API में ("कंपोज़िशन" के लिए प्रॉम्प्ट देकर) एक वर्कअराउंड से संभव था, लेकिन अब UI में भी, दस तक इमेज के लिए, किया जा सकता है। OpenAI उन सभी आउटपुट्स में कैरेक्टर और ऑब्जेक्ट कंटिन्यूइटी का वादा करता है।
ChatGPT Images 2.0 का परीक्षण
अब देखते हैं नया मॉडल वास्तव में क्या कर सकता है! हमने Images 2.0 की निम्न क्षमताएँ और फीचर्स परखे:
- एडिटिंग वर्कफ़्लो
- थिंकिंग मोड और वेब सर्च
- शैलीगत रेंज
- रफ स्केच को पॉलिश्ड आउटपुट में बदलना
- आस्पेक्ट रेशियो की लचीलापन
- क्रिएटिविटी
एडिटिंग वर्कफ़्लो का परीक्षण
OpenAI का 2.0 के लिए पिच इटरशन पर टिकी है: रफ इनपुट लें, पॉलिश्ड एसेट दें, निर्देशों का बेहतर पालन और घनी टेक्स्ट रेंडरिंग के फ़ायदे के साथ। हमने 1898 के एक प्रसिद्ध अमेरिकी टिकट Western Cattle in Storm का इस्तेमाल करके इस लूप को परखा।
यह रहा Fine कंडीशन में उस टिकटों में से एक का चित्र।

एडिटिंग वर्कफ़्लो को विशेष रूप से परखने के लिए, हमने थिंकिंग मोड के बिना निम्न प्रॉम्प्ट का उपयोग किया। इसका मतलब यह भी है कि मॉडल को वेब सर्च की पहुँच नहीं थी, जिसे हमने अलग से परखा।
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
और यह रहा परिणाम:

केवल‑टेक्स्ट प्रॉम्प्टिंग काम नहीं आई। टिकट और उसकी कंडीशन ग्रेड का विस्तृत वर्णन अधिकांश अहम बातों में गलत लौटा — गलत रंग, गलत डिनॉमिनेशन लेआउट, कार्टून जैसी ऑफ‑सेंटरिंग। केवल टेक्स्ट से किसी खास ऐतिहासिक वस्तु को हूबहू दोहराना कठिन मांग है।
मॉडल को रेफरेंस इमेज देना और लक्षित एडिट्स माँगना वहीं है जहाँ 2.0 ने कमाई की: परफ़ोरेशन की अनियमितताएँ, हिंग रेमनेंट, तिरछा गम बेंड, हल्का टोनिंग, और आंशिक कैंसलेशन।
एडिट्स लगभग वहीं पहुँचे जहाँ हमने कहा था। मॉडल ने एक आस्पेक्ट‑रेशियो रिग्रेशन ला दिया, लेकिन एक साधारण भाषा के फॉलो‑अप से वह ठीक हो गया। अंतिम परिणाम फॉरेंसिक‑ग्रेड नहीं है — "$1" थोड़ा खिंचा दिखता है, मक्का अलग है — पर लूप काम कर गया: रफ शुरुआत, सुधरी दिशा, तीन टर्न में उपयोगी नतीजा।

थिंकिंग मोड और वेब सर्च का परीक्षण
वेब सर्च क्षमताओं को परखते समय हमें थोड़ी सावधानी बरतनी पड़ी, क्योंकि अगर आप प्रॉम्प्ट में मॉडल को बता दें कि आपको क्या चाहिए, तो आप सर्च नहीं, निर्देश‑पालन का परीक्षण कर रहे होते हैं। सबसे साफ टेस्ट है कि बहुत हालिया और बहुत विशिष्ट चीज़ माँगी जाए, मॉडल को लगभग कोई जानकारी न दी जाए, और देखा जाए कि क्या वह खाली जगहों को ठीक से भर सकता है।
हमने कल के Boston Marathon को चुना। रेस सोमवार, 20 अप्रैल को खत्म हुई — ChatGPT Images 2.0 की घोषणा से एक दिन पहले — और पुरुषों का कोर्स रिकॉर्ड 2011 के बाद पहली बार टूटा। इससे एक ठोस तथ्य‑समूह (विजेता, देश, समय, अंतर, संदर्भ) मिलता है जो मॉडल के प्रशिक्षण में संभव नहीं होगा, पर जिसे एक त्वरित सर्च से आसानी से सत्यापित किया जा सकता है।
यह रहा प्रॉम्प्ट, जानबूझकर विवरणों से खाली। और परिणाम में आप देख सकते हैं कि मॉडल वाकई वेब सर्च करता है!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

परिणाम दृश्य रूप से बहुत आकर्षक दिखता है और Boston Marathon के कलर कोड में रखा गया है, जो एक अच्छा एक्स्ट्रा है। बताए गए सभी तथ्य सटीक हैं, जिन्हें हमने दोबारा जाँचकर सत्यापित किया।
यह और भी प्रभावशाली है जब आप पुराने मॉडल (Images 1.5) या नए मॉडल को थिंकिंग मोड के बिना, उसी प्रॉम्प्ट पर, दिए गए आउटपुट से तुलना करते हैं:

शैली के लिहाज़ से यह टक्कर दे सकता है, लेकिन यहाँ संख्याओं से जुड़ी काफी समस्याएँ हैं।
- यह दौड़ Boston Marathon का 130वाँ संस्करण थी, इसलिए “129 years of tradition” होना चाहिए, 127 नहीं।
- यह दावा कि वह “3rd runner in history to run under 2:04 in a marathon” है, भी गलत है। लगभग 20 धावक ऐसा कर चुके हैं।
- Boston Athletic Association वेबसाइट के अनुसार, उसका सेकंड हाफ समय 1:00:02 था, 1:01:05 नहीं (जो शायद फिर भी अब तक का सबसे तेज सेकंड हाफ रहा हो)
- सबसे अहम, ChatGPT Images ने नए और पुराने रिकॉर्ड समय गड़बड़ा दिए। पुराना रिकॉर्ड 2:03:02 था; नया रिकॉर्ड 2:01:52 है। अंतर 1:10 मिनट है।
- चूँकि John Korir ने पिछले साल का Boston Marathon भी जीता था, यह मानना वाजिब है कि अगर विजेता कोई और होता तो शायद इसका नाम भी गलत होता
ताज़ा जानकारी को दृश्य रूप में पेश करने में सर्च क्षमताएँ फर्क पैदा करती हैं। उन्हें इस्तेमाल करने के लिए थिंकिंग मोड का सक्रिय होना ज़रूरी है।
शैलीगत रेंज का परीक्षण
OpenAI फोटोग्राफी, इलस्ट्रेशन, मांगा, पिक्सल आर्ट और अन्य विजुअल शैलियों में शैलीगत परिष्कार में वास्तविक बढ़त का दावा कर रहा है। ईमानदार परीक्षण यह नहीं कि कोई एक इमेज अच्छी दिखी या नहीं, बल्कि यह कि क्या वही विषय तीन अलग‑अलग शैलियों में इतना प्रामाणिक लगता है कि हर जॉनर असली लगे, या सबमें एक जैसा AI‑सा ग्लॉस झलकता है।
इसे परखने के लिए, हमने एक लकड़ी की वर्कबेंच पर एक एस्प्रेसो मशीन के तीन संस्करण (फोटोग्राफी, मांगा, पिक्सल आर्ट) माँगे। यहाँ प्रॉम्प्ट और परिणाम हैं:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

यह दिलचस्प परिणाम था, और कुछ हद तक विडंबनापूर्ण भी, अगर आप मानें कि Image 1 स्टूडियो घिब्ली मोंटाज के लिए प्रसिद्ध हुआ था जो एक साल पहले हर कोई कर रहा था (हम भी)। लगता है तब से OpenAI कॉपीराइट और IP को लेकर थोड़ी ज्यादा सतर्क हो गया है।
Katsuhiro Otomo का नाम लिए बिना उनके स्टाइल का वर्णन करने पर यह काम कर गया। एक बात ध्यान देने की है कि इसके काम करने के लिए हमें नया चैट खोलना पड़ा। उसी चैट में, लगता है मॉडल समझ रहा था कि हम ब्लॉक को बायपास करने की कोशिश कर रहे हैं।
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

हमारी राय में, तीनों इमेज बेहतरीन दिखती हैं और वे बहुत विशिष्ट शैलियाँ प्रामाणिक रूप से अपनाती हैं जो हमने माँगी थीं। तस्वीर बहुत स्वाभाविक लगती है, और बाकी दो संस्करण क्रमशः किसी मांगा किताब या SNES वीडियो गेम से सीधे लिए जा सकते थे।
ऊपर के परीक्षण में एक और बात ध्यान खींचती है कि मॉडल ने किस तरह अपने लचीले आस्पेक्ट रेशियो का उपयोग हर इमेज के अनुरूप किया: फोटोग्राफ के लिए 16:9 लैंडस्केप, मांगा संस्करण के लिए पोर्ट्रेट रेशियो, और पिक्सल आर्ट के लिए चौकोर।
लचीले आस्पेक्ट रेशियो का परीक्षण
रिलीज़ 3:1 से 1:3 तक के आस्पेक्ट रेशियो और 2K तक के रेज़ोल्यूशन सपोर्ट करती है। दिलचस्प सवाल यह नहीं कि क्या यह लंबी या चौड़ी इमेज बना सकती है — बल्कि यह है कि क्या मॉडल फ़ॉर्मेट्स के बीच समझदारी से दोबारा कंपोज़ करता है या सिर्फ़ क्रॉप करता है।
मॉडल की अंतर्निहित स्पैशियल लॉजिक उजागर करने के लिए, हमें कई अक्षों पर स्पष्ट, गैर‑समझौता‑योग्य तत्वों वाला दृश्य चाहिए (कुछ लंबा, कुछ चौड़ा, और एक केंद्रीय विषय)।
परीक्षण के तौर पर, हमने अपना विषय (एक खास सेटिंग में एक अंतरिक्षयात्री) एक बेस प्रॉम्प्ट से जनरेट किया, फिर मॉडल से उसे मोबाइल वॉलपेपर, बैनर और चौकोर रूप में फिर से बनाने को कहा ताकि देखा जा सके कि कंपोज़िशन कैसे अनुकूलित होती है।
बेस प्रॉम्प्ट:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

आइए देखें यह कैसे बदलता है:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

प्रत्येक संस्करण ने अनुरोध के अनुसार उपयुक्त आस्पेक्ट रेशियो चुना, सभी महत्वपूर्ण तत्व (अंतरिक्षयात्री, रोवर, ग्रह) शामिल किए, उन्हें मूल प्रॉम्प्ट के अनुसार व्यवस्थित किया, और यह सुनिश्चित किया कि वे केंद्रित रहें। टेस्ट पास।
रफ इनपुट से पॉलिश्ड आउटपुट का परीक्षण
थॉट‑पार्टनर की अवधारणा इस बात पर टिकी है कि मॉडल अस्पष्ट या बिखरे इनपुट — एक रफ स्केच, बुलेटेड नोट, कुछ रेफरेंस — स्वीकार करे और उन्हें तैयार एसेट में बदले। रिलीज़ वास्तव में इसी लूप पर टिकी है, और इसे सीधे परखना सबसे उपयोगी है।
इसे परखने के लिए, हमने झील के पास एक कुटिया का निम्न बहुत रफ पेंसिल स्केच अपलोड किया:

इसे पेचीदा बनाने के लिए, इसमें काफी विवरण हैं, फिनिश भाषा में डॉक का शब्द “laituri” है, और इसमें दो तरह की इमारतें (घर और कुटिया) और दो तरह की जल सतहें (झील और तालाब) होने से भ्रम की गुंजाइश है।
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

नॉन‑थिंकिंग मोड में परिणाम अच्छा दिखता है, लेकिन बहुत फोटोरियलिस्टिक नहीं। फिर भी, लाइटिंग अच्छी तरह मेल खाती है, और इमेज प्रॉम्प्ट का माहौल बढ़िया पकड़ती है। हमें स्केच के लगभग सभी तत्त्व दिखते हैं। कुछ विवरण चूक गए:
- नौका गायब है
- डॉक झील पर नहीं, तालाब पर है
- सूरज की स्थिति ऊपर दाएँ कोने में नहीं है।
उसी स्केच इमेज के साथ, वही प्रॉम्प्ट थिंकिंग मोड में आज़माने पर आउटपुट कहीं अधिक यथार्थवादी लगा और छोटी‑छोटी गलतियाँ ठीक हो गईं:

इमेज में स्केच के हर तत्त्व अपनी तय स्थिति में मौजूद है, और बहुत सुथरी दिखती है। मुख्य निष्कर्ष यह है कि रफ स्केच को फोटोरियलिस्टिक इमेज में बदलते समय बेहतरीन नतीजों के लिए थिंकिंग मोड का उपयोग करें।
क्रिएटिविटी का परीक्षण
अगले परीक्षण में, हम देखना चाहते थे कि क्या यह Niikuni Seiichi की कंक्रीट पोएट्री को फिर से रच सकता है।
यह प्रसिद्ध कविता वर्षा के जापानी कांजी को वर्षा से घिरा हुआ दिखाती है, तो जैसे भाषा में बारिश को पकड़ा गया हो, हमारी नज़र में।

यह रहा हमारा प्रॉम्प्ट:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
और यह रहा आउटपुट:

यह हमें दिलचस्प लगा। इसने इमेज को हूबहू नहीं दोहराया, बल्कि कुछ और रचा जो आकर्षक था। नई रचना में “बारिश” का कान्जी बारिश से घिरा नहीं है, बल्कि वह बारिश के रूप में नीचे आ रहा है। प्रतीकों की रचना बहुत यादृच्छिक‑सी लगती है, जैसा कि आप बारिश की बूँदों से अपेक्षा करते हैं, पर यह बहुत व्यवस्थित मूल रचना के विपरीत एक अच्छा कॉन्ट्रास्ट बनाती है।
मैं ChatGPT Images 2.0 तक कैसे पहुँच सकता/सकती हूँ?
पहली रिलीज़ जैसा ही एक्सेस पैटर्न लागू होता है। यह दिसंबर में पेश की गई समर्पित क्रिएटिव वर्कस्पेस — कैनवास‑स्टाइल एडिटर, स्थायी आर्टिफैक्ट्स, स्टाइल प्रीसेट्स — को बरकरार रखता है, और नीचे काफी अधिक सक्षम मॉडल स्वैप कर देता है।
- वेब, मोबाइल ऐप, और Codex: ChatGPT Images 2.0 Free, Plus, और Pro उपयोगकर्ताओं के लिए Images टैब में उपलब्ध है, टियर के अनुसार बढ़ते उपयोग सीमा के साथ। बिज़नेस और एंटरप्राइज़ एक्सेस आमतौर पर शुरुआती रोलआउट के बाद आता है।
- API: डेवलपर्स नया मॉडल OpenAI API और Azure OpenAI Service के माध्यम से, इमेज जनरेशन और एडिट एंडपॉइंट्स पर उपयोग कर सकते हैं। 1.5 की तरह, इमेज आउटपुट का मूल्य निर्धारण टोकन्स में होता है, और एडिट्स के दौरान आंशिक रीजनरेशन हर बार पूरी इमेज फिर से बनाने की तुलना में लागत कम रखता है।
ChatGPT Images 2.0 बनाम Nano Banana 2
आप सोच रहे होंगे कि ChatGPT Images 2.0 की टक्कर Nano Banana 2 से कैसी बैठती है। दोनों मॉडल हालिया हैं, अपने‑अपने इकोसिस्टम में डिफ़ॉल्ट अनुभव हैं, और दोनों को गति, तर्क, और वास्तविक‑दुनिया बुद्धिमत्ता के इर्द‑गिर्द पेश किया गया है।
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
अंतर्निहित आर्किटेक्चर |
GPT-Image-2 (GPT-Image-1.5 का उत्तराधिकारी) |
Gemini 3.1 Flash |
|
एडिटिंग मॉडल |
सटीकता: क्षेत्र चयन और इन‑प्लेस एडिटिंग |
तर्क: संवादात्मक और स्मार्ट मास्किंग |
|
वर्कफ़्लो |
समर्पित क्रिएटिव वर्कस्पेस (Images टैब) |
Gemini चैट में एकीकृत |
|
इटरेशन |
कुशल: आंशिक रीजनरेशन |
तेज़: 1K पर 4–6 सेकंड, थिंकिंग मोड से ट्यून करने योग्य |
|
वास्तविक‑दुनिया ग्राउंडिंग |
बिल्ट‑इन तर्क और अप‑टू‑डेट नॉलेज |
इमेज सर्च ग्राउंडिंग (Google Search से लाइव रेफरेंस खींचता है) |
|
मल्टी‑पैनल निरंतरता |
सीक्वेंस और कैरेक्टर शीट्स में मजबूत |
मजबूत, विषय‑निरंतरता पर फोकस के साथ |
|
बहुभाषी टेक्स्ट |
1.5 पर बड़ा अपग्रेड; व्यापक लिपि समर्थन |
मजबूत, विशेषकर चीनी और पूर्वी एशियाई लेआउट में |
|
डिफ़ॉल्ट रेज़ोल्यूशन |
स्टैंडर्ड + लचीले आस्पेक्ट रेशियो |
Gemini ऐप में 2K डिफ़ॉल्ट |
|
इकोसिस्टम |
OpenAI और Azure |
Google / Gemini स्टैक, Search, Lens |
कब इस्तेमाल करें ChatGPT Images 2.0 बनाम Nano Banana 2
ChatGPT Images 2.0 का उपयोग करें जब…
- आपको रेफरेंस‑गाइडेड एडिटिंग लूप चाहिए। मॉडल रेफरेंस इमेज स्वीकार करता है और लक्षित बदलाव (टेक्सचर विवरण, पोज़िशनल करेक्शन, आस्पेक्ट रेशियो फिक्स) लागू करता है, सरल भाषा के फॉलो‑अप्स आउटपुट को भरोसेमंद रूप से दिशा देते हैं बिना फिर से शुरू किए, जिससे टोकन्स भी बचते हैं
- आप रफ इनपुट्स को पॉलिश्ड एसेट्स में बदल रहे हैं। थिंकिंग मोड अस्पष्ट स्केच और स्पैशियल निर्देशों को सटीक, फोटोरियलिस्टिक कंपोज़िशन में बदलता है, जिसमें तत्व ठीक उसी तरह रखे जाते हैं जैसा इरादा था
- इमेज के अंदर तथ्यात्मक शुद्धता महत्वपूर्ण है। वेब सर्च ग्राउंडिंग लाइव जानकारी लाती है और उसे इमेज के भीतर ठीक से रेंडर करती है, जिससे यह इवेंट पोस्टर्स, न्यूज़ इन्फोग्राफिक्स, या किसी भी विज़ुअल के लिए भरोसेमंद बनता है जहाँ नंबर और नाम सही होने चाहिए। वेब सर्च सक्षम करने के लिए थिंकिंग मोड उपयोग करना याद रखें
Nano Banana 2 का उपयोग करें जब…
- आप विशिष्ट वास्तविक‑दुनिया विषयों या स्थानों को दृश्य में रख रहे हैं। इमेज सर्च ग्राउंडिंग Google से लाइव विज़ुअल रेफरेंस खींचती है, विशिष्ट स्थानों (GPS निर्देशांकों तक) को सटीकता से पुनर्निर्मित करती है, और उन्हें विषय‑निरंतर कैरेक्टर्स के साथ एक ही जनरेशन में जोड़ती है
- आपको एक ही वर्कफ़्लो में कई कैरेक्टर्स और ऑब्जेक्ट्स के बीच आइडेंटिटी बनाए रखनी है। मॉडल स्पष्ट रूप से पाँच तक कैरेक्टर्स और कुल चौदह रेफरेंसेज़ (कैरेक्टर्स + ऑब्जेक्ट्स) को सख्त निरंतरता के साथ सपोर्ट करता है। इससे यह स्टोरीबोर्ड्स, प्रोडक्ट शॉट्स, या मल्टी‑कैरेक्टर नैरेटिव्स के लिए अच्छा विकल्प बनता है
- आप Google इकोसिस्टम के भीतर निर्माण कर रहे हैं। Nano Banana स्वाभाविक रूप से Gemini चैट, Google Search, Google Ads, Firebase, और Vertex AI में इंटीग्रेटेड है
इन‑इमेज टेक्स्ट रेंडरिंग, शैलीगत रेंज, और संवादात्मक एडिटिंग के मामले में दोनों अच्छे विकल्प हैं।
अंतिम विचार
“विजुअल थॉट पार्टनर” की अवधारणा टिकती है — पर केवल तब जब थिंकिंग मोड ऑन हो। इसके बिना, मॉडल स्पैशियल लॉजिक और फोटोरियलिज़्म में लड़खड़ाता है; इसके साथ, यह अस्पष्ट इनपुट्स को ऐसे आउटपुट में बदल देता है जो यांत्रिक की बजाय सहयोगी से लगते हैं। दो क्षेत्र जहाँ मॉडल थिंकिंग मोड के बिना भी चमकता है, वे हैं शैलीगत प्रामाणिकता और आस्पेक्ट रेशियो की लचीलापन।
वेब सर्च ग्राउंडिंग, Images 1.5 पर सबसे बड़ा अपग्रेड महसूस होती है। Boston Marathon टेस्ट में हमने यह अंतर स्पष्ट रूप से देखा: 2.0 ने सभी तथ्य सही पकड़े, जबकि 1.5 अप‑टू‑डेट नहीं था। यह जानना महत्वपूर्ण है कि वेब सर्च भी केवल थिंकिंग मोड में ही काम करती है।
एक दिलचस्प निष्कर्ष यह था कि कॉपीराइट गार्डरेल्स कड़े हैं, और यह दिखता है। अगर आप किसी कंपनी या व्यक्ति के पहचाने जाने वाले स्टाइल को दोहराना चाहते हैं, तो आपको उनके स्टाइल के सार की पहचान कर उसे वर्णित करने का अतिरिक्त कदम उठाना होगा (जो, तर्कसंगत रूप से, आजकल आसान सुधार है)।
कुल मिलाकर, मॉडल अपने पूर्ववर्ती की तुलना में महत्वपूर्ण अपग्रेड है और AI इमेज जनरेशन और एडिटिंग में Nano Banana 2 की नंबर‑वन स्थिति को चुनौती देता है।
ऐसे टूल्स का अधिकतम लाभ उठाने के लिए, प्रॉम्प्ट करना जानना एक आवश्यक कौशल है। हम दृढ़ता से अनुशंसा करते हैं कि आप हमारे Understanding Prompt Engineering और Prompt Engineering with the OpenAI API कोर्स लें, ताकि सैद्धांतिक और व्यावहारिक आधार मिल सके।