ChatGPT इमेजेस: OpenAI के नए इमेज एडिटर की गाइड

जानें कि ChatGPT Images और नया GPT-Image-1.5 मॉडल कैसे प्रिसिशन एडिटिंग, टेक्स्ट रेंडरिंग, और डिटेल प्रिज़र्वेशन में बड़े अपग्रेड्स के साथ क्रिएटिव वर्कफ़्लोज़ को बदलते हैं।

अद्यतन 22 अप्रैल 2026 · 10 मि॰ पढ़ना

सबसे बेहतर इमेज क्रिएशन टूल्स की दौड़ एक बार फिर नए चरण में प्रवेश कर गई है: Google द्वारा Nano Banana Pro लॉन्च करने के एक महीने से भी कम समय बाद, OpenAI ने अपना जवाब ChatGPT Images पेश कर दिया है।

इस रिलीज़ में ChatGPT में नया Images वर्कस्पेस और नई पीढ़ी का मॉडल GPT-Image-1.5 शामिल है। यह संकेत देता है कि अब ChatGPT इमेज जनरेशन को एक ऐड-ऑन नहीं, बल्कि पूरी तरह यूज़र अनुभव में एकीकृत कोर फ़ीचर के रूप में देखता है। अन्य सुधारों के बीच, मॉडल मजबूत डिटेल प्रिज़र्वेशन और तेज़ जनरेशन का वादा करता है।

इस लेख में, मैं OpenAI द्वारा घोषित सभी प्रमुख फीचर्स, ChatGPT Images की प्रतिस्पर्धियों से तुलना, और नए मॉडल की क्षमताएँ दिखाने के लिए हैंड्स-ऑन उदाहरणों पर चर्चा करूंगा।

मैं Google के हाल ही में प्रकाशित इमेज जनरेशन मॉडल, Nano Banana 2, पर हमारी गाइड भी देखने की सिफारिश करता हूँ।

अपडेट: OpenAI ने उत्तराधिकारी मॉडल प्रकाशित किया है। इसके बारे में अधिक जानकारी हमारी ChatGPT Images 2.0 गाइड में पढ़ें।

ChatGPT Images क्या है?

ChatGPT का नया Images टैब, ChatGPT UI के भीतर हर तरह की विज़ुअल क्रिएटिविटी के लिए एक हब के रूप में काम करता है और पर्सनल इमेज लाइब्रेरी को प्रतिस्थापित करता है। सबसे बड़ा बदलाव सीधे एडिटिंग टूल्स का एकीकरण है, जो किसी इमेज के विशिष्ट विवरणों को टार्गेट कर उन्हें बदलने देता है, जबकि बाकी सब कुछ जस का तस रहता है।

ChatGPT Images को GPT-Image-1.5, OpenAI के नवीनतम और सबसे उन्नत टेक्स्ट-टू-इमेज AI मॉडल, से संचालित किया गया है। यह GPT-Image-1 मॉडल (मार्च 2025) की रिलीज़ पर आधारित है, जिसने पहले सप्ताह में 700 मिलियन से अधिक इमेज जनरेशन के साथ बड़ी सफलता हासिल की थी।

यह डिटेल प्रिज़र्वेशन और बेहतर टेक्स्ट रेंडरिंग प्रदान करता है, और दावा है कि यह अपने पूर्ववर्ती से “4x तक” तेज़ है।

नए फीचर्स वेब, मोबाइल UI और API पर, फ्री और पेड दोनों तरह के यूज़र्स के लिए रोल आउट कर दिए गए हैं। केवल Business और Enterprise अकाउंट्स को एक्सेस के लिए अभी इंतजार करना होगा।

ChatGPT Images की प्रमुख विशेषताएँ

तो, पिछले मॉडल और प्रतिस्पर्धा के मुकाबले ChatGPT Images क्या ऑफर करता है? OpenAI विशेष रूप से “महत्वपूर्ण चीजें सुरक्षित रखते हुए सटीक एडिट्स” को प्रमोट कर रहा है। देखते हैं, नए फीचर्स का मतलब क्या है।

समर्पित क्रिएटिव वर्कस्पेस

ChatGPT UI में विज़ुअल क्रिएशन हब के रूप में Images टैब पेश किया गया। इसके पीछे विचार यह है कि इमेज क्रिएशन और एडिटिंग को सामान्य चैट इंटरैक्शंस से अलग किया जाए।

पिछला Library फ़ीचर भी सभी जेनरेटेड इमेजेस को स्टोर करता था, लेकिन वह सिर्फ़ आपको उस बातचीत में वापस ले जाता था जहाँ वे बनी थीं। वह नई इमेज को शुरुआत से बनाने के लिए पूरी बातचीत के इतिहास का संदर्भ लेता था, जिससे अक्सर लंबी थ्रेड्स में हैलुसिनेशन होते थे।

नया तरीका अधिक इमेज-केंद्रित है: हर एडिट एक इमेज को शुरुआती बिंदु मानता है और उसका केवल चुना हुआ हिस्सा बदलता है, पूरी तरह नई जनरेशन बनाने के बजाय।

इमेजेस स्थायी आर्टिफैक्ट्स हैं, बातचीत के इतिहास में दबी हुई नहीं। इससे नई वैरिएशन्स के साथ तेज़ फीडबैक लूप्स संभव होते हैं और प्रयोग को प्रोत्साहन मिलता है, यानी अनुभव एक चैट थ्रेड से बदलकर कैनवास जैसा हो जाता है।

क्रिएटिव फ्लो को और बढ़ाने के लिए, वर्कस्पेस में नए एक्सप्लोरेशन टूल्स जोड़े गए हैं जो आइडिया और एक्सिक्यूशन के बीच की दूरी घटाते हैं। यूज़र्स बिल्ट-इन स्टाइल प्रीसेट्स (जैसे “sketch” या “dramatic”) लगा सकते हैं या ट्रेंडिंग एस्थेटिक्स ब्राउज़ कर अगली “Studio Ghibli” को पकड़ सकते हैं। नए क्रिएटर्स के लिए, UI क्रिएटिव सुझाव और प्रोएक्टिव प्रॉम्प्ट सपोर्ट देता है ताकि नतीजे निखरें।

डिटेल प्रिज़र्वेशन और सटीक एडिटिंग

शायद सबसे महत्वपूर्ण नए फीचर के रूप में, अपडेट यूज़र्स को इमेज के खास हिस्सों का चयन कर उन्हें सीधे संशोधित करने देता है, वह भी बिना बाकी कंपोज़िशन को बदले। मॉडल कॉन्टेक्स्ट-अवेयर है, यानी उसे समझ होता है कि क्या एडिट होना चाहिए और आसपास के एलिमेंट्स को सुसंगत रखता है।

इस तरह के शार्प एडिट्स नए मॉडल की बेहतर डिटेल प्रिज़र्वेशन क्षमताओं से संभव हुए हैं।

यह आउटपुट्स और बाद की एडिट्स में वस्तुओं, लाइटिंग, कंपोज़िशन और लोगों की सूरत को सुसंगत रख सकता है। साथ ही, बेहतर निर्देश-पालन क्षमता एलिमेंट्स के बीच रिश्तों को बेहतर तरीके से बनाए रखने में मदद कर सटीकता बढ़ाती है।

प्रिसिशन एडिटिंग छोटे मुद्दों को ठीक करने और तब विशेष विवरणों के साथ प्रयोग करने के लिए बिल्कुल उपयुक्त है, जब पूरी जनरेशन की ज़रूरत न हो। यह क्रिएटिव ट्रांसफॉर्मेशन्स भी सक्षम बनाती है, जैसे एक इमेज के किसी एलिमेंट को दूसरी के दृश्य में ले जाना।

हालाँकि, यह उल्लेखनीय है कि जब एक ही इमेज में बहुत से लोग हों तो हर व्यक्ति की सटीक पहचान बनाए रखने में मॉडल को कठिनाई होती है।

बेहतर टेक्स्ट रेंडरिंग और यथार्थवाद

पिछले मॉडल GPT-Image-1 की प्रमुख खूबियों में से एक उसकी लंबा टेक्स्ट और सुसंगत वाक्यों को संभालने की क्षमता थी। नया रिलीज़ उसी आधार पर आगे बढ़ता है और अब पहले से अधिक घना और छोटा टेक्स्ट संभालने में सक्षम है।

यह खास तौर पर इन्फोग्राफिक्स के लिए उपयोगी है, जहाँ शुरुआती नतीजे काफ़ी प्रभावशाली हैं, और समाचारपत्र जैसी इमेज में टेक्स्ट के मार्कडाउन जैसी नई संभावनाएँ खोलता है। हम आगे चलकर इन्फोग्राफिक्स का एक टेस्ट करेंगे।

हालाँकि, OpenAI के रिलीज़ बयान के अनुसार, कुछ विशिष्ट भाषाओं जैसे चीनी, अरबी और हिब्रू के संदर्भ में सीमाएँ अभी भी बनी हुई दिखती हैं।

भले ही यह अपडेट का मुख्य फोकस न था, आउटपुट यथार्थवाद पिछले मॉडल की तुलना में उल्लेखनीय रूप से बेहतर हुआ है। दो स्थितियाँ जहाँ यह अच्छे से दिखता है, वे हैं रिफ्लेक्शन्स, जैसे फोटो पर ग्लेयर, और बड़ी भीड़ में कई छोटे चेहरे।

अक्सर की तरह, बड़े अपग्रेड्स कुछ क्षेत्रों में ट्रेड-ऑफ के साथ आते हैं। इस बार कुछ विशिष्ट आर्ट स्टाइल्स जनरेट करने की क्षमता में गिरावट आई है। OpenAI Images टैब में प्रीसेट फ़िल्टर्स इस्तेमाल करने या पिछले मॉडल, जो अब भी एक कस्टम GPT के रूप में उपलब्ध है⁠, पर लौटने की सलाह देता है।

तेज़ प्रदर्शन

टार्गेटेड एडिट क्षमताएँ ही मुख्य रूप से बढ़ी हुई जनरेशन स्पीड का स्रोत हैं। जबकि पूरी इमेज जनरेशन स्पष्ट रूप से तेज़ है, यह OpenAI के रिलीज़ नोट के दावे तक नहीं पहुँचती। GPT-Images-1.5 “4x तक तेज़” इसलिए दिखता है क्योंकि एडिट्स के दौरान यह केवल बदले हुए हिस्सों को ही फिर से जनरेट करता है।

इसी तरह, API लागत में लगभग 20% कमी मुख्यतः एडिट्स के दौरान आंशिक इमेज रीजनरेशन से आती है, और कुछ अतिरिक्त लाभ अधिक कुशल इन्फरेंस से मिलते हैं, न कि सस्ती पूर्ण जनरेशन से।

कुल मिलाकर, नए फीचर्स खासकर API वर्कफ़्लो के लिए अधिक कुशल और विश्वसनीय उपयोग सक्षम करते हैं।

ChatGPT Images के उदाहरण

घोषित फीचर्स निश्चित रूप से उत्साहित करने वाले हैं। मैंने नए सेलेक्शन टूल के साथ कुछ सरल प्रॉम्प्ट्स का उपयोग कर इन्हें परखा।

एडिट प्रिसिशन का परीक्षण

मेरे पहले टेस्ट का लक्ष्य यह आकलन करना था कि मॉडल गुणवत्ता घटाए बिना क्रमिक बदलावों को कैसे संभालता है। पहले, मैंने उससे एक भूरे भालू की इमेज बनाने को कहा जो मध्यरात्रि के सूरज के दौरान फिनलैंड के जंगल में चल रहा हो।

प्रॉम्प्ट: “A brown bear walking through a dense Finnish forest during the midnight sun.”

मेरी राय में, पहला आउटपुट बहुत उच्च गुणवत्ता का है। भालू स्वाभाविक दिखता है, पेड़ों और झाड़ियों का प्रकार फिनलैंड के जंगलों का अच्छी तरह प्रतिनिधित्व करता है (मुझे पता है!), और सूरज की नीची स्थिति उत्तरी फिनलैंड के मध्यरात्रि सूरज के अनुरूप है।

साथ ही, भालू के फर और पृष्ठभूमि में रोशनी और छायाएँ काफ़ी यथार्थवादी दिखती हैं। आप अब भी किसी तरह पहचान सकते हैं कि यह AI है, हालांकि विवरण अच्छे हैं।

आइए भालू को ध्रुवीय भालू में बदलने की कोशिश करें और देखें क्या होता है। फिनलैंड में ध्रुवीय भालू नहीं होते, लेकिन अगर सब कुछ ठीक से काम करे, तो बैकग्राउंड वही रहना चाहिए।

प्रॉम्प्ट: “Change the bear to a polar bear.”

जैसा कि हम देख सकते हैं, बैकग्राउंड पूरी तरह जस का तस रहा, जैसा इरादा था।

अगली एडिट में, मैंने ध्रुवीय भालू के सिर और आँखों का चयन किया और उसे विंटेज सनग्लासेज़ पहनाए।

प्रॉम्प्ट: “Put a pair of vintage sunglasses on the bear.” (सिर चयनित)

लगता है हमने देख लिया कि बहुत बड़ा क्षेत्र चुनने पर क्या होता है। इमेज बैकग्राउंड और भालू का शरीर तो सुसंगत रहा, लेकिन उसका सिर एक बड़े सनग्लासेज़ में बदल गया। चलिए फिर कोशिश करते हैं, सिर्फ उसकी आँखें चुनते हैं।

प्रॉम्प्ट: “Put a pair of vintage sunglasses on the bear.” (आँखें चयनित)

काफ़ी बढ़िया, और निश्चित रूप से बहुत बेहतर! इस पहले टेस्ट में हमने देखा कि डिटेल प्रिज़र्वेशन फीचर कितना शक्तिशाली है: हमें दृश्य के महत्वपूर्ण विवरण केवल एक बार बताने पड़े, और हम अपने मुख्य कैरेक्टर पर बिना बैकग्राउंड की चिंता किए इटररेट कर पाए। एक और ज़रूरी सीख यह है कि सेलेक्शन विंडो का आकार मायने रखता है।

ट्रांसफ़ॉर्मेशन सुसंगति का परीक्षण

अगला, मैंने अलग-अलग दृश्यों के संदर्भ में ऑब्जेक्ट परमानेंस और बड़ी भीड़ से संबंधित सीमाएँ परखी। इसके लिए, मैंने अपने ध्रुवीय भालू को थोड़ा “घुमाया” और उसे टोक्यो की व्यस्त मेट्रो के दृश्य में ले जाने की कोशिश की।

प्रॉम्प्ट: “Place this bear into a very busy subway scene in Tokyo.”

सबसे पहले, कैरेक्टर सुसंगति प्रभावशाली है: मॉडल ने भालू की सटीक भंगिमा और पहचान को बेहतरीन तरीके से बनाए रखा, और फर से सन ग्लेयर हटा दी।

हालाँकि, इस कठोर सहेजने से “स्टिकर इफ़ेक्ट” नामक एक दृश्य असंगति पैदा हो गई। क्योंकि मॉडल ने लाइटिंग कॉन्टेक्स्ट को अपडेट नहीं किया (दिशात्मक छाया और सनग्लासेज़ में जंगल के रिफ्लेक्शन को बनाए रखा), भालू दृश्य में मौजूद 3D ऑब्जेक्ट की बजाय 2D कटआउट चिपकाया हुआ लगता है।

पर्सपेक्टिव ने भ्रम को और तोड़ दिया: भालू उस राहगीर के सामने तैरता हुआ लगता है जो कैमरे के अधिक करीब है।

दूसरी समस्या को ठीक करना काफ़ी निराशाजनक रहा। मैंने राहगीर के क्षेत्र और उसकी भालू से इंटरसेक्शन को चुना, और ChatGPT से पर्सपेक्टिव सही करने को कहा। हर वैरिएशन में, मॉडल ने कैमरे के क़रीब एक नया व्यक्ति जोड़ दिया, कुछ यूँ:

प्रॉम्प्ट: “Correct the perspective: The selected bystander’s back is in the foreground and should partially obscure the bear. The bear is standing behind the person’s back.”

लगता है मॉडल व्यक्ति की पहचान नहीं कर सका, भले ही उसे चुना गया था, और इसलिए प्रॉम्प्ट के अनुरूप निर्देशों का पालन कराने के लिए नए कैरेक्टर की ज़रूरत पड़ी।

छाया और सनग्लासेज़ के रिफ्लेक्शन को ठीक करना अधिक सफल रहा। मैंने ये इटरेशन किए:

छाया: भालू के पैरों के आसपास की फ़्लोर चुनें और प्रॉम्प्ट दें “Instead of the current shadow, cast a soft, diffuse shadow on the subway tile floor consistent with the overhead fluorescent lighting.”
सनग्लासेज़: सनग्लासेज़ चुनें और प्रॉम्प्ट दें “Update the reflections of the sunglasses to match the subway environment.”

छाया और सनग्लासेज़ के रिफ्लेक्शन ठीक करने के बाद टोक्यो मेट्रो में हमारा ध्रुवीय भालू

पहले से बहुत बेहतर, भले ही अभी परफेक्ट नहीं।

कुल मिलाकर, दूसरा टेस्ट पहले जितना सफल नहीं रहा। अलग-अलग इमेजेस में एलिमेंट सुसंगति अच्छी काम करती दिखी, पर भीड़भाड़ वाले माहौल में कैरेक्टर पहचान सीमित दिखती है।

टेक्स्ट रेंडरिंग का परीक्षण

अंत में, मैंने नई टेक्स्ट रेंडरिंग क्षमताओं का परीक्षण करना चाहा, विशेषकर घने टेक्स्ट और एडिट्स के संदर्भ में। टेक्स्ट रेंडरिंग में सुधार स्वागतयोग्य होगा क्योंकि ऐतिहासिक रूप से विज़न मॉडल वस्तुओं, टेक्स्चर्स और दृश्यों में बेहतर रहे हैं, प्रतीकों में नहीं।

मैंने ChatGPT से किसी तारे के जीवन-चक्र पर एक इन्फोग्राफिक के लिए जटिल लेआउट मांगा:

प्रॉम्प्ट: "A horizontal infographic explaining the 'Lifecycle of a Star'. Three sections: Nebula, Main Sequence, Black Hole. Use flat vector style."

आउटपुट ने निर्देशों का पूरी तरह पालन किया और टेक्स्ट बिना किसी त्रुटि के रेंडर किया। स्टाइल पूरे इन्फोग्राफिक में सटीक और सुसंगत है।

ChatGPT की आउटपुट मल्टीमॉडेलिटी हमें टेक्स्ट जोड़ते समय सटीक होने के लिए बाध्य करती है। जब चयनित क्षेत्र में “यहाँ” एक बुलेट जोड़ने को कहा गया, तो उसने केवल टेक्स्ट आउटपुट में बुलेट दे दिया। “इमेज में” जोड़ने की स्पष्टता देने पर काम हो गया:

प्रॉम्प्ट: “Add a bullet point to the image here that says: 'Lasts for billions of years'.”

स्पष्टता जोड़ने के बाद, बुलेट सही स्थान पर जोड़ दिया गया। फ़ॉन्ट, आकार और रंग ग्राफ़िक की शैली से मेल खाते हैं।

मैं ChatGPT Images तक कैसे पहुँचूँ?

ChatGPT Images अब कई प्लेटफ़ॉर्म्स पर लगभग सभी यूज़र्स के लिए उपलब्ध है। केवल Business और Enterprise टियर के यूज़र्स के लिए सपोर्ट अभी बाकी है और बाद में आएगा।

UI में, आप वेब UI या ChatGPT के मोबाइल ऐप में Images टैब के ज़रिए फ़ीचर्स तक तुरंत पहुँच सकते हैं। भले ही सटीक संख्या ज्ञात नहीं है, Free अकाउंट्स पर कड़े डेली लिमिट्स लागू हैं और Plus व Pro प्लान्स पर क्रमशः अधिक और स्थिर अलाउंस मिलते हैं।

डेवलपर्स के लिए, नया GPT-Image-1.5 मॉडल OpenAI API और Azure OpenAI Service दोनों के माध्यम से इमेज जनरेशन और एडिटिंग के लिए उपलब्ध है। हमें उम्मीद है कि यह मॉडल जल्द ही प्रमुख थर्ड-पार्टी क्रिएटिव सूट्स में एकीकृत होगा, लेकिन डेवलपर्स पहले से ही अपने एप्लिकेशन्स में सीधे v1/images/generations और v1/images/edits एंडपॉइंट्स से एडिटिंग वर्कफ़्लो बना सकते हैं।

अपने पूर्ववर्ती के विपरीत, GPT-Image-1.5 इमेज आउटपुट को अलग कीमत वाले टोकन्स के रूप में एक्सपोज़ करता है, और एकीकृत /v1/responses के बजाय इमेज-विशिष्ट API एंडपॉइंट्स का उपयोग करता है। आप हर बार पूरी नई इमेज के बजाय, केवल बदली गई चीज़ों को जनरेट करने में लगे टोकन्स के लिए भुगतान करते हैं।

इसी कारण नए मॉडल के अपने पूर्ववर्ती से लगभग 20% सस्ता होने का दावा किया गया है, हालाँकि प्रति टोकन कीमतें GPT-Image-1 की तुलना में नहीं बदली हैं।

ChatGPT Images कितना बेहतर है?

GPT-Image-1.5 तुरंत LMArena और ArtificialAnalysis टेक्स्ट-टू-इमेज लीडरबोर्ड्स के शीर्ष पर पहुँच गया, और Nano Banana Pro दूसरे स्थान पर चला गया। चूँकि अभी कोई बेंचमार्क डेटा उपलब्ध नहीं है, हमें वस्तुनिष्ठ वर्गीकरण के लिए इन वोट-आधारित रैंकिंग्स पर भरोसा करना होगा।

एक मशहूर अंतरिक्ष यात्री को परफ्रेज़ करें तो: GPT-Image-1.5 उद्योग के लिए एक छोटा कदम है, लेकिन OpenAI के लिए एक बड़ी छलांग।

हालाँकि प्रिसिशन एडिटिंग पूरी तरह नई नहीं है, इसे ChatGPT में नैटिव रूप से लाना इस रिलीज़ का सबसे बड़ा बदलाव है। पर सटीकता ही कुंजी है: परीक्षण में मिले 'हेडलैस पोलर बियर' जैसे गड़बड़ियों से बचने के लिए केवल आवश्यक क्षेत्रों का ही चयन करें।

मेरे अनुभव में, यह अपडेट गुणवत्ता में उल्लेखनीय छलांग देता है, जो लीडरबोर्ड रैंकिंग्स में भी झलकता है। मानक इमेजेस अधिक जीवंत लगती हैं, और इन्फोग्राफिक्स पहले से कहीं कम सरलीकृत दिखते हैं।

यूज़र्स के पास अब हर आउटपुट पर कहीं अधिक नियंत्रण है, पुराने वर्कफ़्लो—जटिल फ़ॉलो-अप प्रॉम्प्ट्स गढ़ना और सर्वोत्तम की आशा करना—की जगह। इसकी बड़ी वजह यह है कि डिटेल प्रिज़र्वेशन बहुत अच्छी तरह काम करता है। हमारे परीक्षणों में, इसने एलिमेंट्स को पूरी तरह जस का तस रखा।

कैरेक्टर सुसंगति मजबूत है, हालाँकि यूज़र्स को 'स्टिकर इफ़ेक्ट' और तार्किक पर्सपेक्टिव मुद्दों से सावधान रहना चाहिए। टार्गेटेड एडिट्स इन्हें ठीक करना आसान बनाते हैं, फिर भी भीड़भाड़ वाले दृश्यों में सीमाएँ बनी रहती हैं।

ChatGPT Images बनाम Nano Banana Pro

वर्तमान में जिसे ChatGPT Images को पछाड़ना है, वह स्पष्ट रूप से Google का Nano Banana Pro है। नीचे दी गई तालिका दोनों मॉडलों की तुलना करती है:

	ChatGPT Images	Nano Banana Pro
एडिटिंग मॉडल	प्रिसिशन: एरिया सेलेक्शन और इन-प्लेस एडिटिंग	रीज़निंग: कन्वर्सेशनल और स्मार्ट मास्किंग
वर्कफ़्लो	समर्पित क्रिएटिव वर्कस्पेस	इंटीग्रेटेड चैट फीचर
इटरेशन	कुशल: आंशिक रीजनरेशन	एक्सप्लोरेटरी: रिमिक्सिंग
सुसंगति	उच्च लेआउट और डिटेल रिटेंशन	उच्च लेआउट और डिटेल रिटेंशन
इकोसिस्टम	OpenAI और Azure	Google / Gemini स्टैक

हालाँकि GPT-Image-1.5 और Nano Banana Pro दोनों बेहतरीन नतीजे देते हैं, दोनों मॉडलों की एडिटिंग फिलॉसफ़ीज़, वर्कफ़्लोज़ और कस्टमर फ़ोकस अलग हैं।

ChatGPT Images पिक्सेल-पर्फेक्ट आइसोलेशन पर केंद्रित है, जिसकी ताकत मैन्युअल नियंत्रण में है: आप सटीक क्षेत्र चुन सकते हैं, और यह चयन को इन-पेंटिंग के लिए कैनवास समझता है, जबकि इमेज का बाकी हिस्सा लॉक रहता है। दूसरी ओर, Nano Banana Pro यह समझने की कोशिश करता है कि आप क्या करना चाहते हैं ताकि सही बदलाव कर सके।

वर्कफ़्लो के संदर्भ में भी दोनों कंपनियों ने अलग रास्ते चुने: ChatGPT में Images टैब बातचीत से अलग, एक क्रिएटिव स्टूडियो जैसा लगता है, जबकि Nano Banana Pro चैट स्ट्रीम में पूरी तरह समाहित है।

अपडेट: Google के नॉन-प्रो इमेज जनरेशन मॉडल के नए संस्करण, Nano Banana 2, ने महत्वपूर्ण सुधार पेश किए हैं। जबकि Nano Banana Pro को अब भी हल्की बढ़त है, नया मॉडल बहुत तेज़ गति पर (लगभग) वही गुणवत्ता देता है।

ChatGPT Images बनाम Nano Banana Pro कब उपयोग करें

यदि आपको लेआउट ठीक करने, टेक्स्ट एडिट करने, या मौजूदा इमेज में शैली बदले बिना सटीक बदलाव करने की ज़रूरत हो, तो मैं ChatGPT Images उपयोग करने का सुझाव दूँगा। यदि आपको डेटा-भारी विज़ुअल्स जनरेट करने हैं, कई तस्वीरों को रिमिक्स करना है, या मैन्युअल नियंत्रण के बजाय स्मार्ट असिस्टेंट से आपके इरादे का अनुमान लगवाना पसंद है, तो Nano Banana Pro चुनें।

उपरोक्त जैसे ही प्रॉम्प्ट्स का उपयोग कर, मैंने टेस्ट इमेजेस फिर बनाई। व्यक्तिगत रूप से, मुझे Nano Banana Pro की इन्फोग्राफिक्स अधिक पसंद आईं, जबकि भालू वाली इमेजेस बराबरी पर थीं।

प्रॉम्प्ट: "A horizontal infographic explaining the 'Lifecycle of a Star'. Three sections: Nebula, Main Sequence, Black Hole. Use flat vector style." (Nano Banana Pro)

ChatGPT Images के उपयोग के मामले

हमारे हैंड्स-ऑन टेस्टिंग और GPT-Image-1.5 की विशिष्ट ताकतों के आधार पर, मॉडल क्रमिक प्रक्रियाओं और टेक्स्ट एडिटिंग में चमकता है। यहाँ कुछ शीर्ष उपयोग मामले हैं:

मार्केटिंग वर्कफ़्लो: सोशल मीडिया विज्ञापनों या प्रोडक्ट शॉट्स का निर्माण जिनमें विशिष्ट विवरण बदले जा सकते हों (जैसे, “स्वेटर का रंग लाल से नीला करें”)
शैक्षिक इन्फोग्राफिक्स: पाठ्यपुस्तकों, प्रस्तुतियों या ब्लॉग्स के लिए डायग्राम बनाना, जैसे हमारा “तारे का जीवन-चक्र” उदाहरण
स्टोरीबोर्डिंग: स्क्रिप्ट या कॉमिक बुक का विज़ुअलाइज़ेशन जहाँ एक ही कैरेक्टर को अलग-अलग जगहों पर दिखना हो
फ़ैशन: हाइब्रिड कंटेंट क्रिएशन से आउटफिट कॉम्बिनेशन्स का विज़ुअल अन्वेषण, जैसे इस FLUX.2 वार्डरोब विज़ुअलाइज़र ट्यूटोरियल
इंटीरियर डिज़ाइन: किसी रफ़ स्केच या फोटो को प्रॉम्प्ट्स के साथ मिलाकर कमरों को किसी ख़ास स्टाइल में रीडेकोरेट करना
UI/UX मॉकअप्स: किसी वेबसाइट लैंडिंग पेज या नए प्रोडक्ट की पैकेजिंग कैसी दिख सकती है, इसका तेज़ विज़ुअलाइज़ेशन

अंतिम विचार

Nano Banana Pro की रिलीज़ के बाद से, OpenAI पर बराबरी बनाए रखने का काफ़ी दबाव था। इस आशाजनक अपडेट के साथ, वे सबसे सक्षम टेक्स्ट-टू-इमेज AI मॉडल की दौड़ में लौट आए हैं। यह निर्दोष नहीं है, लेकिन साफ़-सुथरी टाइपोग्राफी और सटीक एडिटिंग जैसे मूलभूत पहलुओं पर ध्यान देकर आप अच्छे नतीजे पा सकते हैं। शुरुआत करने के लिए, अपने ChatGPT UI में या OpenAI Playground⁠ में इस फीचर को आज़माएँ। प्रेरणा के लिए, आप गैलरी और प्रॉम्प्ट गाइड देख सकते हैं।

यदि आप GPT मॉडलों का उपयोग कर टूल्स बनाना शुरू करना चाहते हैं, तो हमारा OpenAI Fundamentals स्किल ट्रैक आपके लिए है।

ChatGPT Images किस तरह के इमेज एडिट्स संभाल सकता है?

ChatGPT Images सटीक एडिट्स जैसे जोड़ना, हटाना, संयोजित करना, ब्लेंड करना और तत्वों को रूपांतरित करना सपोर्ट करता है। यह केवल वही बदलने के लिए डिज़ाइन किया गया है जो आप कहते हैं, जबकि रोशनी, कंपोज़िशन, चेहरे की समानता, और संपूर्ण सीन सुसंगति जैसे प्रमुख विवरणों को सुरक्षित रखता है।

GPT-Image-1.5 पिछले इमेज मॉडल से कैसे बेहतर है?

GPT Image 1.0 की तुलना में, GPT-Image-1.5 निर्देशों का अधिक भरोसेमंद ढंग से पालन करता है, कई एडिट्स में महत्वपूर्ण विज़ुअल विवरणों को सुरक्षित रखता है, घने और छोटे टेक्स्ट को अधिक सटीकता से रेंडर करता है, और अधिक प्राकृतिक दिखने वाली इमेजेस पैदा करता है। यह API में तेज़ और अधिक किफायती भी है।

क्या ChatGPT Images सभी के लिए उपलब्ध है?

क्या डेवलपर्स नए इमेज मॉडल का API के ज़रिए उपयोग कर सकते हैं?

हाँ। GPT-Image-1.5 OpenAI API में उपलब्ध है और ChatGPT Images जैसी ही सुधारों को शामिल करता है। इमेज इनपुट्स और आउटपुट्स GPT Image 1 की तुलना में लगभग 20% सस्ते हैं, जिससे यह मार्केटिंग, ईकॉमर्स और डिज़ाइन वर्कफ़्लोज़ जैसी एप्लिकेशन्स के लिए उपयुक्त बनता है।

विषय