मुख्य सामग्री पर जाएं

ChatGPT इमेजेस: OpenAI के नए इमेज एडिटर की गाइड

जानें कि ChatGPT Images और नया GPT-Image-1.5 मॉडल कैसे प्रिसिशन एडिटिंग, टेक्स्ट रेंडरिंग, और डिटेल प्रिज़र्वेशन में बड़े अपग्रेड्स के साथ क्रिएटिव वर्कफ़्लोज़ को बदलते हैं।
अद्यतन 22 अप्रैल 2026  · 10 मि॰ पढ़ना

सबसे बेहतर इमेज क्रिएशन टूल्स की दौड़ एक बार फिर नए चरण में प्रवेश कर गई है: Google द्वारा Nano Banana Pro लॉन्च करने के एक महीने से भी कम समय बाद, OpenAI ने अपना जवाब ChatGPT Images पेश कर दिया है। 

इस रिलीज़ में ChatGPT में नया Images वर्कस्पेस और नई पीढ़ी का मॉडल GPT-Image-1.5 शामिल है। यह संकेत देता है कि अब ChatGPT इमेज जनरेशन को एक ऐड-ऑन नहीं, बल्कि पूरी तरह यूज़र अनुभव में एकीकृत कोर फ़ीचर के रूप में देखता है। अन्य सुधारों के बीच, मॉडल मजबूत डिटेल प्रिज़र्वेशन और तेज़ जनरेशन का वादा करता है।

इस लेख में, मैं OpenAI द्वारा घोषित सभी प्रमुख फीचर्स, ChatGPT Images की प्रतिस्पर्धियों से तुलना, और नए मॉडल की क्षमताएँ दिखाने के लिए हैंड्स-ऑन उदाहरणों पर चर्चा करूंगा।

मैं Google के हाल ही में प्रकाशित इमेज जनरेशन मॉडल, Nano Banana 2, पर हमारी गाइड भी देखने की सिफारिश करता हूँ।

अपडेट: OpenAI ने उत्तराधिकारी मॉडल प्रकाशित किया है। इसके बारे में अधिक जानकारी हमारी ChatGPT Images 2.0 गाइड में पढ़ें।

ChatGPT Images क्या है? 

ChatGPT का नया Images टैब, ChatGPT UI के भीतर हर तरह की विज़ुअल क्रिएटिविटी के लिए एक हब के रूप में काम करता है और पर्सनल इमेज लाइब्रेरी को प्रतिस्थापित करता है। सबसे बड़ा बदलाव सीधे एडिटिंग टूल्स का एकीकरण है, जो किसी इमेज के विशिष्ट विवरणों को टार्गेट कर उन्हें बदलने देता है, जबकि बाकी सब कुछ जस का तस रहता है।

ChatGPT Images को GPT-Image-1.5, OpenAI के नवीनतम और सबसे उन्नत टेक्स्ट-टू-इमेज AI मॉडल, से संचालित किया गया है। यह GPT-Image-1 मॉडल (मार्च 2025) की रिलीज़ पर आधारित है, जिसने पहले सप्ताह में 700 मिलियन से अधिक इमेज जनरेशन के साथ बड़ी सफलता हासिल की थी।

यह डिटेल प्रिज़र्वेशन और बेहतर टेक्स्ट रेंडरिंग प्रदान करता है, और दावा है कि यह अपने पूर्ववर्ती से “4x तक” तेज़ है।

नए फीचर्स वेब, मोबाइल UI और API पर, फ्री और पेड दोनों तरह के यूज़र्स के लिए रोल आउट कर दिए गए हैं। केवल Business और Enterprise अकाउंट्स को एक्सेस के लिए अभी इंतजार करना होगा।

ChatGPT Images की प्रमुख विशेषताएँ

तो, पिछले मॉडल और प्रतिस्पर्धा के मुकाबले ChatGPT Images क्या ऑफर करता है? OpenAI विशेष रूप से “महत्वपूर्ण चीजें सुरक्षित रखते हुए सटीक एडिट्स” को प्रमोट कर रहा है। देखते हैं, नए फीचर्स का मतलब क्या है।

समर्पित क्रिएटिव वर्कस्पेस

ChatGPT UI में विज़ुअल क्रिएशन हब के रूप में Images टैब पेश किया गया। इसके पीछे विचार यह है कि इमेज क्रिएशन और एडिटिंग को सामान्य चैट इंटरैक्शंस से अलग किया जाए।

पिछला Library फ़ीचर भी सभी जेनरेटेड इमेजेस को स्टोर करता था, लेकिन वह सिर्फ़ आपको उस बातचीत में वापस ले जाता था जहाँ वे बनी थीं। वह नई इमेज को शुरुआत से बनाने के लिए पूरी बातचीत के इतिहास का संदर्भ लेता था, जिससे अक्सर लंबी थ्रेड्स में हैलुसिनेशन होते थे।

नया तरीका अधिक इमेज-केंद्रित है: हर एडिट एक इमेज को शुरुआती बिंदु मानता है और उसका केवल चुना हुआ हिस्सा बदलता है, पूरी तरह नई जनरेशन बनाने के बजाय।

इमेजेस स्थायी आर्टिफैक्ट्स हैं, बातचीत के इतिहास में दबी हुई नहीं। इससे नई वैरिएशन्स के साथ तेज़ फीडबैक लूप्स संभव होते हैं और प्रयोग को प्रोत्साहन मिलता है, यानी अनुभव एक चैट थ्रेड से बदलकर कैनवास जैसा हो जाता है। 

क्रिएटिव फ्लो को और बढ़ाने के लिए, वर्कस्पेस में नए एक्सप्लोरेशन टूल्स जोड़े गए हैं जो आइडिया और एक्सिक्यूशन के बीच की दूरी घटाते हैं। यूज़र्स बिल्ट-इन स्टाइल प्रीसेट्स (जैसे “sketch” या “dramatic”) लगा सकते हैं या ट्रेंडिंग एस्थेटिक्स ब्राउज़ कर अगली “Studio Ghibli” को पकड़ सकते हैं। नए क्रिएटर्स के लिए, UI क्रिएटिव सुझाव और प्रोएक्टिव प्रॉम्प्ट सपोर्ट देता है ताकि नतीजे निखरें।

ChatGPT Images का UI व्यू

डिटेल प्रिज़र्वेशन और सटीक एडिटिंग

शायद सबसे महत्वपूर्ण नए फीचर के रूप में, अपडेट यूज़र्स को इमेज के खास हिस्सों का चयन कर उन्हें सीधे संशोधित करने देता है, वह भी बिना बाकी कंपोज़िशन को बदले। मॉडल कॉन्टेक्स्ट-अवेयर है, यानी उसे समझ होता है कि क्या एडिट होना चाहिए और आसपास के एलिमेंट्स को सुसंगत रखता है।

इस तरह के शार्प एडिट्स नए मॉडल की बेहतर डिटेल प्रिज़र्वेशन क्षमताओं से संभव हुए हैं।

यह आउटपुट्स और बाद की एडिट्स में वस्तुओं, लाइटिंग, कंपोज़िशन और लोगों की सूरत को सुसंगत रख सकता है। साथ ही, बेहतर निर्देश-पालन क्षमता एलिमेंट्स के बीच रिश्तों को बेहतर तरीके से बनाए रखने में मदद कर सटीकता बढ़ाती है।

प्रिसिशन एडिटिंग छोटे मुद्दों को ठीक करने और तब विशेष विवरणों के साथ प्रयोग करने के लिए बिल्कुल उपयुक्त है, जब पूरी जनरेशन की ज़रूरत न हो। यह क्रिएटिव ट्रांसफॉर्मेशन्स भी सक्षम बनाती है, जैसे एक इमेज के किसी एलिमेंट को दूसरी के दृश्य में ले जाना।

हालाँकि, यह उल्लेखनीय है कि जब एक ही इमेज में बहुत से लोग हों तो हर व्यक्ति की सटीक पहचान बनाए रखने में मॉडल को कठिनाई होती है।

बेहतर टेक्स्ट रेंडरिंग और यथार्थवाद

पिछले मॉडल GPT-Image-1 की प्रमुख खूबियों में से एक उसकी लंबा टेक्स्ट और सुसंगत वाक्यों को संभालने की क्षमता थी। नया रिलीज़ उसी आधार पर आगे बढ़ता है और अब पहले से अधिक घना और छोटा टेक्स्ट संभालने में सक्षम है।

यह खास तौर पर इन्फोग्राफिक्स के लिए उपयोगी है, जहाँ शुरुआती नतीजे काफ़ी प्रभावशाली हैं, और समाचारपत्र जैसी इमेज में टेक्स्ट के मार्कडाउन जैसी नई संभावनाएँ खोलता है। हम आगे चलकर इन्फोग्राफिक्स का एक टेस्ट करेंगे।

हालाँकि, OpenAI के रिलीज़ बयान के अनुसार, कुछ विशिष्ट भाषाओं जैसे चीनी, अरबी और हिब्रू के संदर्भ में सीमाएँ अभी भी बनी हुई दिखती हैं।

भले ही यह अपडेट का मुख्य फोकस न था, आउटपुट यथार्थवाद पिछले मॉडल की तुलना में उल्लेखनीय रूप से बेहतर हुआ है। दो स्थितियाँ जहाँ यह अच्छे से दिखता है, वे हैं रिफ्लेक्शन्स, जैसे फोटो पर ग्लेयर, और बड़ी भीड़ में कई छोटे चेहरे।

अक्सर की तरह, बड़े अपग्रेड्स कुछ क्षेत्रों में ट्रेड-ऑफ के साथ आते हैं। इस बार कुछ विशिष्ट आर्ट स्टाइल्स जनरेट करने की क्षमता में गिरावट आई है। OpenAI Images टैब में प्रीसेट फ़िल्टर्स इस्तेमाल करने या पिछले मॉडल, जो अब भी एक कस्टम GPT के रूप में उपलब्ध है⁠, पर लौटने की सलाह देता है।

तेज़ प्रदर्शन

टार्गेटेड एडिट क्षमताएँ ही मुख्य रूप से बढ़ी हुई जनरेशन स्पीड का स्रोत हैं। जबकि पूरी इमेज जनरेशन स्पष्ट रूप से तेज़ है, यह OpenAI के रिलीज़ नोट के दावे तक नहीं पहुँचती। GPT-Images-1.5 “4x तक तेज़” इसलिए दिखता है क्योंकि एडिट्स के दौरान यह केवल बदले हुए हिस्सों को ही फिर से जनरेट करता है।

इसी तरह, API लागत में लगभग 20% कमी मुख्यतः एडिट्स के दौरान आंशिक इमेज रीजनरेशन से आती है, और कुछ अतिरिक्त लाभ अधिक कुशल इन्फरेंस से मिलते हैं, न कि सस्ती पूर्ण जनरेशन से।

कुल मिलाकर, नए फीचर्स खासकर API वर्कफ़्लो के लिए अधिक कुशल और विश्वसनीय उपयोग सक्षम करते हैं।

ChatGPT Images के उदाहरण

घोषित फीचर्स निश्चित रूप से उत्साहित करने वाले हैं। मैंने नए सेलेक्शन टूल के साथ कुछ सरल प्रॉम्प्ट्स का उपयोग कर इन्हें परखा।

एडिट प्रिसिशन का परीक्षण

मेरे पहले टेस्ट का लक्ष्य यह आकलन करना था कि मॉडल गुणवत्ता घटाए बिना क्रमिक बदलावों को कैसे संभालता है। पहले, मैंने उससे एक भूरे भालू की इमेज बनाने को कहा जो मध्यरात्रि के सूरज के दौरान फिनलैंड के जंगल में चल रहा हो।

प्रॉम्प्ट: “A brown bear walking through a dense Finnish forest during the midnight sun.”

मेरी राय में, पहला आउटपुट बहुत उच्च गुणवत्ता का है। भालू स्वाभाविक दिखता है, पेड़ों और झाड़ियों का प्रकार फिनलैंड के जंगलों का अच्छी तरह प्रतिनिधित्व करता है (मुझे पता है!), और सूरज की नीची स्थिति उत्तरी फिनलैंड के मध्यरात्रि सूरज के अनुरूप है।

साथ ही, भालू के फर और पृष्ठभूमि में रोशनी और छायाएँ काफ़ी यथार्थवादी दिखती हैं। आप अब भी किसी तरह पहचान सकते हैं कि यह AI है, हालांकि विवरण अच्छे हैं।

आइए भालू को ध्रुवीय भालू में बदलने की कोशिश करें और देखें क्या होता है। फिनलैंड में ध्रुवीय भालू नहीं होते, लेकिन अगर सब कुछ ठीक से काम करे, तो बैकग्राउंड वही रहना चाहिए।

फ़िगर बदलते समय बैकग्राउंड वही रखने का ChatGPT Images उदाहरण

प्रॉम्प्ट: “Change the bear to a polar bear.”

जैसा कि हम देख सकते हैं, बैकग्राउंड पूरी तरह जस का तस रहा, जैसा इरादा था।

अगली एडिट में, मैंने ध्रुवीय भालू के सिर और आँखों का चयन किया और उसे विंटेज सनग्लासेज़ पहनाए।

ChatGPT Images उदाहरण गलत हो गया

प्रॉम्प्ट: “Put a pair of vintage sunglasses on the bear.” (सिर चयनित)

लगता है हमने देख लिया कि बहुत बड़ा क्षेत्र चुनने पर क्या होता है। इमेज बैकग्राउंड और भालू का शरीर तो सुसंगत रहा, लेकिन उसका सिर एक बड़े सनग्लासेज़ में बदल गया। चलिए फिर कोशिश करते हैं, सिर्फ उसकी आँखें चुनते हैं।

प्रॉम्प्ट: “Put a pair of vintage sunglasses on the bear.” (आँखें चयनित)

काफ़ी बढ़िया, और निश्चित रूप से बहुत बेहतर! इस पहले टेस्ट में हमने देखा कि डिटेल प्रिज़र्वेशन फीचर कितना शक्तिशाली है: हमें दृश्य के महत्वपूर्ण विवरण केवल एक बार बताने पड़े, और हम अपने मुख्य कैरेक्टर पर बिना बैकग्राउंड की चिंता किए इटररेट कर पाए। एक और ज़रूरी सीख यह है कि सेलेक्शन विंडो का आकार मायने रखता है।

ट्रांसफ़ॉर्मेशन सुसंगति का परीक्षण

अगला, मैंने अलग-अलग दृश्यों के संदर्भ में ऑब्जेक्ट परमानेंस और बड़ी भीड़ से संबंधित सीमाएँ परखी। इसके लिए, मैंने अपने ध्रुवीय भालू को थोड़ा “घुमाया” और उसे टोक्यो की व्यस्त मेट्रो के दृश्य में ले जाने की कोशिश की।

ChatGPT Images ट्रांसफ़ॉर्मेशन सुसंगति

प्रॉम्प्ट: “Place this bear into a very busy subway scene in Tokyo.”

सबसे पहले, कैरेक्टर सुसंगति प्रभावशाली है: मॉडल ने भालू की सटीक भंगिमा और पहचान को बेहतरीन तरीके से बनाए रखा, और फर से सन ग्लेयर हटा दी।

हालाँकि, इस कठोर सहेजने से “स्टिकर इफ़ेक्ट” नामक एक दृश्य असंगति पैदा हो गई। क्योंकि मॉडल ने लाइटिंग कॉन्टेक्स्ट को अपडेट नहीं किया (दिशात्मक छाया और सनग्लासेज़ में जंगल के रिफ्लेक्शन को बनाए रखा), भालू दृश्य में मौजूद 3D ऑब्जेक्ट की बजाय 2D कटआउट चिपकाया हुआ लगता है।

पर्सपेक्टिव ने भ्रम को और तोड़ दिया: भालू उस राहगीर के सामने तैरता हुआ लगता है जो कैमरे के अधिक करीब है।

दूसरी समस्या को ठीक करना काफ़ी निराशाजनक रहा। मैंने राहगीर के क्षेत्र और उसकी भालू से इंटरसेक्शन को चुना, और ChatGPT से पर्सपेक्टिव सही करने को कहा। हर वैरिएशन में, मॉडल ने कैमरे के क़रीब एक नया व्यक्ति जोड़ दिया, कुछ यूँ:

ChatGPT Images पर्सपेक्टिव ठीक करना

प्रॉम्प्ट: “Correct the perspective: The selected bystander’s back is in the foreground and should partially obscure the bear. The bear is standing behind the person’s back.” 

लगता है मॉडल व्यक्ति की पहचान नहीं कर सका, भले ही उसे चुना गया था, और इसलिए प्रॉम्प्ट के अनुरूप निर्देशों का पालन कराने के लिए नए कैरेक्टर की ज़रूरत पड़ी।

छाया और सनग्लासेज़ के रिफ्लेक्शन को ठीक करना अधिक सफल रहा। मैंने ये इटरेशन किए:

  • छाया: भालू के पैरों के आसपास की फ़्लोर चुनें और प्रॉम्प्ट दें “Instead of the current shadow, cast a soft, diffuse shadow on the subway tile floor consistent with the overhead fluorescent lighting.”
  • सनग्लासेज़: सनग्लासेज़ चुनें और प्रॉम्प्ट दें “Update the reflections of the sunglasses to match the subway environment.”

ChatGPT Images में छाया और रिफ्लेक्शन ठीक करना

छाया और सनग्लासेज़ के रिफ्लेक्शन ठीक करने के बाद टोक्यो मेट्रो में हमारा ध्रुवीय भालू

पहले से बहुत बेहतर, भले ही अभी परफेक्ट नहीं।

कुल मिलाकर, दूसरा टेस्ट पहले जितना सफल नहीं रहा। अलग-अलग इमेजेस में एलिमेंट सुसंगति अच्छी काम करती दिखी, पर भीड़भाड़ वाले माहौल में कैरेक्टर पहचान सीमित दिखती है।

टेक्स्ट रेंडरिंग का परीक्षण

अंत में, मैंने नई टेक्स्ट रेंडरिंग क्षमताओं का परीक्षण करना चाहा, विशेषकर घने टेक्स्ट और एडिट्स के संदर्भ में। टेक्स्ट रेंडरिंग में सुधार स्वागतयोग्य होगा क्योंकि ऐतिहासिक रूप से विज़न मॉडल वस्तुओं, टेक्स्चर्स और दृश्यों में बेहतर रहे हैं, प्रतीकों में नहीं।

मैंने ChatGPT से किसी तारे के जीवन-चक्र पर एक इन्फोग्राफिक के लिए जटिल लेआउट मांगा:

ChatGPT Images टेक्स्ट रेंडरिंग काम नहीं कर रही

प्रॉम्प्ट: "A horizontal infographic explaining the 'Lifecycle of a Star'. Three sections: Nebula, Main Sequence, Black Hole. Use flat vector style."

आउटपुट ने निर्देशों का पूरी तरह पालन किया और टेक्स्ट बिना किसी त्रुटि के रेंडर किया। स्टाइल पूरे इन्फोग्राफिक में सटीक और सुसंगत है।

ChatGPT की आउटपुट मल्टीमॉडेलिटी हमें टेक्स्ट जोड़ते समय सटीक होने के लिए बाध्य करती है। जब चयनित क्षेत्र में “यहाँ” एक बुलेट जोड़ने को कहा गया, तो उसने केवल टेक्स्ट आउटपुट में बुलेट दे दिया। “इमेज में” जोड़ने की स्पष्टता देने पर काम हो गया:

ChatGPT Images टेक्स्ट रेंडरिंग ठीक हुई

प्रॉम्प्ट: “Add a bullet point to the image here that says: 'Lasts for billions of years'.”

स्पष्टता जोड़ने के बाद, बुलेट सही स्थान पर जोड़ दिया गया। फ़ॉन्ट, आकार और रंग ग्राफ़िक की शैली से मेल खाते हैं।

मैं ChatGPT Images तक कैसे पहुँचूँ? 

ChatGPT Images अब कई प्लेटफ़ॉर्म्स पर लगभग सभी यूज़र्स के लिए उपलब्ध है। केवल Business और Enterprise टियर के यूज़र्स के लिए सपोर्ट अभी बाकी है और बाद में आएगा।

UI में, आप वेब UI या ChatGPT के मोबाइल ऐप में Images टैब के ज़रिए फ़ीचर्स तक तुरंत पहुँच सकते हैं। भले ही सटीक संख्या ज्ञात नहीं है, Free अकाउंट्स पर कड़े डेली लिमिट्स लागू हैं और Plus व Pro प्लान्स पर क्रमशः अधिक और स्थिर अलाउंस मिलते हैं।

डेवलपर्स के लिए, नया GPT-Image-1.5 मॉडल OpenAI API और Azure OpenAI Service दोनों के माध्यम से इमेज जनरेशन और एडिटिंग के लिए उपलब्ध है। हमें उम्मीद है कि यह मॉडल जल्द ही प्रमुख थर्ड-पार्टी क्रिएटिव सूट्स में एकीकृत होगा, लेकिन डेवलपर्स पहले से ही अपने एप्लिकेशन्स में सीधे v1/images/generations और v1/images/edits एंडपॉइंट्स से एडिटिंग वर्कफ़्लो बना सकते हैं।

अपने पूर्ववर्ती के विपरीत, GPT-Image-1.5 इमेज आउटपुट को अलग कीमत वाले टोकन्स के रूप में एक्सपोज़ करता है, और एकीकृत /v1/responses के बजाय इमेज-विशिष्ट API एंडपॉइंट्स का उपयोग करता है। आप हर बार पूरी नई इमेज के बजाय, केवल बदली गई चीज़ों को जनरेट करने में लगे टोकन्स के लिए भुगतान करते हैं।

इसी कारण नए मॉडल के अपने पूर्ववर्ती से लगभग 20% सस्ता होने का दावा किया गया है, हालाँकि प्रति टोकन कीमतें GPT-Image-1 की तुलना में नहीं बदली हैं।

ChatGPT Images कितना बेहतर है? 

GPT-Image-1.5 तुरंत LMArena और ArtificialAnalysis टेक्स्ट-टू-इमेज लीडरबोर्ड्स के शीर्ष पर पहुँच गया, और Nano Banana Pro दूसरे स्थान पर चला गया। चूँकि अभी कोई बेंचमार्क डेटा उपलब्ध नहीं है, हमें वस्तुनिष्ठ वर्गीकरण के लिए इन वोट-आधारित रैंकिंग्स पर भरोसा करना होगा।

LMArena टेक्स्ट-टू-इमेज लीडरबोर्ड जिसमें GPT-Image-1.5 शीर्ष पर है

एक मशहूर अंतरिक्ष यात्री को परफ्रेज़ करें तो: GPT-Image-1.5 उद्योग के लिए एक छोटा कदम है, लेकिन OpenAI के लिए एक बड़ी छलांग। 

हालाँकि प्रिसिशन एडिटिंग पूरी तरह नई नहीं है, इसे ChatGPT में नैटिव रूप से लाना इस रिलीज़ का सबसे बड़ा बदलाव है। पर सटीकता ही कुंजी है: परीक्षण में मिले 'हेडलैस पोलर बियर' जैसे गड़बड़ियों से बचने के लिए केवल आवश्यक क्षेत्रों का ही चयन करें।

मेरे अनुभव में, यह अपडेट गुणवत्ता में उल्लेखनीय छलांग देता है, जो लीडरबोर्ड रैंकिंग्स में भी झलकता है। मानक इमेजेस अधिक जीवंत लगती हैं, और इन्फोग्राफिक्स पहले से कहीं कम सरलीकृत दिखते हैं।

यूज़र्स के पास अब हर आउटपुट पर कहीं अधिक नियंत्रण है, पुराने वर्कफ़्लो—जटिल फ़ॉलो-अप प्रॉम्प्ट्स गढ़ना और सर्वोत्तम की आशा करना—की जगह। इसकी बड़ी वजह यह है कि डिटेल प्रिज़र्वेशन बहुत अच्छी तरह काम करता है। हमारे परीक्षणों में, इसने एलिमेंट्स को पूरी तरह जस का तस रखा।

कैरेक्टर सुसंगति मजबूत है, हालाँकि यूज़र्स को 'स्टिकर इफ़ेक्ट' और तार्किक पर्सपेक्टिव मुद्दों से सावधान रहना चाहिए। टार्गेटेड एडिट्स इन्हें ठीक करना आसान बनाते हैं, फिर भी भीड़भाड़ वाले दृश्यों में सीमाएँ बनी रहती हैं।

ChatGPT Images बनाम Nano Banana Pro

वर्तमान में जिसे ChatGPT Images को पछाड़ना है, वह स्पष्ट रूप से Google का Nano Banana Pro है। नीचे दी गई तालिका दोनों मॉडलों की तुलना करती है:

 

ChatGPT Images

Nano Banana Pro

एडिटिंग मॉडल

प्रिसिशन: एरिया सेलेक्शन और इन-प्लेस एडिटिंग

रीज़निंग: कन्वर्सेशनल और स्मार्ट मास्किंग

वर्कफ़्लो

समर्पित क्रिएटिव वर्कस्पेस

इंटीग्रेटेड चैट फीचर

इटरेशन

कुशल: आंशिक रीजनरेशन

एक्सप्लोरेटरी: रिमिक्सिंग

सुसंगति

उच्च लेआउट और डिटेल रिटेंशन

उच्च लेआउट और डिटेल रिटेंशन

इकोसिस्टम

OpenAI और Azure

Google / Gemini स्टैक

हालाँकि GPT-Image-1.5 और Nano Banana Pro दोनों बेहतरीन नतीजे देते हैं, दोनों मॉडलों की एडिटिंग फिलॉसफ़ीज़, वर्कफ़्लोज़ और कस्टमर फ़ोकस अलग हैं।

ChatGPT Images पिक्सेल-पर्फेक्ट आइसोलेशन पर केंद्रित है, जिसकी ताकत मैन्युअल नियंत्रण में है: आप सटीक क्षेत्र चुन सकते हैं, और यह चयन को इन-पेंटिंग के लिए कैनवास समझता है, जबकि इमेज का बाकी हिस्सा लॉक रहता है। दूसरी ओर, Nano Banana Pro यह समझने की कोशिश करता है कि आप क्या करना चाहते हैं ताकि सही बदलाव कर सके।

वर्कफ़्लो के संदर्भ में भी दोनों कंपनियों ने अलग रास्ते चुने: ChatGPT में Images टैब बातचीत से अलग, एक क्रिएटिव स्टूडियो जैसा लगता है, जबकि Nano Banana Pro चैट स्ट्रीम में पूरी तरह समाहित है।

अपडेट: Google के नॉन-प्रो इमेज जनरेशन मॉडल के नए संस्करण, Nano Banana 2, ने महत्वपूर्ण सुधार पेश किए हैं। जबकि Nano Banana Pro को अब भी हल्की बढ़त है, नया मॉडल बहुत तेज़ गति पर (लगभग) वही गुणवत्ता देता है।

ChatGPT Images बनाम Nano Banana Pro कब उपयोग करें

यदि आपको लेआउट ठीक करने, टेक्स्ट एडिट करने, या मौजूदा इमेज में शैली बदले बिना सटीक बदलाव करने की ज़रूरत हो, तो मैं ChatGPT Images उपयोग करने का सुझाव दूँगा। यदि आपको डेटा-भारी विज़ुअल्स जनरेट करने हैं, कई तस्वीरों को रिमिक्स करना है, या मैन्युअल नियंत्रण के बजाय स्मार्ट असिस्टेंट से आपके इरादे का अनुमान लगवाना पसंद है, तो Nano Banana Pro चुनें।

उपरोक्त जैसे ही प्रॉम्प्ट्स का उपयोग कर, मैंने टेस्ट इमेजेस फिर बनाई। व्यक्तिगत रूप से, मुझे Nano Banana Pro की इन्फोग्राफिक्स अधिक पसंद आईं, जबकि भालू वाली इमेजेस बराबरी पर थीं।

प्रॉम्प्ट: "A horizontal infographic explaining the 'Lifecycle of a Star'. Three sections: Nebula, Main Sequence, Black Hole. Use flat vector style." (Nano Banana Pro)

प्रॉम्प्ट: "A horizontal infographic explaining the 'Lifecycle of a Star'. Three sections: Nebula, Main Sequence, Black Hole. Use flat vector style." (Nano Banana Pro)

ChatGPT Images के उपयोग के मामले 

हमारे हैंड्स-ऑन टेस्टिंग और GPT-Image-1.5 की विशिष्ट ताकतों के आधार पर, मॉडल क्रमिक प्रक्रियाओं और टेक्स्ट एडिटिंग में चमकता है। यहाँ कुछ शीर्ष उपयोग मामले हैं:

  • मार्केटिंग वर्कफ़्लो: सोशल मीडिया विज्ञापनों या प्रोडक्ट शॉट्स का निर्माण जिनमें विशिष्ट विवरण बदले जा सकते हों (जैसे, “स्वेटर का रंग लाल से नीला करें”)
  • शैक्षिक इन्फोग्राफिक्स: पाठ्यपुस्तकों, प्रस्तुतियों या ब्लॉग्स के लिए डायग्राम बनाना, जैसे हमारा “तारे का जीवन-चक्र” उदाहरण
  • स्टोरीबोर्डिंग: स्क्रिप्ट या कॉमिक बुक का विज़ुअलाइज़ेशन जहाँ एक ही कैरेक्टर को अलग-अलग जगहों पर दिखना हो
  • फ़ैशन: हाइब्रिड कंटेंट क्रिएशन से आउटफिट कॉम्बिनेशन्स का विज़ुअल अन्वेषण, जैसे इस FLUX.2 वार्डरोब विज़ुअलाइज़र ट्यूटोरियल
  • इंटीरियर डिज़ाइन: किसी रफ़ स्केच या फोटो को प्रॉम्प्ट्स के साथ मिलाकर कमरों को किसी ख़ास स्टाइल में रीडेकोरेट करना
  • UI/UX मॉकअप्स: किसी वेबसाइट लैंडिंग पेज या नए प्रोडक्ट की पैकेजिंग कैसी दिख सकती है, इसका तेज़ विज़ुअलाइज़ेशन

अंतिम विचार 

Nano Banana Pro की रिलीज़ के बाद से, OpenAI पर बराबरी बनाए रखने का काफ़ी दबाव था। इस आशाजनक अपडेट के साथ, वे सबसे सक्षम टेक्स्ट-टू-इमेज AI मॉडल की दौड़ में लौट आए हैं। यह निर्दोष नहीं है, लेकिन साफ़-सुथरी टाइपोग्राफी और सटीक एडिटिंग जैसे मूलभूत पहलुओं पर ध्यान देकर आप अच्छे नतीजे पा सकते हैं। शुरुआत करने के लिए, अपने ChatGPT UI में या OpenAI Playground⁠ में इस फीचर को आज़माएँ। प्रेरणा के लिए, आप गैलरी और प्रॉम्प्ट गाइड देख सकते हैं।

यदि आप GPT मॉडलों का उपयोग कर टूल्स बनाना शुरू करना चाहते हैं, तो हमारा OpenAI Fundamentals स्किल ट्रैक आपके लिए है।

FAQs

ChatGPT Images किस तरह के इमेज एडिट्स संभाल सकता है?

ChatGPT Images सटीक एडिट्स जैसे जोड़ना, हटाना, संयोजित करना, ब्लेंड करना और तत्वों को रूपांतरित करना सपोर्ट करता है। यह केवल वही बदलने के लिए डिज़ाइन किया गया है जो आप कहते हैं, जबकि रोशनी, कंपोज़िशन, चेहरे की समानता, और संपूर्ण सीन सुसंगति जैसे प्रमुख विवरणों को सुरक्षित रखता है।

GPT-Image-1.5 पिछले इमेज मॉडल से कैसे बेहतर है?

GPT Image 1.0 की तुलना में, GPT-Image-1.5 निर्देशों का अधिक भरोसेमंद ढंग से पालन करता है, कई एडिट्स में महत्वपूर्ण विज़ुअल विवरणों को सुरक्षित रखता है, घने और छोटे टेक्स्ट को अधिक सटीकता से रेंडर करता है, और अधिक प्राकृतिक दिखने वाली इमेजेस पैदा करता है। यह API में तेज़ और अधिक किफायती भी है।

क्या ChatGPT Images सभी के लिए उपलब्ध है?

नया ChatGPT Images मॉडल वैश्विक रूप से सभी ChatGPT यूज़र्स और API यूज़र्स के लिए रोलआउट हो रहा है। ChatGPT में नया Images क्रिएशन स्पेस अभी अधिकांश यूज़र्स के लिए उपलब्ध है, Business और Enterprise एक्सेस बाद में आएगा।

क्या डेवलपर्स नए इमेज मॉडल का API के ज़रिए उपयोग कर सकते हैं?

हाँ। GPT-Image-1.5 OpenAI API में उपलब्ध है और ChatGPT Images जैसी ही सुधारों को शामिल करता है। इमेज इनपुट्स और आउटपुट्स GPT Image 1 की तुलना में लगभग 20% सस्ते हैं, जिससे यह मार्केटिंग, ईकॉमर्स और डिज़ाइन वर्कफ़्लोज़ जैसी एप्लिकेशन्स के लिए उपयुक्त बनता है।

विषय

शीर्ष AI कोर्स

Track

OpenAI Fundamentals

15 घंटा
Begin creating AI systems using models from OpenAI. Learn how to use the OpenAI API to prompt OpenAI's GPT and Whisper models.
विस्तृत जानकारी देखेंRight Arrow
कोर्स शुरू करें
और देखेंRight Arrow