Courses
เกือบครบหนึ่งปีพอดีนับจากวันที่ปล่อย ChatGPT Images รุ่นแรกพร้อมโมเดลชื่อว่า GPT Image 1 OpenAI ได้ยกเครื่องโมเดลภาพอีกครั้ง และบริษัทกำลังนำเสนอแนวคิดใหม่ว่า "ตัวสร้างภาพ" ได้กลายเป็น "คู่คิดเชิงภาพ" แล้ว
ในบทความนี้ เราจะพาไปดูว่าอะไรใหม่บ้าง เปรียบเทียบกับรุ่นก่อนหน้า ChatGPT Images 1.5 อย่างไร เปรียบเทียบกับ Nano Banana 2 ของ Google อย่างไร และจุดที่โมเดลทำได้ดี (และจุดที่ยังไม่ดี)
ChatGPT Images 2.0 คืออะไร?
ChatGPT Images 2.0 คือโมเดลสร้างภาพยุคถัดไปของ OpenAI ที่ถูกนำเสนอว่าสามารถคิด ค้นคว้า แล้วจึงเรนเดอร์ภาพได้
มีอะไรใหม่ใน ChatGPT Images 2.0?
หนึ่งในข้อสรุปใหญ่จากการปล่อย ChatGPT Images 1.5 คือความเร็วที่เพิ่มขึ้นมาก โดยระบุว่าเร็วขึ้น 4 เท่า เราพยายามตรวจสอบข้อกล่าวอ้างนั้นและพบว่าใช้ได้กับการแก้ไขภาพ ไม่ใช่การสร้างภาพใหม่
ครั้งนี้ ข้อกล่าวอ้างใหญ่คือความฉลาด ChatGPT Images 2.0 เป็นโมเดลภาพที่ "คิดได้": ควรจะค้นหา เหตุผลเชิงข้อเท็จจริง และแปลอินพุตแบบหยาบ (โน้ต สเก็ตช์ อ้างอิง) ให้เป็นภาพที่ขัดเกลา โดยต้องคุมพรอมป์ตน้อยลงมาก
ประเด็นพาดหัวอื่น ๆ จากประกาศ ได้แก่:
- ความแม่นยำและการควบคุมที่มากขึ้นในการสร้างภาพ
- ประสิทธิภาพที่แข็งแกร่งขึ้นข้ามภาษาและระบบอักษร
- ความซับซ้อนเชิงสไตล์และความสมจริงที่มากกว่าเดิม
- เชาว์ปัญญาเชิงโลกจริงที่ดียิ่งขึ้นฝังอยู่ในโมเดล
- อัตราส่วนภาพที่ยืดหยุ่นตั้งแต่มือถือไปจนถึงรูปแบบแบนเนอร์
โมเดลที่คิดได้
หนึ่งในข้ออ้างสำคัญคือโมเดลใหม่ "คิด" และทำหน้าที่เป็น "คู่คิดเชิงภาพ" แนวคิดคือเอเย่นต์จะทำงานเบื้องหลังเพื่อเข้าใจงานอย่างถี่ถ้วนและไตร่ตรองก่อนจะดำเนินการสร้างภาพ
ความเข้าใจโลกของมันอัปเดตถึงเส้นตัดข้อมูลเดือนธันวาคม 2025 ทำให้เอาต์พุตแม่นยำตามบริบทมากขึ้น ซึ่งถูกโฆษณาว่าเหมาะสำหรับกราฟิกการศึกษาและเวิร์กโฟลว์หลายขั้นตอนที่ต้องใช้บริบท
ค้นเว็บได้
เพื่อเชื่อมช่องว่างระหว่างเส้นตัดข้อมูลกับข้อมูลล่าสุด Images 2.0 สามารถค้นเว็บเพื่อหาข้อมูลที่เกี่ยวข้อง ยังไม่ชัดจากบันทึกเผยแพร่ของ OpenAI ว่าทำงานอย่างไรแน่ แต่เท่าที่เข้าใจ การค้นเว็บทำหน้าที่เป็นเครื่องมือที่ถูกเรียกใช้โดยเอเย่นต์ที่คิดข้างต้น
สร้างหลายภาพจากพรอมป์ตเดียว
โมเดลใหม่รองรับการสร้างหลายภาพจากพรอมป์ตเดียวแบบเนทีฟ เดิมทำได้ผ่านทางลัดใน API (สั่งให้สร้างเป็น "composition") แต่ตอนนี้ทำได้ใน UI ด้วย สูงสุดสิบภาพ OpenAI สัญญาความต่อเนื่องของตัวละครและวัตถุในเอาต์พุตทั้งหมด
ทดสอบ ChatGPT Images 2.0
ถึงเวลาดูว่าโมเดลใหม่ทำอะไรได้จริงบ้าง! เราทดสอบความสามารถและฟีเจอร์ต่อไปนี้ของ Images 2.0:
- เวิร์กโฟลว์การแก้ไข
- โหมดคิดและการค้นเว็บ
- ขอบเขตเชิงสไตล์
- การขัดเกลาจากสเก็ตช์หยาบ
- ความยืดหยุ่นของอัตราส่วนภาพ
- ความคิดสร้างสรรค์
ทดสอบเวิร์กโฟลว์การแก้ไข
คำโปรยของ OpenAI สำหรับ 2.0 เน้นการทำซ้ำ: ป้อนอินพุตหยาบ ออกมาเป็นแอสเซ็ตที่ขัดเกลา พร้อมความสามารถในการทำตามคำสั่งและเรนเดอร์ข้อความหนาแน่น เราทดสอบลูปนั้นด้วยแสตมป์สหรัฐปี 1898 ชื่อ Western Cattle in Storm ที่มีชื่อเสียง
นี่คือภาพของหนึ่งในแสตมป์สภาพ Fine

เพื่อทดสอบเวิร์กโฟลว์การแก้ไขโดยเฉพาะ เราใช้พรอมป์ตต่อไปนี้โดยปิดโหมดคิด ซึ่งแปลว่าโมเดลจะไม่มีสิทธิ์ค้นเว็บ เราแยกไปทดสอบส่วนนี้ต่างหาก
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
และนี่คือผลลัพธ์:

การพรอมป์ตด้วยข้อความอย่างเดียวไม่เวิร์ก คำบรรยายรายละเอียดของแสตมป์และเกรดสภาพออกมาผิดในเรื่องสำคัญหลายอย่าง — สีผิด รูปแบบมูลค่าผิด การเยื้องศูนย์ดูเป็นการ์ตูน การสร้างวัตถุประวัติศาสตร์เฉพาะเจาะจงจากข้อความล้วนเป็นโจทย์ยาก
การให้ภาพอ้างอิงแก่โมเดลและขอแก้ไขแบบเจาะจงคือจุดที่ 2.0 ทำคะแนน: ความไม่สม่ำเสมอของรอยปรุ คราบบานพับ รอยงอกาวเฉียง โทนสีเหลืองอ่อน และตราประทับยกเลิกบางส่วน
การแก้ไขตรงจุดที่ขอไว้โดยคร่าว ๆ โมเดลทำให้เกิดปัญหาอัตราส่วนภาพ แต่ถามย้ำด้วยภาษาธรรมดาครั้งเดียวก็แก้ได้ ผลลัพธ์สุดท้ายยังไม่ถึงขั้นนิติวิทยาศาสตร์ — ตัว "$1" ดูยืดเล็กน้อย ข้าวโพดต่างไป — แต่ลูปการทำงานเวิร์ก: เริ่มหยาบ แก้ทิศทาง ได้ผลลัพธ์ใช้งานได้ในสามรอบ

ทดสอบโหมดคิดและการค้นเว็บ
เราต้องระวังเล็กน้อยเวลาเทสความสามารถค้นเว็บ เพราะถ้าบอกสิ่งที่ต้องการทั้งหมดในพรอมป์ต นั่นคือทดสอบการทำตามคำสั่ง ไม่ใช่การค้นหา การทดสอบที่สะอาดที่สุดคือขอสิ่งที่ใหม่มากและเฉพาะมาก ให้ข้อมูลกับโมเดลน้อยที่สุด และดูว่ามันเติมช่องว่างได้ถูกต้องหรือไม่
เราเลือกบอสตันมาราธอนเมื่อวานนี้ การแข่งจบในวันจันทร์ที่ 20 เมษายน — หนึ่งวันก่อนประกาศ ChatGPT Images 2.0 — และสถิติเส้นทางของผู้ชายถูกทำลายครั้งแรกตั้งแต่ปี 2011 ซึ่งให้ชุดข้อเท็จจริงที่เป็นรูปธรรม (ผู้ชนะ ประเทศ เวลา ระยะห่าง บริบท) ที่โมเดลไม่มีทางได้จากการฝึก แต่ตรวจสอบได้ง่ายด้วยการค้นหาอย่างรวดเร็ว
นี่คือพรอมป์ตที่ตั้งใจตัดรายละเอียดออก และจะเห็นในผลลัพธ์ว่าโมเดลค้นเว็บจริง!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

ผลลัพธ์ดูน่าดึงดูดสายตาและใช้โทนสีของบอสตันมาราธอนได้ดี ซึ่งถือว่าเป็นโบนัส ข้อเท็จจริงทั้งหมดถูกต้อง เราตรวจสอบยืนยันแล้ว
น่าประทับใจยิ่งขึ้นเมื่อเทียบกับเอาต์พุตของโมเดลเก่า (Images 1.5) หรือโมเดลใหม่ที่ปิดโหมดคิด ด้วยพรอมป์ตเดียวกัน:

ด้านสไตล์แข่งกันได้ แต่มีประเด็นเกี่ยวกับตัวเลขอยู่พอสมควร
- งานวิ่งนี้ครบรอบครั้งที่ 130 ของบอสตันมาราธอน จึงควรเขียนว่า “129 ปีแห่งประเพณี” ไม่ใช่ 127
- ข้อความที่ว่าเป็น “นักวิ่งคนที่ 3 ในประวัติศาสตร์ที่ทำเวลาใต้ 2:04 ในมาราธอน” ก็ไม่จริง ประมาณ 20 คนทำได้แล้ว
- ตามเว็บไซต์ Boston Athletic Association เวลาครึ่งหลังของเขาคือ 1:00:02 ไม่ใช่ 1:01:05 (ซึ่งอาจยังเป็นครึ่งหลังที่เร็วที่สุด)
- ที่สำคัญที่สุด ChatGPT Images สับสนเวลาสถิติใหม่และเก่า สถิติเก่าคือ 2:03:02; สถิติใหม่คือ 2:01:52 ผลต่างคือ 1:10 นาที
- เนื่องจาก John Korir ก็ชนะบอสตันมาราธอนปีที่แล้ว จึงมีเหตุผลจะคาดว่า ถ้ามีผู้ชนะคนอื่น ก็อาจระบุชื่อไม่ถูก
ความสามารถในการค้นหามีผลเมื่อแสดงข้อมูลปัจจุบันในรูปแบบภาพ การจะใช้ได้ ต้องเปิดโหมดคิด
ทดสอบขอบเขตเชิงสไตล์
OpenAI โปรยว่าพัฒนาขึ้นมากในด้านความซับซ้อนเชิงสไตล์ — ทั้งภาพถ่าย ภาพประกอบ มังงะ พิกเซลอาร์ต และสไตล์อื่น ๆ การทดสอบที่ซื่อสัตย์ไม่ใช่ว่าภาพใดภาพหนึ่งดูดีหรือไม่ แต่เป็นว่าเมื่อเรนเดอร์หัวเรื่องเดียวกันในสามสไตล์ต่างกันแล้วดูน่าเชื่อถือต่อแต่ละแนวจริงหรือไม่ หรือทุกอย่างยังติดความเป็น AI แบบเดียวกันอยู่
เพื่อทดสอบ เราขอภาพเครื่องชงเอสเปรสโซบนโต๊ะทำงานไม้สามเวอร์ชัน (ภาพถ่าย มังงะ พิกเซลอาร์ต) นี่คือพรอมป์ตและผลลัพธ์:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

ผลนี้น่าสนใจและแอบขำ หากนึกถึงว่า Image 1 เคยดังจากภาพรวมสไตล์สตูดิโอจิบลิที่ฮิตกันเมื่อปีที่แล้ว (เราก็ทำ) ดูเหมือน OpenAI ระมัดระวังเรื่องลิขสิทธิ์และทรัพย์สินทางปัญญามากขึ้น
เมื่ออธิบายสไตล์ของ Katsuhiro Otomo โดยไม่เอ่ยชื่อโดยตรง ก็ทำได้ หนึ่งข้อสังเกตคือต้องเปิดแชทใหม่จึงจะเวิร์ก ถ้าอยู่ในแชทเดียวกับพรอมป์ตเดิม โมเดลดูเหมือนจะจับได้ว่าเราพยายามเลี่ยงข้อจำกัด
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

ในความเห็นของเรา ทั้งสามภาพดูดีและถ่ายทอดสไตล์เฉพาะที่ขอไว้อย่างสมจริง ภาพถ่ายดูเป็นธรรมชาติ ส่วนอีกสองเวอร์ชันก็เหมือนหยิบมาจากหนังสือมังงะหรือวิดีโอเกม SNES ตามลำดับ
อีกสิ่งที่สะดุดตาคือโมเดลใช้ความยืดหยุ่นของอัตราส่วนภาพปรับให้เหมาะกับแต่ละภาพ: แนวนอน 16:9 สำหรับภาพถ่าย อัตราส่วนแนวตั้งสำหรับฉบับมังงะ และภาพสี่เหลี่ยมสำหรับพิกเซลอาร์ต
ทดสอบอัตราส่วนภาพที่ยืดหยุ่น
รุ่นนี้รองรับอัตราส่วนตั้งแต่ 3:1 ถึง 1:3 และความละเอียดสูงสุด 2K คำถามที่น่าสนใจไม่ใช่ว่าทำภาพแนวสูงหรือนอนกว้างได้ไหม — แต่คือโมเดลจัดองค์ประกอบใหม่อย่างชาญฉลาดข้ามรูปแบบ หรือแค่ครอป
เพื่อเปิดเผยตรรกะเชิงพื้นที่ เราต้องการฉากที่มีองค์ประกอบเด่นหลายแกนที่จำเป็น (สิ่งที่สูง สิ่งที่กว้าง และตัวแบบกึ่งกลาง)
ในการทดสอบ เราสร้างตัวแบบ (นักบินอวกาศในฉากเฉพาะ) จากพรอมป์ตตั้งต้น แล้วขอให้โมเดลสร้างใหม่เป็นวอลเปเปอร์มือถือ แบนเนอร์ และสี่เหลี่ยม เพื่อดูว่าองค์ประกอบปรับอย่างไร
พรอมป์ตตั้งต้น:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

มาดูว่าเปลี่ยนอย่างไร:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

แต่ละเวอร์ชันเลือกอัตราส่วนที่เหมาะกับคำขอ รวมองค์ประกอบสำคัญทั้งหมด (นักบินอวกาศ รถสำรวจ ดาวเคราะห์) จัดวางตามที่ขอไว้ในพรอมป์ตเดิม และทำให้จุดสนใจอยู่กึ่งกลาง ทดสอบผ่าน
ทดสอบจากอินพุตหยาบสู่อินพุตขัดเกลา
กรอบความคิดแบบคู่คิดเชิงภาพตั้งอยู่บนการที่โมเดลยอมรับอินพุตที่คลุมเครือหรือยุ่งเหยิง — สเก็ตช์หยาบ โน้ตหัวข้อ อ้างอิงบางชิ้น — แล้วแปลงเป็นแอสเซ็ตที่เสร็จสมบูรณ์ นี่คือวงจรที่รุ่นนี้สร้างขึ้นมาเพื่อ และคุ้มค่าที่สุดจะทดสอบโดยตรง
เพื่อทดสอบ เราอัปโหลดสเก็ตช์ดินสอแบบหยาบมากของกระท่อมริมทะเลสาบดังภาพ

เพื่อให้ท้าทาย จงใจใส่รายละเอียดหลายอย่าง ใช้คำภาษาฟินแลนด์สำหรับท่าเรือ “laituri” และชวนสับสนด้วยอาคารสองประเภท (บ้านและกระท่อม) และผิวน้ำสองแบบ (ทะเลสาบและบ่อน้ำ)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

ผลลัพธ์เมื่อปิดโหมดคิดดูใช้ได้ แต่ยังไม่ค่อยเหมือนภาพถ่าย อย่างไรก็ดี แสงเงาสอดคล้องดี และภาพจับอารมณ์ของพรอมป์ตได้ เราเห็นแทบทุกองค์ประกอบจากสเก็ตช์ แต่มีรายละเอียดคลาดเคลื่อนเล็กน้อย:
- เรือหายไป
- ท่าเรืออยู่ที่บ่อน้ำ ไม่ใช่ทะเลสาบ
- ตำแหน่งดวงอาทิตย์ไม่อยู่มุมขวาบน
เมื่อทดลองพรอมป์ตเดียวกันกับภาพสเก็ตช์เดิมโดยเปิดโหมดคิด เอาต์พุตดูสมจริงขึ้นมากและแก้ความคลาดเคลื่อนย่อยทั้งหมด:

ภาพมีทุกองค์ประกอบจากสเก็ตช์ในตำแหน่งที่กำหนด และดูเรียบร้อยมาก บทสรุปสำคัญคือควรใช้โหมดคิดเพื่อผลลัพธ์ที่ดีที่สุดเมื่อแปลงสเก็ตช์หยาบให้เป็นภาพสมจริงแบบภาพถ่าย
ทดสอบความคิดสร้างสรรค์
สำหรับการทดสอบถัดไป เราอยากเห็นว่ามันสร้างงานแบบ คอนกรีตโพเอทรีของ Niikuni Seiichi ได้หรือไม่
บทกวีชิ้นนี้แสดงคันจิคำว่า “ฝน” รายล้อมด้วยฝน ราวกับจับฝนไว้ในภาษา ตามที่เราเข้าใจ

นี่คือพรอมป์ตของเรา:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
และนี่คือเอาต์พุต:

ผลงานนี้น่าสนใจ โมเดลไม่ได้ก็อปปี้ภาพเดิมเป๊ะ ๆ แต่สร้างสิ่งใหม่ที่ชวนคิด ในองค์ประกอบใหม่นี้ คันจิคำว่า “ฝน” ไม่ได้ถูกล้อมรอบด้วยฝน แต่กำลังโปรยลงมาเป็นฝน องค์ประกอบของสัญลักษณ์ดูสุ่มมาก อย่างที่คาดหวังจากหยดฝน แต่ก็ตัดกับต้นฉบับที่เป็นระเบียบอย่างสวยงาม
เข้าถึง ChatGPT Images 2.0 ได้อย่างไร?
การเข้าถึงยังคงรูปแบบเดียวกับรุ่นก่อน โดยคงพื้นที่ทำงานเชิงสร้างสรรค์เฉพาะที่เปิดตัวในเดือนธันวาคมไว้ — ตัวแก้ไขแบบผืนผ้าใบ อาร์ติแฟกต์ถาวร พรีเซ็ตสไตล์ — และเปลี่ยนเป็นโมเดลที่ทรงพลังขึ้นมากข้างใต้
- เว็บ แอปมือถือ และ Codex: ChatGPT Images 2.0 มีในแท็บ Images สำหรับผู้ใช้ Free, Plus และ Pro พร้อมลิมิตการใช้งานตามระดับ ปกติแล้วธุรกิจและเอนเตอร์ไพรซ์จะตามมาหลังปล่อยช่วงแรก
- API: นักพัฒนาสามารถใช้โมเดลใหม่ผ่าน OpenAI API และ Azure OpenAI Service ผ่านเอ็นด์พอยต์การสร้างและแก้ไขภาพ เช่นเดียวกับ 1.5 เอาต์พุตภาพคิดราคาเป็นโทเค็น และการสร้างใหม่แบบบางส่วนระหว่างแก้ไขช่วยลดค่าใช้จ่ายเมื่อเทียบกับการสร้างภาพทั้งภาพใหม่ทุกครั้ง
ChatGPT Images 2.0 เทียบกับ Nano Banana 2
คุณอาจสงสัยว่า ChatGPT Images 2.0 เปรียบเทียบกับ Nano Banana 2 อย่างไร ทั้งสองโมเดลออกใหม่ เป็นประสบการณ์ดีฟอลต์ในอีโคซิสเต็มของตน และต่างก็โปรยเรื่องความเร็ว การให้เหตุผล และเชาว์ปัญญาเชิงโลกจริง
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
สถาปัตยกรรมพื้นฐาน |
GPT-Image-2 (ผู้สืบทอดจาก GPT-Image-1.5) |
Gemini 3.1 Flash |
|
โมเดลสำหรับแก้ไข |
ความแม่น: เลือกพื้นที่ & แก้ไขเฉพาะจุด |
การให้เหตุผล: แบบสนทนา & มาสก์อัจฉริยะ |
|
เวิร์กโฟลว์ |
พื้นที่สร้างสรรค์เฉพาะ (แท็บ Images) |
ผสานในแชท Gemini |
|
การทำซ้ำ |
มีประสิทธิภาพ: สร้างใหม่บางส่วน |
รวดเร็ว: 4–6 วินาทีที่ 1K ปรับได้ผ่าน Thinking Mode |
|
การยึดโยงกับโลกจริง |
เหตุผลในตัวและความรู้ทันสมัย |
Image Search Grounding (ดึงอ้างอิงสดจาก Google Search) |
|
ความสอดคล้องข้ามหลายพาเนล |
แข็งแกร่งในลำดับภาพและชีตตัวละคร |
แข็งแกร่ง เน้นความคงตัวของตัวแบบ |
|
ข้อความหลายภาษา |
อัปเกรดใหญ่เหนือ 1.5; รองรับอักขระกว้างขวาง |
แข็งแกร่ง โดยเฉพาะภาษาจีนและเลย์เอาต์เอเชียตะวันออก |
|
ความละเอียดดีฟอลต์ |
มาตรฐาน + อัตราส่วนยืดหยุ่น |
2K เป็นดีฟอลต์ในแอป Gemini |
|
อีโคซิสเต็ม |
OpenAI & Azure |
สแตกของ Google / Gemini, Search, Lens |
ควรใช้ ChatGPT Images 2.0 หรือ Nano Banana 2 เมื่อไร
ใช้ ChatGPT Images 2.0 เมื่อ…
- ต้องการลูปแก้ไขแบบอ้างอิงภาพ. โมเดลยอมรับภาพอ้างอิงและปรับเปลี่ยนเฉพาะจุด (รายละเอียดพื้นผิว การแก้ตำแหน่ง การแก้อัตราส่วนภาพ) ข้ามรอบได้ โดยติดตามคำสั่งภาษาธรรมดาเพื่อบังคับทิศทางเอาต์พุตได้อย่างเชื่อถือ โดยไม่ต้องเริ่มใหม่ ซึ่งยังช่วยประหยัดโทเค็น
- กำลังแปลงอินพุตหยาบให้เป็นแอสเซ็ตที่ขัดเกลา. โหมดคิดจะแก้ความคลุมเครือของสเก็ตช์และคำสั่งเชิงพื้นที่ให้กลายเป็นองค์ประกอบสมจริงพร้อมวางองค์ประกอบตามที่ตั้งใจไว้เป๊ะ
- ความถูกต้องของข้อเท็จจริงภายในภาพมีความสำคัญ. การยึดโยงด้วยการค้นเว็บดึงข้อมูลสดและเรนเดอร์ให้ถูกต้องในภาพ ทำให้เชื่อถือได้สำหรับโปสเตอร์งาน อินโฟกราฟิกข่าว หรือภาพใด ๆ ที่ตัวเลขและชื่อจำเป็นต้องถูกต้อง อย่าลืมเปิดโหมดคิดเพื่อเปิดใช้งานการค้นเว็บ
ใช้ Nano Banana 2 เมื่อ…
- กำลังวางตัวแบบหรือสถานที่จริงเฉพาะเจาะจงลงในฉาก. Image Search Grounding ดึงภาพอ้างอิงสดจาก Google สร้างสถานที่จริงอย่างแม่นยำ (แม้ด้วยพิกัด GPS) และผสานกับตัวละครที่คงเอกลักษณ์ได้ในการสร้างครั้งเดียว
- ต้องคงเอกลักษณ์ข้ามตัวละครและวัตถุหลายชิ้นในเวิร์กโฟลว์เดียว. โมเดลรองรับตัวละครสูงสุดห้าตัวและอ้างอิงรวมสิบสี่รายการ (ตัวละคร + วัตถุ) ด้วยความสอดคล้องเข้มงวด เหมาะมากสำหรับสตอรีบอร์ด ภาพสินค้า หรือเรื่องเล่าหลายตัวละคร
- กำลังก่อสร้างงานในอีโคซิสเต็มของ Google. Nano Banana ผสานในแชท Gemini, Google Search, Google Ads, Firebase และ Vertex AI โดยตรง
ทั้งสองเป็นตัวเลือกที่ดีสำหรับการเรนเดอร์ข้อความในภาพ ขอบเขตเชิงสไตล์ และการแก้ไขแบบสนทนา
ข้อคิดส่งท้าย
กรอบความคิดแบบ “คู่คิดเชิงภาพ” ใช้ได้ – แต่เฉพาะเมื่อเปิดโหมดคิด หากปิด โมเดลจะลำบากกับตรรกะเชิงพื้นที่และความสมจริงแบบภาพถ่าย; หากเปิด มันจะแปลงอินพุตคลุมเครือให้กลายเป็นเอาต์พุตที่รู้สึกร่วมมือมากกว่ากลไก สองจุดที่โมเดลโดดเด่นแม้ปิดโหมดคิดคือความแท้เชิงสไตล์และความยืดหยุ่นของอัตราส่วนภาพ
การยึดโยงด้วยการค้นเว็บคือการอัปเกรดใหญ่ที่สุดเหนือ Images 1.5 ในการทดสอบบอสตันมาราธอน เราเห็นช่องว่างนี้ชัด: 2.0 ให้ข้อเท็จจริงถูกทั้งหมด ขณะที่ 1.5 ไม่อัปเดต สิ่งสำคัญคือต้องรู้ว่าการค้นเว็บทำงานได้เฉพาะเมื่อเปิดโหมดคิดเช่นกัน
อีกสิ่งที่พบคือรั้วกั้นด้านลิขสิทธิ์เข้มขึ้น และเห็นผล หากต้องการสร้างสไตล์ที่บริษัทหรือบุคคลใดขึ้นชื่อ ต้องก้าวเพิ่มเติมด้วยการจับแก่นของสไตล์นั้นแล้วบรรยายออกมา (ซึ่งทุกวันนี้ก็ไม่ยากนัก)
โดยรวม โมเดลนี้อัปเกรดจากรุ่นก่อนอย่างมีนัยสำคัญ และท้าทายสถานะของ Nano Banana 2 ในฐานะเครื่องมืออันดับหนึ่งด้านการสร้างและแก้ไขภาพด้วย AI
เพื่อใช้เครื่องมือเหล่านี้ให้เต็มประสิทธิภาพ ทักษะการเขียนพรอมป์ตเป็นสิ่งจำเป็น ขอแนะนำอย่างยิ่งให้เรียนคอร์ส Understanding Prompt Engineering และ Prompt Engineering with the OpenAI API สำหรับทั้งรากฐานเชิงทฤษฎีและปฏิบัติ