ChatGPT Images 2.0: Hướng dẫn về mô hình tạo ảnh thế hệ tiếp theo của OpenAI

Khám phá cách ChatGPT Images 2.0 đưa việc tạo ảnh bước vào kỷ nguyên mới với suy luận theo bối cảnh đời thực mạnh mẽ, dựng chữ đa ngôn ngữ, phong cách hiện thực, và quy trình làm việc như một đối tác tư duy trực quan.

Đã cập nhật 24 thg 4, 2026 · 14 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Gần như đúng một năm kể từ ngày phiên bản ChatGPT Images đầu tiên ra mắt với mô hình có tên là GPT Image 1. OpenAI nay lại đại tu mô hình hình ảnh của mình, và công ty đang giới thiệu một ý tưởng mới rằng "trình tạo ảnh" giờ trở thành một "đối tác tư duy trực quan."

Trong bài viết này, chúng tôi sẽ xem có gì mới, so sánh với người tiền nhiệm ChatGPT Images 1.5, so sánh với Nano Banana 2 của Google, cũng như nơi mô hình thể hiện tốt (và nơi vẫn còn hạn chế).

Chúng tôi cũng khuyến nghị bạn xem hướng dẫn về LLM mới nhất của OpenAI, GPT-5.5.

ChatGPT Images 2.0 là gì?

ChatGPT Images 2.0 là mô hình hình ảnh thế hệ tiếp theo của OpenAI. Nó được mô tả là có thể suy luận, tìm hiểu, rồi mới dựng hình.

Có gì mới ở ChatGPT Images 2.0?

Một điểm đáng chú ý lớn khi phát hành ChatGPT Images 1.5 là tốc độ được cải thiện đáng kể. Lúc đó, OpenAI nói nhanh hơn 4 lần. Chúng tôi đã thử kiểm chứng và thấy điều đó đúng với thao tác chỉnh sửa, không phải khi tạo ảnh mới.

Lần này, tuyên bố lớn là về trí tuệ. ChatGPT Images 2.0 là một mô hình hình ảnh "biết suy nghĩ": được cho là có thể tìm kiếm, suy luận về các sự kiện, và chuyển các đầu vào thô (ghi chú, phác thảo, tài liệu tham chiếu) thành hình ảnh hoàn thiện với ít nhắc lệnh thủ công hơn nhiều.

Những điểm chính khác trong thông báo gồm:

Độ chính xác và khả năng kiểm soát cao hơn đối với quá trình tạo ảnh
Hiệu năng mạnh hơn trên nhiều ngôn ngữ và hệ chữ
Tính tinh tế về phong cách và hiện thực được nâng tầm
Khả năng hiểu biết bối cảnh đời thực được tích hợp sẵn
Tỷ lệ khung hình linh hoạt cho mọi thứ từ di động đến banner

Một mô hình biết suy nghĩ

Một trong những tuyên bố lớn là mô hình mới "biết suy nghĩ" và hoạt động như một "đối tác tư duy trực quan". Ý tưởng là các tác tử sẽ làm việc phía sau hậu trường để hiểu kỹ nhiệm vụ và suy luận trước khi thực thi yêu cầu tạo ảnh.

Kiến thức về thế giới của mô hình được cập nhật đến mốc tháng 12/2025, vì vậy đầu ra chính xác theo ngữ cảnh hơn. Điều này được quảng bá là giúp mô hình mới rất phù hợp cho đồ họa giáo dục và các quy trình đa bước cần bối cảnh.

Tìm kiếm trên web

Để thu hẹp khoảng cách giữa mốc cắt và thông tin cập nhật mới nhất, Images 2.0 có thể tìm kiếm web để lấy thông tin liên quan. Ghi chú phát hành của OpenAI không nêu rõ cơ chế, nhưng theo chúng tôi hiểu, tìm kiếm web hoạt động như một công cụ do tác tử tư duy nói trên gọi.

Tạo nhiều ảnh từ một lời nhắc

Mô hình mới hỗ trợ gốc việc tạo nhiều ảnh từ cùng một lời nhắc. Trước đây có thể làm qua một cách lách API (yêu cầu một "bộ bố cục"), còn giờ có thể thao tác ngay trong giao diện, tối đa mười ảnh. OpenAI hứa hẹn giữ được tính nhất quán nhân vật và đối tượng giữa các ảnh.

Kiểm thử ChatGPT Images 2.0

Đã đến lúc xem mô hình mới thực sự làm được gì! Chúng tôi đã thử nghiệm các khả năng và tính năng sau của Images 2.0:

Quy trình chỉnh sửa
Chế độ suy nghĩ và tìm kiếm web
Dải phong cách
Biến phác thảo thô thành bản hoàn thiện
Linh hoạt tỷ lệ khung hình
Sự sáng tạo

Kiểm thử quy trình chỉnh sửa

Thông điệp của OpenAI cho 2.0 nhấn vào tính lặp: đầu vào thô, đầu ra tài sản hoàn thiện, với khả năng làm theo hướng dẫn và dựng chữ dày đặc được cải thiện. Chúng tôi thử chu trình đó bằng một con tem bưu chính nổi tiếng của Mỹ năm 1898 có tên Western Cattle in Storm.

Đây là ảnh một con tem ở tình trạng Fine.

Để kiểm tra riêng quy trình chỉnh sửa, chúng tôi dùng lời nhắc sau mà không bật chế độ suy nghĩ. Điều này cũng có nghĩa là mô hình không có quyền truy cập tìm kiếm web, phần đó chúng tôi thử nghiệm riêng.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Và đây là kết quả:

Nhắc lệnh chỉ bằng văn bản không hiệu quả. Mô tả chi tiết về con tem và cấp độ tình trạng đã cho ra kết quả sai ở hầu hết điểm quan trọng — màu sai, bố cục mệnh giá sai, lệch tâm kiểu hoạt hình. Tái tạo một hiện vật lịch sử cụ thể chỉ từ văn bản là bài toán khó.

Cung cấp ảnh tham chiếu cho mô hình và yêu cầu chỉnh sửa có mục tiêu mới là nơi 2.0 phát huy: lỗi răng cưa, vết bản lề, nếp gấp keo chéo, ố nhẹ, và dấu hủy một phần.

Các chỉnh sửa đạt gần như đúng vị trí yêu cầu. Mô hình gây ra lỗi tỷ lệ khung hình, nhưng một yêu cầu bổ sung bằng ngôn ngữ tự nhiên đã khắc phục. Kết quả cuối chưa đạt mức giám định — ký hiệu "$1" hơi bị kéo giãn, ngô thì khác — nhưng vòng lặp đã hoạt động: khởi đầu thô, hiệu chỉnh lộ trình, kết quả dùng được sau ba lượt.

Kiểm thử dựng chữ đa ngôn ngữ

Dựng chữ ở các hệ chữ ngoài Latin là điểm yếu kéo dài của các mô hình hình ảnh, và OpenAI nhấn mạnh đây là điểm đã được khắc phục. Bản phát hành nêu rõ khả năng tạo văn bản trung thực cao bằng tiếng Nhật, Hàn, Trung, Hindi và Bengali — không chỉ dịch đúng, mà còn dàn trang mạch lạc và cảm giác kiểu chữ như bản địa.

Một phép thử công bằng là yêu cầu tờ áp phích hoặc infographic có một khối văn bản bằng một trong các hệ chữ này và kiểm tra đầu ra với người bản ngữ. Chúng tôi yêu cầu mô hình tạo một poster phong cách sống hiện đại bằng tiếng Nhật quảng cáo quán cà phê địa phương hư cấu và món latte hoa anh đào theo mùa.

「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体（sans-serif）。

テキスト内容：
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』

テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」

Đây là đầu ra trông như sau:

Theo đồng nghiệp người Nhật của chúng tôi (cảm ơn Sven!), kết quả trông tốt hơn nhiều so với các mô hình trước, khi nhiều ký tự bị méo mó vô nghĩa. Ảnh này tự nhiên hơn và người bản ngữ có thể đọc dễ dàng.

Khi bật chế độ suy nghĩ, mô hình thậm chí còn thêm vài câu vượt ngoài chỉ dẫn lời nhắc trên tấm bảng phấn nhỏ ở góc trái dưới. Chúng phù hợp ngữ cảnh mà không lặp lại, dịch đại ý là “Hương vị theo mùa, dịu nhẹ. Hãy thư giãn — thưởng thức một tách mang mùa xuân đến với bạn.”

Kiểm thử chế độ suy nghĩ và tìm kiếm web

Chúng tôi phải cẩn trọng khi thử khả năng tìm kiếm web, vì nếu bạn nói rõ trong lời nhắc mình muốn gì, bạn không còn thử tìm kiếm mà chỉ thử khả năng làm theo hướng dẫn. Bài kiểm thử gọn nhất là yêu cầu thứ gì đó rất mới và rất cụ thể, cung cấp gần như không có thông tin, và xem mô hình có điền đúng các chỗ trống không.

Chúng tôi chọn Boston Marathon ngày hôm qua. Cuộc đua kết thúc vào thứ Hai, ngày 20/4 — ngay trước ngày công bố ChatGPT Images 2.0 — và kỷ lục đường chạy nam bị phá lần đầu kể từ 2011. Điều đó mang lại một tập hợp dữ kiện cụ thể (người thắng, quốc gia, thời gian, biên độ, bối cảnh) mà mô hình không thể có từ huấn luyện, nhưng dễ xác minh bằng tìm kiếm nhanh.

Đây là lời nhắc, cố tình lược bỏ chi tiết. Và bạn có thể thấy trong kết quả là mô hình thực sự đã tìm kiếm web!

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Kết quả trông rất bắt mắt và dùng tông màu nhận diện của Boston Marathon, một điểm cộng thú vị. Tất cả dữ kiện được nêu đều chính xác, chúng tôi đã kiểm tra và xác minh.

Vì mô hình cũ (Images 1.5) không thể tìm kiếm web, chúng tôi chắc rằng mô hình cũ sẽ trả lời sai. Dù vậy, chúng tôi vẫn thử với cùng lời nhắc, và đây là kết quả:

Về phong cách thì có thể cạnh tranh, nhưng có khá nhiều vấn đề liên quan đến con số:

Đây là lần thứ 130 của Boston Marathon, nên phải ghi là “129 năm truyền thống”, không phải 127.
Tuyên bố “vận động viên thứ 3 trong lịch sử chạy dưới 2:04 ở marathon” cũng sai. Có khoảng 20 người đã làm được.
Theo trang Boston Athletic Association, thời gian nửa sau của anh ấy là 1:00:02, không phải 1:01:05 (dù con số này có thể vẫn là nửa sau nhanh nhất từng có)
Quan trọng nhất, ChatGPT Images nhầm thời gian kỷ lục mới và cũ. Kỷ lục cũ là 2:03:02; kỷ lục mới là 2:01:52. Chênh lệch là 1:10 phút. Ngoài ra, 2:03:02 cũng không phải thời gian chính xác.

Khả năng tìm kiếm tạo khác biệt khi cần trình bày trực quan thông tin cập nhật. Để sử dụng, cần bật chế độ suy nghĩ.

Kiểm thử dải phong cách

OpenAI quảng bá tiến bộ rõ rệt về độ tinh tế phong cách — từ nhiếp ảnh, minh họa, manga, pixel art, đến các phong cách khác. Phép thử trung thực không phải xem từng ảnh riêng lẻ có đẹp không, mà là cùng một chủ thể được dựng ở ba phong cách khác nhau có mang cảm giác chân thực với từng thể loại, hay mọi thứ vẫn có “lớp bóng” AI giống nhau bên dưới.

Để thử, chúng tôi yêu cầu ba phiên bản khác nhau của một máy pha espresso trên bàn gỗ (nhiếp ảnh, manga, pixel art). Đây là lời nhắc và kết quả:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Đây là kết quả thú vị và khá mỉa mai, nếu nhớ rằng Image 1 nổi tiếng nhờ các montage phong cách Studio Ghibli mà nhiều người đã làm năm ngoái (cả chúng tôi). Có vẻ OpenAI đã thận trọng hơn với bản quyền và sở hữu trí tuệ kể từ đó.

Bằng cách mô tả phong cách của Katsuhiro Otomo mà không nêu tên trực tiếp, yêu cầu đã hoạt động. Lưu ý là chúng tôi phải mở một cuộc trò chuyện mới để thực hiện. Trong cùng cuộc trò chuyện với lời nhắc gốc, có vẻ mô hình nhận ra chúng tôi đang cố vượt rào cản.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Theo chúng tôi, cả ba ảnh đều rất đẹp và thể hiện đúng xác thực các phong cách cụ thể đã yêu cầu. Ảnh chụp trông rất tự nhiên, và hai phiên bản còn lại có thể lấy thẳng từ một cuốn manga hoặc trò chơi SNES.

Một điểm khác dễ thấy là mô hình đã dùng khả năng linh hoạt tỷ lệ khung hình để tùy biến cho từng ảnh: 16:9 ngang cho ảnh chụp, dọc cho bản manga, và vuông cho pixel art.

Kiểm thử tỷ lệ khung hình linh hoạt

Bản phát hành hỗ trợ tỷ lệ khung từ 3:1 đến 1:3 và độ phân giải đến 2K. Câu hỏi thú vị không phải là có tạo được ảnh cao hoặc rộng không — mà là mô hình tái bố cục thông minh giữa các định dạng hay chỉ cắt cúp.

Để bộc lộ logic không gian bên dưới, chúng ta cần một cảnh có các yếu tố riêng biệt, bắt buộc trên nhiều trục (một thứ cao, một thứ rộng, và một chủ thể trung tâm).

Làm bài thử, chúng tôi tạo chủ thể (một phi hành gia trong bối cảnh cụ thể) từ lời nhắc gốc, rồi yêu cầu mô hình tái tạo nó thành hình nền di động, banner, và ảnh vuông để xem bố cục thích ứng ra sao.

Lời nhắc gốc:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Hãy xem nó thay đổi thế nào:

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Mỗi phiên bản đều chọn tỷ lệ khung phù hợp với yêu cầu, bao gồm đủ các yếu tố quan trọng (phi hành gia, xe thăm dò, hành tinh), sắp đặt như chúng tôi yêu cầu trong lời nhắc gốc và đảm bảo căn giữa. Bài test vượt qua.

Kiểm thử từ đầu vào thô đến đầu ra hoàn thiện

Khung "đối tác tư duy" dựa trên việc mô hình tiếp nhận đầu vào mơ hồ hoặc lộn xộn — bản phác thảo thô, ghi chú gạch đầu dòng, vài tài liệu tham chiếu — và biến thành tài sản hoàn chỉnh. Đây là vòng lặp mà bản phát hành thật sự xoay quanh, và là phần đáng để thử trực tiếp nhất.

Để thử, chúng tôi tải lên bản phác thảo bút chì rất thô của một căn nhà gỗ bên hồ:

Để tăng độ khó, bản phác có khá nhiều chi tiết, dùng từ Phần Lan chỉ cầu tàu, “laituri”, và dễ gây nhầm lẫn vì có hai kiểu công trình (nhà và cabin) và hai mặt nước (hồ và ao)

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Kết quả khi không bật chế độ suy nghĩ trông ổn, nhưng chưa thật sự như ảnh thật. Dù vậy, ánh sáng rất phù hợp và bức ảnh nắm bắt được tinh thần của lời nhắc. Chúng ta thấy gần như toàn bộ yếu tố trong phác thảo. Một vài chi tiết chưa đúng:

Thiếu chiếc thuyền
Cầu tàu nằm ở ao, không phải hồ
Vị trí mặt trời không ở góc trên bên phải.

Khi thử cùng lời nhắc với cùng ảnh phác thảo ở chế độ suy nghĩ, đầu ra trông chân thực hơn nhiều và sửa các lệch nhỏ:

Bức ảnh chứa mọi yếu tố từ bản phác ở đúng vị trí định sẵn và rất chỉn chu. Kết luận chính là hãy bật chế độ suy nghĩ để có kết quả tốt nhất khi biến phác thảo thô thành ảnh chân thực.

Kiểm thử sự sáng tạo

Ở bài thử tiếp theo, chúng tôi muốn xem liệu mô hình có thể tái hiện thơ cụ thể (concrete poetry) của Niikuni Seiichi hay không.

Bài thơ nổi tiếng này hiển thị chữ Hán Nhật nghĩa là mưa, được bao quanh bởi mưa, như thể bắt lấy mưa trong ngôn ngữ.

Đây là lời nhắc của chúng tôi:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

Và đây là đầu ra:

Điều này, theo chúng tôi, khá thú vị. Nó không tái tạo y nguyên bức ảnh, mà tạo thứ khác đầy gợi mở. Trong bố cục mới, chữ Hán “mưa” không bị bao quanh bởi mưa, mà nó rơi xuống như mưa. Sự sắp xếp các ký hiệu có vẻ rất ngẫu nhiên, đúng như mong đợi của giọt mưa, và tạo tương phản đẹp với bản gốc rất trật tự.

Tôi có thể truy cập ChatGPT Images 2.0 như thế nào?

Quyền truy cập theo cùng mẫu như bản trước. Nó giữ không gian làm việc sáng tạo chuyên dụng giới thiệu từ tháng 12 — trình chỉnh sửa dạng canvas, hiện vật lưu giữ, preset phong cách — và thay thế bằng mô hình mạnh mẽ hơn đáng kể bên dưới.

Web, ứng dụng di động, và Codex: ChatGPT Images 2.0 có trong tab Images cho người dùng Free, Plus, và Pro, với giới hạn sử dụng theo từng gói. Quyền truy cập Business và Enterprise thường theo sau giai đoạn triển khai ban đầu.
API: Nhà phát triển có thể dùng mô hình mới qua OpenAI API và Azure OpenAI Service, thông qua các endpoint tạo và chỉnh sửa ảnh. Tương tự 1.5, đầu ra ảnh tính phí theo token, và tái tạo một phần khi chỉnh sửa giúp chi phí thấp hơn so với tái tạo toàn bộ mỗi lần.

ChatGPT Images 2.0 so với Nano Banana 2

Bạn có thể thắc mắc ChatGPT Images 2.0 so với Nano Banana 2 ra sao. Cả hai đều mới, đều là trải nghiệm mặc định trong hệ sinh thái tương ứng, và đều được giới thiệu xoay quanh tốc độ, suy luận, và hiểu biết đời thực.

	ChatGPT Images 2.0	Nano Banana 2
Kiến trúc nền tảng	GPT-Image-2 (kế nhiệm GPT-Image-1.5)	Gemini 3.1 Flash
Mô hình chỉnh sửa	Độ chính xác: chọn vùng & chỉnh sửa tại chỗ	Suy luận: đối thoại & che mặt nạ thông minh
Quy trình làm việc	Không gian sáng tạo chuyên dụng (tab Images)	Tích hợp trong chat Gemini
Lặp và chỉnh	Hiệu quả: tái tạo một phần	Nhanh: 4–6s ở 1K, tinh chỉnh qua Thinking Mode
Gắn với đời thực	Suy luận tích hợp và kiến thức cập nhật	Image Search Grounding (lấy tham chiếu trực tiếp từ Google Search)
Tính nhất quán đa khung	Mạnh trên chuỗi ảnh và bảng nhân vật	Mạnh, tập trung duy trì nhất quán chủ thể
Văn bản đa ngôn ngữ	Nâng cấp lớn so với 1.5; hỗ trợ rộng hệ chữ	Mạnh, đặc biệt ở tiếng Trung và bố cục Đông Á
Độ phân giải mặc định	Chuẩn + tỷ lệ khung linh hoạt	Mặc định 2K trong ứng dụng Gemini
Hệ sinh thái	OpenAI & Azure	Google / hệ sinh thái Gemini, Search, Lens

Khi nào nên dùng ChatGPT Images 2.0 so với Nano Banana 2

Hãy dùng ChatGPT Images 2.0 khi…

Bạn cần vòng lặp chỉnh sửa dựa trên tham chiếu. Mô hình nhận ảnh tham chiếu và áp dụng thay đổi có mục tiêu (chi tiết chất liệu, điều chỉnh vị trí, sửa tỷ lệ khung) qua nhiều lượt, với các nhắc lệnh bằng ngôn ngữ tự nhiên dẫn hướng đầu ra ổn định mà không phải làm lại từ đầu, đồng thời giúp tiết kiệm token
Bạn đang biến đầu vào thô thành tài sản hoàn chỉnh. Chế độ suy nghĩ chuyển hóa phác thảo mơ hồ và chỉ dẫn không gian thành bố cục chính xác, chân thực, với các yếu tố được đặt đúng như dự định
Tính chính xác về dữ kiện trong ảnh là tối quan trọng. Gắn kết tìm kiếm web lấy thông tin thời gian thực và thể hiện chính xác ngay trong ảnh, giúp tin cậy cho poster sự kiện, infographic tin tức, hoặc bất kỳ hình ảnh nào cần đúng số liệu và tên. Hãy nhớ bật chế độ suy nghĩ để kích hoạt tìm kiếm web

Hãy dùng Nano Banana 2 khi…

Bạn cần đặt các chủ thể hay địa điểm thực vào một cảnh. Image Search Grounding lấy tham chiếu trực quan trực tiếp từ Google, tái tạo chính xác địa điểm cụ thể (thậm chí theo tọa độ GPS) và kết hợp với nhân vật nhất quán chủ thể trong một lần tạo
Bạn cần duy trì danh tính trên nhiều nhân vật và đối tượng trong một quy trình. Mô hình hỗ trợ rõ ràng tối đa năm nhân vật và mười bốn tham chiếu tổng (nhân vật + đối tượng) với tính nhất quán nghiêm ngặt. Điều này khiến nó phù hợp cho storyboard, ảnh sản phẩm, hoặc câu chuyện đa nhân vật
Bạn xây dựng trong hệ sinh thái Google. Nano Banana tích hợp gốc vào chat Gemini, Google Search, Google Ads, Firebase, và Vertex AI

Cả hai đều là lựa chọn tốt cho dựng chữ trong ảnh, dải phong cách, và chỉnh sửa đối thoại.

Tổng kết

Khung “đối tác tư duy trực quan” đứng vững — nhưng chỉ khi bật chế độ suy nghĩ. Không có nó, mô hình gặp khó với logic không gian và tính chân thực; khi bật, nó biến đầu vào mơ hồ thành đầu ra mang cảm giác cộng tác thay vì cơ học. Hai lĩnh vực mô hình tỏa sáng ngay cả khi không bật chế độ suy nghĩ là tính xác thực phong cách và linh hoạt tỷ lệ khung hình.

Gắn kết tìm kiếm web là nâng cấp lớn nhất so với Images 1.5. Ở bài thử Boston Marathon, chúng tôi thấy rõ khoảng cách đó: 2.0 đưa ra mọi thông tin đúng, trong khi 1.5 không cập nhật. Cũng cần biết rằng tìm kiếm web chỉ hoạt động khi bật chế độ suy nghĩ.

Một phát hiện thú vị là các rào chắn bản quyền chặt chẽ hơn, và điều đó thể hiện rõ. Nếu bạn muốn tái tạo phong cách mà một công ty hay cá nhân nổi tiếng, bạn cần bước bổ sung là xác định tinh túy phong cách của họ và mô tả lại (điều này, thực ra, nay khá dễ).

Tổng thể, mô hình là nâng cấp đáng kể so với phiên bản trước và thách thức vị thế số một của Nano Banana 2 trong mảng tạo và chỉnh sửa ảnh bằng AI.

Để tận dụng tối đa các công cụ như vậy, biết cách nhắc lệnh là kỹ năng thiết yếu. Chúng tôi rất khuyến nghị bạn học các khóa Understanding Prompt Engineering và Prompt Engineering with the OpenAI API để nắm vững cả lý thuyết lẫn thực hành.

Author

Josef Waples

Author

Tom Farnschläder

Chủ đề

ChatGPT

Học cùng DataCamp

Courses

Tìm hiểu kỹ thuật viết lệnh (Prompt Engineering)

1 giờ

211.5K

Học cách viết prompt hiệu quả với ChatGPT để áp dụng ngay vào quy trình làm việc của bạn.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

ChatGPT Trung cấp

1 giờ

30.4K

Tìm hiểu kiến trúc đằng sau các mô hình GPT và thành thạo kỹ năng soạn thảo lời nhắc nâng cao để khai thác hết tiềm năng của ChatGPT.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Làm sạch dữ liệu với Generative AI

1 giờ

13.7K

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.

Matt Crabtree

10 phút

Xem Thêm Xem Thêm

ChatGPT Images 2.0 là gì?

Có gì mới ở ChatGPT Images 2.0?

Một mô hình biết suy nghĩ

Tìm kiếm trên web

Tạo nhiều ảnh từ một lời nhắc

Kiểm thử ChatGPT Images 2.0

Kiểm thử quy trình chỉnh sửa

Kiểm thử dựng chữ đa ngôn ngữ

Kiểm thử chế độ suy nghĩ và tìm kiếm web

Kiểm thử dải phong cách

Kiểm thử tỷ lệ khung hình linh hoạt

Kiểm thử từ đầu vào thô đến đầu ra hoàn thiện

Kiểm thử sự sáng tạo

Tôi có thể truy cập ChatGPT Images 2.0 như thế nào?

ChatGPT Images 2.0 so với Nano Banana 2

Khi nào nên dùng ChatGPT Images 2.0 so với Nano Banana 2

Tổng kết

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Tìm hiểu kỹ thuật viết lệnh (Prompt Engineering)

ChatGPT Trung cấp

Làm sạch dữ liệu với Generative AI

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Tìm hiểu kỹ thuật viết lệnh (Prompt Engineering)