Courses
Gần như đúng một năm kể từ ngày phiên bản ChatGPT Images đầu tiên ra mắt với mô hình tên là GPT Image 1. Giờ đây OpenAI lại tiếp tục đại tu mô hình tạo ảnh, và công ty đang đưa ra ý tưởng mới rằng "trình tạo ảnh" giờ là một "đối tác tư duy trực quan".
Trong bài viết này, chúng tôi sẽ trình bày những điểm mới, so sánh với phiên bản tiền nhiệm ChatGPT Images 1.5, so sánh với Nano Banana 2 của Google, và chỉ ra nơi mô hình phát huy thế mạnh (và nơi chưa tốt).
ChatGPT Images 2.0 là gì?
ChatGPT Images 2.0 là mô hình tạo ảnh thế hệ tiếp theo của OpenAI. Nó được giới thiệu như một hệ thống có thể suy luận, nghiên cứu, rồi mới tiến hành dựng hình.
Có gì mới ở ChatGPT Images 2.0?
Một điểm đáng chú ý của ChatGPT Images 1.5 khi ra mắt là tốc độ cải thiện đáng kể. Khi đó thông báo nói nhanh gấp 4 lần. Chúng tôi thử kiểm chứng và thấy điều đó đúng với việc chỉnh sửa, không phải tạo ảnh mới.
Lần này, tuyên bố lớn là về trí tuệ. ChatGPT Images 2.0 là một mô hình tạo ảnh "biết suy nghĩ": được cho là có thể tìm kiếm, suy luận về dữ kiện, và chuyển các đầu vào thô (ghi chú, phác thảo, tài liệu tham chiếu) thành hình ảnh hoàn chỉnh với ít lời nhắc thủ công hơn nhiều.
Các chủ đề nổi bật khác trong thông báo gồm:
- Độ chính xác và kiểm soát cao hơn đối với quá trình tạo ảnh
- Hiệu suất mạnh hơn trên nhiều ngôn ngữ và hệ chữ viết
- Tính tinh tế về phong cách và mức độ hiện thực cao hơn
- Trí tuệ thế giới thực được tăng cường tích hợp trong mô hình
- Tỷ lệ khung hình linh hoạt cho mọi nhu cầu từ di động đến banner
Một mô hình biết suy nghĩ
Một trong những tuyên bố lớn là mô hình mới "biết suy nghĩ" và hoạt động như một "đối tác tư duy trực quan". Ý tưởng là các agent sẽ làm việc hậu trường để hiểu kỹ nhiệm vụ và suy luận trước khi thực thi yêu cầu tạo ảnh.
Hiểu biết về thế giới của mô hình đã được cập nhật đến mốc tháng 12 năm 2025, nên đầu ra chính xác ngữ cảnh hơn. Điều này được quảng bá là giúp mô hình mới rất phù hợp cho đồ họa giáo dục và các quy trình nhiều bước cần bối cảnh.
Tìm kiếm trên web
Để bắc cầu giữa mốc cắt dữ liệu và thông tin mới cập nhật, Images 2.0 có thể tìm kiếm web để thu thập thông tin liên quan. Chưa rõ từ ghi chú phát hành của OpenAI cơ chế hoạt động chính xác ra sao, nhưng theo chúng tôi hiểu, tìm kiếm web là một công cụ được agent suy nghĩ ở trên gọi tới.
Tạo nhiều ảnh từ một lời nhắc
Mô hình mới cũng hỗ trợ tạo nhiều ảnh từ cùng một lời nhắc một cách nguyên bản. Trước đây có thể làm điều này qua mẹo trong API (yêu cầu một "bố cục"), nhưng nay có thể làm ngay trên giao diện, tối đa mười ảnh. OpenAI hứa hẹn duy trì tính liên tục của nhân vật và đối tượng xuyên suốt các đầu ra đó.
Thử nghiệm ChatGPT Images 2.0
Đến lúc xem mô hình mới thực sự làm được gì! Chúng tôi đã kiểm thử các khả năng và tính năng sau của Images 2.0:
- Quy trình chỉnh sửa
- Chế độ suy nghĩ và tìm kiếm web
- Phạm vi phong cách
- Đánh bóng phác thảo thô
- Linh hoạt về tỷ lệ khung hình
- Tính sáng tạo
Thử nghiệm quy trình chỉnh sửa
Thông điệp của OpenAI cho 2.0 nhấn mạnh tính lặp: đầu vào thô, đầu ra tinh chỉnh, với khả năng tuân thủ hướng dẫn và dựng chữ dày đặc tốt hơn. Chúng tôi thử vòng lặp đó bằng một con tem nổi tiếng của Mỹ năm 1898 tên là Western Cattle in Storm.
Đây là ảnh một con tem ở tình trạng Fine.

Để kiểm thử riêng quy trình chỉnh sửa, chúng tôi dùng lời nhắc sau mà không bật chế độ suy nghĩ. Điều này cũng có nghĩa mô hình không truy cập tìm kiếm web, phần này chúng tôi kiểm thử riêng.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Và đây là kết quả:

Chỉ dùng văn bản để nhắc thì không hiệu quả. Mô tả chi tiết về con tem và cấp độ tình trạng bị sai ở hầu hết những điểm quan trọng — sai màu, sai bố cục mệnh giá, lệch tâm kiểu hoạt hình. Tái tạo một hiện vật lịch sử cụ thể chỉ từ văn bản là một yêu cầu khó.
Cung cấp ảnh tham chiếu cho mô hình và yêu cầu chỉnh sửa có mục tiêu mới là nơi 2.0 chứng tỏ giá trị: bất thường ở lỗ răng cưa, vết bản lề, nếp gập keo chéo, ám màu nhẹ, và dấu hủy một phần.
Các chỉnh sửa đạt gần đúng vị trí yêu cầu. Mô hình làm biến dạng tỷ lệ khung hình, nhưng một yêu cầu tiếp theo bằng ngôn ngữ tự nhiên đơn giản đã khắc phục. Kết quả cuối chưa đạt mức giám định — ký hiệu "$1" hơi bị kéo giãn, bắp ngô khác — nhưng vòng lặp đã hiệu quả: khởi đầu thô, hiệu chỉnh đúng hướng, có kết quả dùng được sau ba lượt.

Thử dựng chữ đa ngôn ngữ
Dựng chữ trong các hệ chữ không La-tinh là điểm yếu dai dẳng của các mô hình tạo ảnh, và OpenAI nêu rõ đây là lỗi trọng điểm đã được khắc phục. Bản phát hành chỉ ra khả năng tạo chữ độ trung thực cao bằng tiếng Nhật, Hàn, Trung, Hindi và Bengal — không chỉ dịch mà còn trình bày với bố cục mạch lạc và kiểu chữ mang cảm giác bản địa.
Một bài kiểm thử hợp lý là yêu cầu một áp phích hoặc infographic với một khối văn bản bằng một trong các hệ chữ này và nhờ người bản ngữ kiểm tra. Chúng tôi yêu cầu mô hình tạo một poster phong cách sống hiện đại bằng tiếng Nhật quảng cáo quán cà phê địa phương hư cấu và món latte hoa anh đào theo mùa.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
Đầu ra trông như sau:

Theo đồng nghiệp người Nhật của chúng tôi (cảm ơn Sven!), nó tốt hơn nhiều so với các mô hình trước, khi nhiều ký tự bị méo thành vô nghĩa. Ảnh này tự nhiên hơn và người bản ngữ có thể dễ dàng đọc được.
Ở chế độ suy nghĩ, nó thậm chí còn thêm một vài câu ngoài chỉ dẫn lời nhắc trên tấm bảng đen nhỏ ở góc dưới bên trái. Chúng phù hợp ngữ cảnh mà không lặp lại, dịch nôm na là “Hương vị theo mùa, dịu nhẹ. Hãy thư giãn — thưởng thức tách cà phê mang mùa xuân đến với bạn.”
Thử nghiệm chế độ suy nghĩ và tìm kiếm web
Chúng tôi phải cẩn trọng khi kiểm thử khả năng tìm kiếm web, bởi nếu bạn nói rõ mình muốn gì trong lời nhắc, bạn không kiểm thử tìm kiếm mà là kiểm thử khả năng tuân theo hướng dẫn. Bài kiểm thử gọn nhất là yêu cầu thứ gì đó rất mới và rất cụ thể, cung cấp gần như không có thông tin, và xem mô hình có điền đúng các chỗ trống hay không.
Chúng tôi chọn giải Boston Marathon hôm qua. Cuộc đua kết thúc vào thứ Hai, ngày 20 tháng 4 — một ngày trước khi ChatGPT Images 2.0 được công bố — và kỷ lục đường chạy của nam đã bị phá vỡ lần đầu kể từ 2011. Điều đó cung cấp một tập dữ kiện cụ thể (người thắng, quốc gia, thời gian, mức chênh lệch, bối cảnh) mà mô hình chắc chắn không có trong dữ liệu huấn luyện, nhưng có thể xác minh nhanh bằng tìm kiếm.
Đây là lời nhắc, cố ý bỏ bớt chi tiết. Và bạn có thể thấy trong kết quả rằng mô hình thực sự đã tìm kiếm web!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Kết quả trông rất bắt mắt và dùng đúng bảng màu của Boston Marathon, một điểm cộng thú vị. Mọi dữ kiện nêu ra đều chính xác, chúng tôi đã kiểm tra chéo và xác minh.
Điều này càng ấn tượng hơn khi so với đầu ra của mô hình cũ (Images 1.5) hoặc mô hình mới nhưng tắt chế độ suy nghĩ, với cùng lời nhắc:

Về phong cách, có thể cạnh tranh, nhưng có khá nhiều vấn đề liên quan đến con số.
- Cuộc đua vừa đánh dấu lần thứ 130 của Boston Marathon, nên phải là “129 năm truyền thống”, không phải 127.
- Khẳng định “vận động viên thứ 3 trong lịch sử chạy marathon dưới 2:04” cũng sai. Có khoảng 20 người đã làm được.
- Theo trang Boston Athletic Association, thời gian nửa sau của anh ấy là 1:00:02, không phải 1:01:05 (dù con số sau có thể vẫn là nửa sau nhanh nhất từ trước đến nay)
- Quan trọng nhất, ChatGPT Images đã nhầm thời gian kỷ lục mới và cũ. Kỷ lục cũ là 2:03:02; kỷ lục mới là 2:01:52. Chênh lệch là 1:10 phút.
- Vì John Korir cũng đã thắng Boston Marathon năm ngoái, có vẻ hợp lý khi cho rằng mô hình đã không nêu đúng tên nếu người thắng là người khác
Khả năng tìm kiếm tạo khác biệt khi cần trình bày trực quan thông tin hiện thời. Để sử dụng, cần bật chế độ suy nghĩ.
Thử nghiệm phạm vi phong cách
OpenAI quảng bá những tiến bộ thực sự về độ tinh tế phong cách — từ nhiếp ảnh, minh họa, manga, pixel art và các phong cách thị giác khác. Bài kiểm thử trung thực không phải là một ảnh đơn lẻ có đẹp không, mà là cùng một chủ thể được dựng ở ba phong cách khác nhau có chân thực với từng thể loại hay tất cả đều mang lớp phủ "AI" giống nhau bên dưới.
Để thử, chúng tôi yêu cầu ba phiên bản khác nhau của một máy pha espresso trên bàn gỗ (ảnh chụp, manga, pixel art). Dưới đây là lời nhắc và kết quả:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Đây là một kết quả thú vị, và khá mỉa mai nếu nhớ rằng Image 1 từng nổi tiếng với những montage phong cách Studio Ghibli mà ai cũng làm cách đây một năm (chúng tôi cũng thế). Có vẻ OpenAI đã cẩn trọng hơn về bản quyền và sở hữu trí tuệ kể từ đó.
Bằng cách mô tả phong cách của Katsuhiro Otomo mà không nêu đích danh, yêu cầu đã được chấp nhận. Lưu ý là chúng tôi phải mở một cuộc trò chuyện mới để yêu cầu này hoạt động. Trong cùng cuộc trò chuyện với lời nhắc ban đầu, có vẻ mô hình nhận ra chúng tôi đang cố lách chặn.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Theo chúng tôi, cả ba ảnh đều rất đẹp và thể hiện chân thực các phong cách rất cụ thể mà chúng tôi yêu cầu. Ảnh chụp trông rất tự nhiên, còn hai phiên bản kia có thể được lấy thẳng từ một cuốn manga hoặc trò chơi SNES tương ứng.
Một điều nữa dễ nhận thấy là mô hình đã tận dụng khả năng tỷ lệ khung hình linh hoạt để phù hợp với từng ảnh: 16:9 nằm ngang cho ảnh chụp, tỷ lệ dọc cho bản manga, và ảnh vuông cho pixel art.
Thử nghiệm tỷ lệ khung hình linh hoạt
Bản phát hành hỗ trợ tỷ lệ khung hình từ 3:1 đến 1:3 và độ phân giải tối đa 2K. Câu hỏi thú vị không phải là liệu nó có thể tạo ảnh cao hay rộng — mà là liệu mô hình tái bố cục thông minh giữa các định dạng hay chỉ cắt xén.
Để bộc lộ logic không gian nền tảng của mô hình, chúng ta cần một cảnh có những yếu tố riêng biệt, không thể thay đổi trên nhiều trục (một thứ cao, một thứ rộng và một chủ thể trung tâm).
Làm bài test, chúng tôi tạo chủ thể (một phi hành gia trong bối cảnh cụ thể) từ lời nhắc gốc, rồi yêu cầu mô hình tái tạo thành ảnh nền di động, banner và ảnh vuông để xem bố cục thích nghi ra sao.
Lời nhắc gốc:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Hãy xem nó thay đổi thế nào:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Mỗi phiên bản đều chọn một tỷ lệ khung hình phù hợp với yêu cầu, bao gồm tất cả yếu tố quan trọng (phi hành gia, xe tự hành, hành tinh), sắp xếp như lời nhắc gốc và đảm bảo căn giữa. Bài test vượt qua.
Thử nghiệm chuyển từ đầu vào thô sang đầu ra tinh chỉnh
Khung "đối tác tư duy" dựa trên việc mô hình tiếp nhận các đầu vào mơ hồ hoặc lộn xộn — một phác thảo thô, vài gạch đầu dòng, vài tài liệu tham chiếu — và biến chúng thành thành phẩm. Đây là vòng lặp mà bản phát hành thực sự xoay quanh, và đáng để kiểm thử trực tiếp nhất.
Để thử, chúng tôi tải lên phác thảo chì rất thô về một căn nhà gỗ gần hồ dưới đây:

Để làm khó, bản phác có khá nhiều chi tiết, dùng từ tiếng Phần Lan chỉ bến thuyền, “laituri”, và dễ gây nhầm lẫn vì cóhai kiểu công trình (nhà và cabin) và hai mặt nước (hồ và ao)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Kết quả khi tắt chế độ suy nghĩ trông ổn, nhưng chưa thật sự quang thực. Dù vậy, ánh sáng khá khớp, và hình ảnh nắm bắt đúng sắc thái của lời nhắc. Chúng ta thấy gần như tất cả các yếu tố từ phác thảo. Một vài chi tiết chưa đúng:
- Thiếu chiếc thuyền
- Bến thuyền nằm ở ao chứ không phải hồ
- Vị trí mặt trời không ở góc trên bên phải.
Khi thử cùng lời nhắc với cùng ảnh phác thảo nhưng bật chế độ suy nghĩ, đầu ra trông quang thực hơn nhiều và sửa mọi sai lệch nhỏ:

Ảnh chứa mọi yếu tố từ bản phác ở đúng vị trí, và trông rất chỉn chu. Kết luận chính ở đây là nên dùng chế độ suy nghĩ để có kết quả tốt nhất khi chuyển phác thảo thô thành ảnh quang thực.
Thử nghiệm tính sáng tạo
Ở bài test tiếp theo, chúng tôi muốn xem mô hình có thể tái tạo thơ cụ thể (concrete poetry) của Niikuni Seiichi hay không.
Bài thơ nổi tiếng này hiển thị chữ Hán Nhật nghĩa là mưa, bao quanh bởi mưa, giống như bắt được mưa trong ngôn ngữ vậy, theo cách chúng tôi cảm nhận.

Đây là lời nhắc của chúng tôi:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Và đây là đầu ra:

Bài này, theo chúng tôi, khá thú vị. Nó không tái tạo chính xác bức ảnh gốc, mà tạo nên một thứ khác cũng cuốn hút. Trong bố cục mới, chữ Hán cho “mưa” không bị bao quanh bởi mưa, mà đang rơi xuống như mưa. Bố cục các ký hiệu có vẻ rất ngẫu nhiên, đúng như kỳ vọng về những giọt mưa, nhưng lại tạo nên đối lập thú vị với bản gốc rất trật tự.
Tôi có thể truy cập ChatGPT Images 2.0 như thế nào?
Quyền truy cập theo cùng mô hình với bản trước. Nó giữ không gian sáng tạo dành riêng ra mắt hồi tháng 12 — trình chỉnh sửa dạng canvas, artifact lưu trữ, preset phong cách — và thay thế bằng một mô hình mạnh mẽ hơn nhiều ở bên dưới.
- Web, ứng dụng di động và Codex: ChatGPT Images 2.0 có sẵn trong thẻ Images cho người dùng Free, Plus và Pro, với hạn mức sử dụng tăng theo từng gói. Quyền truy cập cho Business và Enterprise thường theo sau đợt triển khai ban đầu.
- API: Nhà phát triển có thể dùng mô hình mới qua OpenAI API và Azure OpenAI Service, thông qua các endpoint tạo ảnh và chỉnh sửa. Giống 1.5, đầu ra ảnh được tính phí theo token, và tái tạo một phần khi chỉnh sửa giúp giảm chi phí hơn so với tái tạo toàn bộ ảnh mỗi lần.
ChatGPT Images 2.0 so với Nano Banana 2
Bạn có thể tự hỏi ChatGPT Images 2.0 so với Nano Banana 2 như thế nào. Cả hai đều mới, đều là trải nghiệm mặc định trong hệ sinh thái của mình, và đều được giới thiệu xoay quanh tốc độ, suy luận và trí tuệ thế giới thực.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Kiến trúc nền tảng |
GPT-Image-2 (kế nhiệm GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Mô hình chỉnh sửa |
Độ chính xác: chọn vùng & chỉnh sửa tại chỗ |
Suy luận: hội thoại & che mặt nạ thông minh |
|
Quy trình làm việc |
Không gian sáng tạo riêng (thẻ Images) |
Tích hợp trong chat Gemini |
|
Lặp và hiệu chỉnh |
Hiệu quả: tái tạo một phần |
Nhanh: 4–6 giây ở 1K, điều chỉnh qua Thinking Mode |
|
Bám sát thực tế |
Tích hợp suy luận và kiến thức cập nhật |
Image Search Grounding (lấy tham chiếu trực tiếp từ Google Search) |
|
Tính nhất quán đa khung |
Mạnh trên chuỗi ảnh và sheet nhân vật |
Mạnh, tập trung vào tính nhất quán chủ thể |
|
Chữ đa ngôn ngữ |
Nâng cấp lớn so với 1.5; hỗ trợ rộng các hệ chữ |
Mạnh, đặc biệt trong tiếng Trung và bố cục Đông Á |
|
Độ phân giải mặc định |
Chuẩn + tỷ lệ khung hình linh hoạt |
2K mặc định trong ứng dụng Gemini |
|
Hệ sinh thái |
OpenAI & Azure |
Google / hệ Gemini, Search, Lens |
Khi nào nên dùng ChatGPT Images 2.0 so với Nano Banana 2
Hãy dùng ChatGPT Images 2.0 khi…
- Bạn cần vòng lặp chỉnh sửa dựa trên tham chiếu. Mô hình nhận ảnh tham chiếu và áp dụng các thay đổi có mục tiêu (chi tiết bề mặt, hiệu chỉnh vị trí, sửa tỷ lệ khung hình) qua nhiều lượt, với các yêu cầu tiếp theo bằng ngôn ngữ tự nhiên định hướng đầu ra đáng tin cậy mà không phải làm lại từ đầu, đồng thời tiết kiệm token
- Bạn đang chuyển đầu vào thô thành tài sản hoàn chỉnh. Chế độ suy nghĩ chuyển hóa phác thảo mơ hồ và chỉ dẫn không gian thành bố cục quang thực, chính xác, với các yếu tố đặt đúng như dự định
- Độ chính xác về dữ kiện trong hình là then chốt. Tìm kiếm web kéo thông tin trực tiếp và hiển thị đúng ngay trong hình, phù hợp cho poster sự kiện, infographic tin tức, hay mọi nội dung thị giác nơi con số và tên gọi phải chuẩn. Hãy nhớ bật chế độ suy nghĩ để dùng tìm kiếm web
Hãy dùng Nano Banana 2 khi…
- Bạn cần đặt các chủ thể hoặc địa điểm thực tế cụ thể vào một cảnh. Image Search Grounding lấy tham chiếu hình ảnh trực tiếp từ Google, tái hiện chính xác địa điểm cụ thể (kể cả bằng toạ độ GPS) và kết hợp với nhân vật giữ nhất quán trong một lần tạo
- Bạn cần duy trì danh tính xuyên suốt nhiều nhân vật và đối tượng trong một quy trình. Mô hình hỗ trợ rõ ràng tối đa năm nhân vật và tổng cộng mười bốn tham chiếu (nhân vật + đối tượng) với tính nhất quán nghiêm ngặt. Điều này khiến nó phù hợp cho storyboard, ảnh sản phẩm, hoặc các câu chuyện đa nhân vật
- Bạn xây dựng trong hệ sinh thái Google. Nano Banana tích hợp nguyên bản trong chat Gemini, Google Search, Google Ads, Firebase và Vertex AI
Cả hai đều là lựa chọn ổn khi nói đến dựng chữ trong ảnh, phạm vi phong cách và chỉnh sửa theo hội thoại.
Kết luận
Khung “đối tác tư duy trực quan” tỏ ra đúng – nhưng chỉ khi bật chế độ suy nghĩ. Tắt chế độ này, mô hình gặp khó với logic không gian và tính quang thực; bật lên, nó chuyển các đầu vào mơ hồ thành đầu ra mang tính cộng tác hơn là máy móc. Hai mảng mô hình thể hiện tốt ngay cả khi tắt chế độ suy nghĩ là tính chân thực về phong cách và linh hoạt về tỷ lệ khung hình.
Tìm kiếm web có vẻ là nâng cấp lớn nhất so với Images 1.5. Ở bài test Boston Marathon, chúng tôi thấy rõ khoảng cách đó: 2.0 đưa ra mọi dữ kiện chính xác, trong khi 1.5 không cập nhật. Lưu ý quan trọng là tìm kiếm web chỉ hoạt động khi bật chế độ suy nghĩ.
Một phát hiện thú vị là rào chắn bản quyền chặt chẽ hơn, và điều đó thể hiện rõ. Nếu bạn muốn tái tạo một phong cách mà một công ty hoặc cá nhân được biết đến, bạn phải thực hiện bước bổ sung là xác định tinh túy phong cách của họ và mô tả lại (điều này, theo lập luận, ngày nay không quá khó).
Tổng thể, mô hình là một nâng cấp đáng kể so với phiên bản trước và thách thức vị thế số một của Nano Banana 2 trong lĩnh vực tạo và chỉnh sửa ảnh bằng AI.
Để tận dụng tối đa các công cụ như vậy, biết cách viết lời nhắc là kỹ năng thiết yếu. Chúng tôi rất khuyến nghị khóa học Understanding Prompt Engineering và Prompt Engineering with the OpenAI API để nắm vững cả lý thuyết lẫn thực hành.

Tôi là một cây bút và biên tập viên về khoa học dữ liệu, đã có bài đóng góp cho các nghiên cứu đăng trên tạp chí khoa học. Tôi đặc biệt quan tâm đến đại số tuyến tính, thống kê, R và các chủ đề tương tự. Tôi cũng chơi cờ vua khá thường xuyên!

Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.