OpenAI chính thức giới thiệu tính năng mới mang tên Images in ChatGPT, cho phép người dùng tạo hình ảnh ngay bên trong giao diện trò chuyện ChatGPT thông qua mô hình GPT-4o. Đây là lần đầu tiên người dùng có thể tạo ảnh trực tiếp mà không cần chuyển sang công cụ riêng như DALL-E trước đây.
Tạo ảnh trực tiếp bằng GPT-4o, hỗ trợ cả gói miễn phí
Tính năng “Images in ChatGPT” bắt đầu được triển khai từ hôm nay cho tất cả các nhóm người dùng, bao gồm cả gói miễn phí, ChatGPT Plus, Pro và Team. Mặc dù người dùng miễn phí được hỗ trợ, OpenAI vẫn giới hạn số lần sử dụng tương tự như trước kia với DALL-E.

Theo bà Taya Christianson, người phát ngôn của OpenAI, người dùng gói miễn phí sẽ có hạn mức sử dụng giống như DALL-E 3 – tức khoảng 3 hình ảnh mỗi ngày theo thông tin trong phần FAQ của ChatGPT. Tuy nhiên, con số này có thể thay đổi theo thời gian, tùy vào nhu cầu thực tế và khả năng xử lý của hệ thống.
Bà cũng cho biết những người yêu thích DALL-E vẫn có thể tiếp tục sử dụng thông qua GPT tùy chỉnh, tức các phiên bản Custom GPT có tích hợp sẵn khả năng tạo ảnh theo phong cách DALL-E.
Ứng dụng GPT-4o omnimodal để tạo ảnh thông minh hơn
Tính năng tạo ảnh mới của ChatGPT được xây dựng dựa trên mô hình GPT-4o, một phiên bản trí tuệ nhân tạo đa phương thức (omnimodal) có thể xử lý nhiều loại dữ liệu như văn bản, hình ảnh, âm thanh và video.
Ông Gabriel Goh, trưởng nhóm nghiên cứu tại OpenAI, gọi đây là “một bước tiến vượt bậc” so với các mô hình hình ảnh trước đó. Sức mạnh của GPT-4o không chỉ nằm ở khả năng tạo ảnh, mà còn ở cách mô hình xử lý chính xác thông tin phức tạp trong một yêu cầu tạo hình.
Cải thiện đáng kể khả năng nhận diện đối tượng và đặc tính
Một cải tiến quan trọng được nhấn mạnh là khả năng “binding” – tức khả năng duy trì mối quan hệ chính xác giữa các thuộc tính và đối tượng trong ảnh. Điều này giúp mô hình tạo ra hình ảnh đúng với yêu cầu phức tạp hơn, ví dụ: tạo hình ngôi sao màu xanh và hình tam giác màu đỏ – thay vì nhầm thành ngôi sao đỏ hoặc bỏ sót đối tượng.
Theo ông Goh, hầu hết các mô hình hiện tại chỉ xử lý chính xác được khoảng 5–8 đối tượng có đặc điểm khác nhau. Nhưng với GPT-4o, khả năng này đã được nâng lên đến 15–20 đối tượng mà vẫn giữ đúng đặc điểm, không gây nhầm lẫn màu sắc, hình dạng hay vị trí.
Hình ảnh mô phỏng khả năng binding: các hình khối, màu sắc, chữ viết và con số đều được thể hiện chính xác trong cùng một khung hình
Tính năng này mở ra nhiều tiềm năng mới trong việc sử dụng AI tạo ảnh cho giáo dục, thiết kế, truyền thông thị giác và cả lập trình sáng tạo.