OpenAI vừa công bố một công cụ mới mang tên Operator, cho phép AI tự động điều hướng và thực hiện các tác vụ trong trình duyệt web. Theo thông tin từ OpenAI, Operator được vận hành bởi hệ thống Computer-Using Agent (CUA). Đây là mô hình được huấn luyện để tương tác với các giao diện đồ họa người dùng (GUIs) – bao gồm các nút, menu và trường văn bản – tương tự cách con người thao tác. Điều này giúp Operator thực hiện các nhiệm vụ kỹ thuật số mà không cần dùng đến API cụ thể của hệ điều hành hay trình duyệt.
Công nghệ tiên tiến dựa trên GPT-4o
Operator được xây dựng trên nền tảng của GPT-4o, tích hợp khả năng xử lý hình ảnh cùng với “lập luận nâng cao” được huấn luyện thông qua học tăng cường (reinforcement learning). Công cụ này có thể phân tích nhiệm vụ thành các bước nhỏ và tự động sửa lỗi khi gặp vấn đề. Theo OpenAI, đây là một trong những bước tiến quan trọng trong quá trình phát triển AI.
Dù vậy, Operator vẫn đang trong giai đoạn thử nghiệm và còn nhiều hạn chế. Công cụ này có thể không hoạt động ổn định trong một số tình huống phức tạp. Người dùng được khuyến nghị cung cấp các hướng dẫn chi tiết để Operator hoạt động tốt hơn. Trong trường hợp gặp khó khăn, Operator sẽ tự động trả quyền kiểm soát lại cho người dùng. Đặc biệt, công cụ này được thiết kế để từ chối các yêu cầu gây hại và bảo vệ thông tin nhạy cảm như tài khoản đăng nhập.
Khả năng sử dụng và tích hợp
Hiện tại, Operator chỉ được cung cấp cho người dùng gói ChatGPT Pro với giá 200 USD/tháng. OpenAI cũng đang hợp tác với các nền tảng như Instacart để tích hợp tính năng này. Tuy nhiên, việc trải nghiệm Operator trên các nền tảng này vẫn yêu cầu người dùng đăng ký gói ChatGPT Pro.
Mở rộng hệ sinh thái AI đa nhiệm
Operator là một phần trong hệ sinh thái AI ngày càng phát triển, nơi nhiều công cụ có khả năng điều hướng trình duyệt web hoặc toàn bộ hệ điều hành. Trước đó, Anthropic đã ra mắt khả năng này thông qua mô hình Claude 3.5 Sonnet vào tháng 10. Google cũng nhanh chóng tham gia với mô hình Gemini 2.0 và dự án Mariner, cung cấp các tính năng tương tự.