OpenAI cho biết họ vừa triển khai một hệ thống giám sát mới nhằm kiểm soát các mô hình suy luận AI mới nhất – o3 và o4-mini – đối với các nội dung liên quan đến rủi ro sinh học và hóa học. Mục tiêu là ngăn chặn mô hình đưa ra các hướng dẫn có thể bị kẻ xấu lợi dụng để thực hiện hành vi tấn công nguy hiểm.
Theo báo cáo an toàn mới được công bố, o3 và o4-mini là bước tiến đáng kể so với các phiên bản trước đó, nhưng cũng tiềm ẩn nguy cơ bị khai thác để tạo ra thông tin nhạy cảm, đặc biệt trong lĩnh vực vũ khí sinh học. OpenAI đã phát triển một hệ thống được gọi là “trình giám sát suy luận tập trung vào an toàn” nhằm nhận diện các prompt nguy hiểm và yêu cầu mô hình từ chối phản hồi.
Hệ thống này được huấn luyện riêng để hiểu và áp dụng các chính sách nội dung của OpenAI, hoạt động ngay trên nền tảng của các mô hình o3 và o4-mini. Để xây dựng cơ sở dữ liệu ban đầu, đội ngũ red team đã dành khoảng 1,000 giờ để gắn cờ các cuộc hội thoại liên quan đến rủi ro sinh học. Trong thử nghiệm mô phỏng cơ chế chặn của hệ thống giám sát, các mô hình đã từ chối phản hồi với tỷ lệ lên đến 98.7%.
Dù vậy, OpenAI thừa nhận rằng kết quả thử nghiệm không bao gồm trường hợp người dùng cố tình thử lại với biến thể khác của prompt, vì vậy công ty vẫn sẽ tiếp tục sử dụng hình thức giám sát thủ công để hỗ trợ.
Theo OpenAI, các mô hình o3 và o4-mini chưa đạt ngưỡng “rủi ro cao” đối với rủi ro sinh học. Tuy nhiên, so với GPT-4 hay o1, các phiên bản đầu của o3 và o4-mini được đánh giá là hiệu quả hơn trong việc trả lời các câu hỏi liên quan đến phát triển vũ khí sinh học – điều khiến cơ chế giám sát mới trở nên cần thiết.

OpenAI cho biết họ đang theo dõi sát sao cách mà các mô hình mới có thể vô tình tạo điều kiện cho người dùng xấu phát triển các mối đe dọa sinh học hoặc hóa học, theo khuôn khổ được cập nhật gần đây trong tài liệu Preparedness Framework.
Cơ chế giám sát này cũng đang được áp dụng cho các mô hình khác. Ví dụ, để ngăn trình tạo ảnh gốc của GPT-4o tạo ra nội dung liên quan đến lạm dụng trẻ em (CSAM), OpenAI đã triển khai hệ thống giám sát suy luận tương tự nhằm phát hiện và chặn các prompt vi phạm.
Tuy nhiên, một số chuyên gia đã bày tỏ lo ngại rằng OpenAI chưa đặt mức ưu tiên cao nhất cho an toàn. Metr – một đối tác trong chương trình red team – cho biết họ chỉ có rất ít thời gian để thử nghiệm o3 trên bộ tiêu chuẩn về hành vi đánh lừa. Đáng chú ý, OpenAI cũng đã quyết định không công bố báo cáo an toàn cho phiên bản GPT-4.1 mới được phát hành trong tuần này.