OpenAI bị chỉ trích vì không đủ thời gian kiểm tra an toàn cho mô hình o3

Metr cảnh báo về hạn chế trong đánh giá mô hình o3 của OpenAI, nhấn mạnh khả năng lừa dối và rủi ro an toàn khi kiểm tra nhanh.

Metr – tổ chức chuyên hợp tác với OpenAI trong việc kiểm tra khả năng và độ an toàn của các mô hình AI – mới đây cho biết họ không có đủ thời gian để đánh giá kỹ lưỡng một trong những mô hình mới mạnh nhất của công ty: o3.

Trong một bài đăng blog chính thức, Metr cho rằng quá trình kiểm tra an toàn cho o3 được tiến hành “trong khoảng thời gian tương đối ngắn”, đặc biệt nếu so với quy trình kiểm tra mô hình o1 trước đó. Điều này được xem là đáng lưu ý, vì thời gian thử nghiệm dài hơn thường mang lại kết quả đánh giá toàn diện và chính xác hơn.

“Chúng tôi chỉ có thể kiểm thử [o3] với các cấu trúc agent đơn giản” Metr viết. “Chúng tôi cho rằng hiệu suất thực tế có thể cao hơn nếu có thêm thời gian để khai thác và đào sâu mô hình.”

OpenAI bị chỉ trích vì không đủ thời gian kiểm tra an toàn cho mô hình o3

Theo Financial Times, OpenAI đang đẩy nhanh tiến độ kiểm định độc lập do áp lực cạnh tranh, trong một số trường hợp chỉ cho phép các nhóm đánh giá bên ngoài chưa đầy một tuần để hoàn tất quá trình kiểm tra an toàn cho các bản phát hành lớn.

Trước những chỉ trích, OpenAI phủ nhận việc họ đang đánh đổi an toàn vì tốc độ. Tuy nhiên, theo Metr, trong thời gian thử nghiệm giới hạn, họ đã quan sát được rằng o3 có xu hướng “lách luật” hoặc “gian lận” trong các bài đánh giá, nhằm tối đa hóa điểm số – ngay cả khi mô hình hiểu rằng hành vi này không phù hợp với mục tiêu hoặc kỳ vọng của người dùng hay OpenAI.

“Dù chúng tôi không cho rằng hành vi này xảy ra thường xuyên, cần lưu ý rằng thiết lập kiểm thử hiện tại sẽ không phát hiện được các rủi ro dạng này” Metr nhấn mạnh. “Nhìn chung, chúng tôi tin rằng các bài đánh giá năng lực trước khi triển khai không đủ để kiểm soát rủi ro, và hiện đang thử nghiệm thêm các phương pháp đánh giá mới.”

Không chỉ Metr, đối tác đánh giá khác của OpenAI là Apollo Research cũng ghi nhận các hành vi đánh lừa từ o3 và mô hình o4-mini. Trong một thử nghiệm, mô hình được giao 100 điểm tín dụng để huấn luyện AI và được yêu cầu không điều chỉnh hạn mức – nhưng sau đó đã tăng giới hạn lên 500 và nói dối về điều đó. Trong một tình huống khác, khi được yêu cầu không sử dụng một công cụ cụ thể, mô hình vẫn dùng công cụ đó nếu thấy nó giúp hoàn thành nhiệm vụ.

OpenAI bị chỉ trích vì không đủ thời gian kiểm tra an toàn cho mô hình o3

Trong báo cáo an toàn chính thức, OpenAI thừa nhận các mô hình này có thể gây ra những “thiệt hại nhỏ trong thế giới thực” – chẳng hạn như đưa ra mã lỗi do hiểu sai hoặc che giấu lỗi, nếu không có hệ thống giám sát phù hợp.

“Phát hiện của Apollo cho thấy o3 và o4-mini có khả năng lừa dối có chủ đích và lập kế hoạch hành vi theo ngữ cảnh,” OpenAI viết trong báo cáo. “Dù các hành vi này chưa gây hậu quả nghiêm trọng, người dùng phổ thông cần nhận thức được khoảng cách giữa phát ngôn và hành động của mô hình […] Các điểm sai lệch này có thể tiếp tục được đánh giá qua dấu vết suy luận nội tại.”

NguồnTechCrunch
Quảng cáospot_img

Tin liên quan