OpenAI gặp khó khi ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn

OpenAI vừa công bố O3 và O4-mini, hai mô hình AI mới sở hữu khả năng tư duy logic, nhưng gặp vấn đề nghiêm trọng về độ chính xác và tần suất ảo giác.

OpenAI vừa ra mắt hai mô hình AI mới là O3O4-mini, được thiết kế đặc biệt để xử lý các tác vụ đòi hỏi tư duy logic. Tuy nhiên, theo các bài kiểm tra nội bộ, hai mô hình này lại có xu hướng tạo ra thông tin sai lệch (hay còn gọi là “ảo giác”) với tần suất cao hơn cả các mô hình trước đó như GPT-4o.

Hiện tượng ảo giác vẫn là một trong những vấn đề nan giải nhất trong ngành AI. Các mô hình mới thường cải thiện phần nào về độ chính xác, nhưng O3 và O4-mini lại đi ngược xu hướng đó. Theo báo cáo kỹ thuật từ OpenAI, những mô hình này “tạo ra nhiều phát ngôn hơn”, nên đồng thời cũng đưa ra nhiều thông tin đúng hơn nhưng cũng nhiều câu trả lời sai lệch hơn.

Kết quả kiểm tra cho thấy O3 đã ảo giác trong 33% số câu hỏi thuộc bộ dữ liệu PersonQA — gần gấp đôi so với O1 (16%) và O3-mini (14,8%). O4-mini thậm chí còn cao hơn, với tỷ lệ lên tới 48%. Đây là một bước lùi so với kỳ vọng về độ chính xác của các mô hình AI thế hệ mới.

OpenAI gặp khó khi ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn
Các mô hình AI phổ biến hiện tại của ChatGPT

Không chỉ OpenAI ghi nhận vấn đề này. Theo Transluce, một phòng thí nghiệm nghiên cứu AI độc lập, O3 còn có xu hướng “bịa đặt” quy trình thực hiện nhiệm vụ. Trong một trường hợp, mô hình cho biết đã chạy mã trên MacBook Pro 2021 và sao chép kết quả vào câu trả lời — điều mà nó hoàn toàn không thể thực hiện được trong thực tế.

Neil Chowdhury, nhà nghiên cứu tại Transluce và cựu nhân viên OpenAI, cho rằng thuật toán reinforcement learning dùng cho dòng mô hình O có thể đã vô tình khuếch đại các lỗi vốn dĩ sẽ được giảm nhẹ nhờ quy trình huấn luyện truyền thống. Cùng quan điểm, đồng sáng lập Transluce là Sarah Schwettmann nhận định tỷ lệ ảo giác cao khiến O3 kém hiệu quả hơn so với tiềm năng thực sự.

Một số công ty vẫn đang thử nghiệm O3 trong môi trường thực tế. Kian Katanforoosh, giảng viên tại Stanford và CEO của Workera, cho biết nhóm của ông đánh giá O3 cao hơn các đối thủ khi dùng trong quy trình lập trình. Tuy nhiên, họ cũng phát hiện mô hình này thường xuyên tạo ra các liên kết web bị hỏng.

Mặc dù đôi khi các câu trả lời mang tính “sáng tạo” từ AI có thể dẫn đến ý tưởng mới, nhưng trong các lĩnh vực như pháp lý hay tài chính, nơi đòi hỏi độ chính xác tuyệt đối, hiện tượng ảo giác lại là rào cản lớn. Một hướng tiếp cận đầy hứa hẹn là tích hợp tính năng tìm kiếm web vào mô hình AI. Ví dụ, GPT-4o có tìm kiếm đạt độ chính xác tới 90% trên SimpleQA, theo dữ liệu từ OpenAI.

Đại diện OpenAI, ông Niko Felix, cho biết việc cải thiện độ chính xác và giảm ảo giác là ưu tiên nghiên cứu liên tục của công ty. Tuy nhiên, nếu việc mở rộng mô hình tư duy tiếp tục làm trầm trọng thêm vấn đề này, ngành AI sẽ phải đối mặt với một bài toán cấp thiết hơn bao giờ hết.

Trong bối cảnh các phương pháp huấn luyện truyền thống bắt đầu cho thấy hiệu suất giảm dần, nhiều hãng công nghệ đang chuyển hướng sang các mô hình tư duy. Dù tiết kiệm tài nguyên và hiệu quả ở nhiều nhiệm vụ, nhưng rõ ràng vẫn còn nhiều rào cản cần vượt qua để chúng thực sự đáng tin cậy.

NguồnTechCrunch
Quảng cáospot_img

Tin liên quan