OpenAI đang đối mặt với chỉ trích sau khi kết quả benchmark từ bên thứ ba cho thấy mô hình AI o3 có hiệu suất thấp hơn đáng kể so với những gì công ty từng công bố. Cụ thể, viện nghiên cứu Epoch AI – đơn vị phát triển bộ đề toán FrontierMath – cho biết o3 chỉ đạt khoảng 10% khi được đánh giá độc lập, thấp hơn nhiều so với mức “trên 25%” mà OpenAI từng công bố hồi tháng 12 năm ngoái.
Khi ra mắt o3, OpenAI khẳng định đây là bước tiến vượt bậc trong khả năng suy luận toán học, với khả năng giải hơn một phần tư bài toán trong FrontierMath – trong khi các đối thủ chỉ giải được khoảng 2%. Tuy nhiên, theo Epoch, điểm số cao nhất đó nhiều khả năng được tạo ra từ một phiên bản o3 nội bộ với khả năng tính toán vượt trội hơn phiên bản công khai.
Thực tế, kết quả do OpenAI công bố trước đây cũng bao gồm một mốc thấp hơn phù hợp với điểm số Epoch thu được. Ngoài ra, Epoch cho biết phiên bản họ sử dụng là FrontierMath cập nhật mới hơn, có thể khác với bộ bài toán OpenAI dùng trước đó.
ARC Prize Foundation, một tổ chức đã thử nghiệm o3 trước khi ra mắt, cũng xác nhận rằng phiên bản o3 thương mại hiện tại là bản được tinh chỉnh cho các tình huống ứng dụng thực tế, không phải bản tối ưu benchmark. Họ cho biết: “Tất cả tier tính toán của o3 bản phát hành đều nhỏ hơn bản chúng tôi từng kiểm thử.”
Wenda Zhou – kỹ sư của OpenAI – cũng chia sẻ trong một buổi livestream rằng phiên bản o3 hiện nay được thiết kế để cân bằng giữa chi phí, tốc độ và khả năng ứng dụng, thay vì nhắm vào điểm số benchmark. “Chúng tôi đã tối ưu để người dùng không cần chờ lâu khi hỏi, điều đó quan trọng hơn trong các kịch bản thực tế,” ông nói.
Dù gây thất vọng phần nào về độ chính xác của tuyên bố ban đầu, thực tế cho thấy OpenAI đang chuẩn bị ra mắt phiên bản nâng cấp là o3-pro. Thêm vào đó, các biến thể như o3-mini-high và o4-mini hiện tại đã cho kết quả tốt hơn o3 trên chính bộ đề FrontierMath.
Sự việc là lời nhắc rằng các bài kiểm tra benchmark AI không nên được tiếp nhận một cách tuyệt đối, đặc biệt khi chúng đến từ chính nhà cung cấp dịch vụ. Ngành AI đang chứng kiến ngày càng nhiều tranh cãi xoay quanh tính minh bạch của kết quả đánh giá.
Trước đó, Epoch từng bị chỉ trích vì không tiết lộ kịp thời việc nhận tài trợ từ OpenAI. Ngoài ra, Elon Musk với xAI cũng bị cáo buộc sử dụng biểu đồ benchmark gây hiểu nhầm cho Grok 3, và gần đây Meta đã thừa nhận khoe điểm benchmark của một mô hình khác với phiên bản phát hành thực tế.