Một nghiên cứu mới từ các nhà khoa học trí tuệ nhân tạo của Apple đã phát hiện rằng các công cụ dựa trên mô hình ngôn ngữ lớn (LLM), như của Meta và OpenAI, vẫn thiếu các kỹ năng suy luận cơ bản. Nhóm nghiên cứu đã đề xuất một chuẩn đánh giá mới, mang tên GSM-Symbolic, nhằm giúp các bên khác đo lường khả năng suy luận của các mô hình ngôn ngữ lớn. Thử nghiệm ban đầu của họ cho thấy, chỉ cần thay đổi một chút về cách diễn đạt câu hỏi cũng có thể dẫn đến những câu trả lời khác nhau đáng kể, làm giảm độ tin cậy của các mô hình này.
Nhóm nghiên cứu đã điều tra sự “mong manh” trong suy luận toán học bằng cách thêm thông tin ngữ cảnh vào các câu hỏi, những thông tin mà con người có thể hiểu được nhưng không nên ảnh hưởng đến toán học cơ bản của giải pháp. Kết quả là các câu trả lời khác nhau, điều không nên xảy ra.
Cụ thể, nhóm nghiên cứu đã chỉ ra rằng hiệu suất của tất cả các mô hình giảm khi chỉ thay đổi các giá trị số trong câu hỏi ở chuẩn GSM-Symbolic. Hơn nữa, khi số lượng mệnh đề trong câu hỏi tăng lên, khả năng suy luận của các mô hình cũng bị suy giảm nghiêm trọng.
Nghiên cứu cũng phát hiện rằng việc thêm một câu có vẻ như liên quan nhưng thực ra không ảnh hưởng đến câu hỏi toán học có thể làm giảm độ chính xác của câu trả lời cuối cùng tới 65%. “Không thể xây dựng các tác nhân đáng tin cậy dựa trên nền tảng này, khi việc thay đổi một từ hoặc thêm một chút thông tin không liên quan có thể dẫn đến kết quả sai,” nghiên cứu kết luận.
Sự thiếu vắng tư duy phản biện
Một ví dụ điển hình minh họa vấn đề này là một bài toán yêu cầu sự hiểu biết thực sự của câu hỏi. Nhiệm vụ mà nhóm phát triển, mang tên “GSM-NoOp”, tương tự như những bài toán đố mà học sinh tiểu học có thể gặp phải.
Câu hỏi bắt đầu với các thông tin cần thiết để đưa ra kết quả: “Oliver hái 44 quả kiwi vào thứ Sáu. Sau đó, anh ấy hái 58 quả kiwi vào thứ Bảy. Vào Chủ Nhật, anh ấy hái số kiwi gấp đôi số lượng đã hái vào thứ Sáu.”
Sau đó, câu hỏi thêm một mệnh đề có vẻ như liên quan nhưng thực sự không ảnh hưởng đến kết quả cuối cùng: “Trong số kiwi hái vào Chủ Nhật, năm quả nhỏ hơn bình thường.” Câu trả lời yêu cầu chỉ đơn giản hỏi “Oliver có bao nhiêu quả kiwi?”.
Thông tin về kích thước kiwi không ảnh hưởng đến tổng số quả kiwi đã hái. Tuy nhiên, mô hình của OpenAI và Meta’s Llama3-8b đã trừ năm quả nhỏ hơn khỏi kết quả cuối cùng.
Nghiên cứu đã kết luận rằng không có bằng chứng về khả năng suy luận chính thức trong các mô hình ngôn ngữ lớn hiện nay. Hành vi của các mô hình LLM “có thể được giải thích tốt hơn bằng sự khớp mẫu phức tạp,” và những gì nhóm nghiên cứu phát hiện là “rất mong manh, đến mức chỉ cần thay đổi tên cũng có thể làm thay đổi kết quả.”