Mô hình AI mới của OpenAI xuất hiện nhiều thông tin sai lệch
(CLO) Hai mô hình AI mới của OpenAI là o3 và o4-mini đạt nhiều tiến bộ trong lập trình và toán học, nhưng chúng lại tạo ra thông tin sai lệch, hay còn gọi là lỗi “tưởng tượng” hay "ảo giác", nhiều hơn các mô hình trước đây.
Trong lĩnh vực AI, “ảo giác” là khi mô hình đưa ra thông tin không đúng sự thật hoặc tự bịa đặt chi tiết. Đây là một thách thức lớn, ngay cả với các hệ thống tiên tiến nhất. Thông thường, các mô hình mới sẽ giảm thiểu hiện tượng này so với phiên bản cũ. Tuy nhiên, o3 và o4-mini lại đi ngược xu hướng.

Theo thử nghiệm nội bộ của OpenAI, o3 tạo ra thông tin sai lệch trong 33% câu trả lời trên PersonQA – một bài kiểm tra đánh giá độ chính xác về thông tin liên quan đến con người. Con số này cao gấp đôi so với các mô hình lý luận trước đó như o1 (16%) và o3-mini (14.8%). O4-mini thậm chí còn tệ hơn, với tỷ lệ tưởng tượng lên tới 48%.
Điều đáng chú ý là OpenAI chưa lý giải được nguyên nhân. Trong báo cáo kỹ thuật, công ty cho biết cần thêm nghiên cứu để hiểu tại sao các mô hình lý luận mới lại dễ tưởng tượng hơn. Một giả thuyết là vì o3 và o4-mini đưa ra nhiều “tuyên bố” hơn, chúng vừa tạo ra thông tin chính xác hơn, vừa dễ mắc sai lầm hơn.
Ông Neil Chowdhury, nhà nghiên cứu và là cựu nhân viên OpenAI, cho rằng kỹ thuật học tăng cường (reinforcement learning) được sử dụng cho dòng mô hình o-series có thể làm trầm trọng thêm vấn đề tưởng tượng. Thông thường, các bước xử lý sau huấn luyện giúp giảm thiểu lỗi này, nhưng với o3 và o4-mini, hiệu quả dường như không đủ.
Tỷ lệ tưởng tượng cao có thể khiến o3 kém hữu ích hơn kỳ vọng, đặc biệt trong các ứng dụng đòi hỏi độ chính xác cao.
Dù gặp vấn đề về độ chính xác, o3 và o4-mini vẫn ghi điểm trong một số lĩnh vực. Ông Kian Katanforoosh, giáo sư tại Đại học Stanford và CEO của startup Workera, cho biết đội ngũ của ông đã thử nghiệm o3 trong quy trình lập trình và đánh giá nó vượt trội so với các đối thủ. Tuy nhiên, ông cũng lưu ý rằng o3 thường tạo ra các liên kết website không hoạt động, gây khó khăn cho người dùng.
Hiện tượng tưởng tượng có thể giúp AI đưa ra ý tưởng sáng tạo, nhưng nó lại là rào cản lớn trong các ngành như luật hoặc y tế, nơi sai sót dù nhỏ cũng có thể gây hậu quả nghiêm trọng. Chẳng hạn, một công ty luật sẽ không hài lòng nếu AI đưa thông tin sai vào hợp đồng khách hàng.
OpenAI thừa nhận rằng việc giảm "ảo giác" là một thách thức liên tục. Người phát ngôn Niko Felix nhấn mạnh: “Chúng tôi không ngừng nghiên cứu để cải thiện độ chính xác và độ tin cậy của các mô hình”.
(theo TC, OpenAI)