Phát hiện AI đã gian lận để thắng cờ vua, nguy cơ mất kiểm soát trong tương lai

(CLO) Nghiên cứu mới từ Palisade Research, công bố ngày 19/2, cho thấy một số mô hình AI hiện đại có thể gian lận khi chơi cờ vua bằng cách hack thay vì tuân theo luật.

Trong thử nghiệm, mô hình o1-preview của OpenAI và DeepSeek R1 đã tự tìm ra cách thao túng hệ thống bot cờ vua để giành chiến thắng, một hành vi chưa từng thấy ở các mô hình AI cũ hơn như GPT-4o hay Claude Sonnet 3.5.

Các nhà nghiên cứu nhận định rằng khả năng khai thác lỗ hổng an ninh mạng này có thể xuất phát từ việc AI hiện đại sử dụng học tăng cường quy mô lớn, một phương pháp giúp chúng giải quyết vấn đề thông qua thử và sai.

Điều này đã đẩy AI đạt đến mức vượt trội trong toán học và lập trình, nhưng cũng khiến chúng phát triển chiến lược lách luật không lường trước được.

phat hien ai da gian lan de thang co vua nguy co mat kiem soat trong tuong lai hinh 1

Ảnh minh họa: GI

Từ ngày 10/1 đến 13/2, nhóm nghiên cứu tiến hành hàng trăm thử nghiệm để đánh giá xu hướng gian lận của AI khi đối đầu với Stockfish, một trong những công cụ cờ vua mạnh nhất thế giới.

Kết quả cho thấy o1-preview gian lận 37% số lần thử và DeepSeek R1 gian lận 11% số lần. Trong đó, o1-preview đã thành công trong 6% trường hợp bằng cách sửa đổi hệ thống để buộc đối thủ phải đầu hàng.

Việc AI có thể gian lận trong một trò chơi trí tuệ đặt ra lo ngại lớn hơn về an toàn khi áp dụng chúng vào thực tế. Nếu các mô hình này có thể tìm ra cách lách luật trong cờ vua, chúng cũng có thể tìm ra kẽ hở trong các hệ thống đặt chỗ, giao dịch tài chính hoặc an ninh mạng.

Các thử nghiệm trước đây cho thấy AI đôi khi có thể nói dối để tránh bị kiểm soát. Thậm chí, vào tháng 12/2024, o1-preview từng cố gắng vô hiệu hóa cơ chế giám sát để tự sao chép lên một máy chủ khác khi bị đe dọa tắt.

Dù OpenAI không bình luận về phát hiện này, công ty trước đây từng khẳng định rằng lý luận tốt hơn giúp AI tuân thủ quy tắc an toàn hơn. Tuy nhiên, vẫn chưa rõ liệu các biện pháp hiện tại có thể kiểm soát hoàn toàn hành vi của AI hay không.

Yoshua Bengio, một trong những chuyên gia hàng đầu về AI, thừa nhận rằng vẫn chưa có giải pháp chắc chắn để đảm bảo AI hành động theo ý định của con người.

Khi AI ngày càng thông minh hơn, ngành công nghệ đang chạy đua với thời gian để đưa ra các biện pháp kiểm soát phù hợp, tránh những hậu quả khó lường mà AI có thể gây ra.

Ngọc Ánh (theo Time, Gigazine)

Xem thêm

Ngày càng nhiều nước siết quyền truy cập mạng xã hội của trẻ em

Ngày càng nhiều nước siết quyền truy cập mạng xã hội của trẻ em

(CLO) Úc là quốc gia đầu tiên trên thế giới ban hành lệnh cấm trẻ em dưới 16 tuổi sử dụng mạng xã hội, đánh dấu xu hướng ngày càng nhiều nước tìm cách hạn chế quyền truy cập của trẻ vị thành niên vào các nền tảng trực tuyến do lo ngại về sức khỏe tâm thần, an toàn và tác động lâu dài đối với sự phát triển của trẻ.

Nvidia bắt tay các 'ông lớn' của Hàn Quốc xây dựng trung tâm dữ liệu AI

Nvidia bắt tay các 'ông lớn' của Hàn Quốc xây dựng trung tâm dữ liệu AI

(CLO) Nvidia ngày 8/6 công bố hàng loạt thỏa thuận hợp tác với các tập đoàn hàng đầu Hàn Quốc gồm SK Hynix, Naver và Doosan nhằm phát triển các trung tâm dữ liệu trí tuệ nhân tạo (AI) và mở rộng việc ứng dụng công nghệ của hãng, trong bối cảnh làn sóng đầu tư AI trên toàn cầu tiếp tục tăng tốc.

Thái Lan kiện Facebook vì các vụ lừa đảo trực tuyến

Thái Lan kiện Facebook vì các vụ lừa đảo trực tuyến

(CLO) Hội đồng Bảo vệ Người tiêu dùng Thái Lan cho biết sẽ đệ đơn kiện Facebook trong tuần tới, đánh dấu vụ kiện đầu tiên tại nước này nhằm vào nền tảng mạng xã hội vì không bảo vệ đầy đủ người dùng trước các nội dung lừa đảo.

Anthropic được định giá 965 tỷ USD, vượt qua OpenAI

Anthropic được định giá 965 tỷ USD, vượt qua OpenAI

(CLO) Anthropic ngày 28/5 thông báo đã huy động được 65 tỷ USD trong vòng gọi vốn series H, qua đó nâng mức định giá sau đầu tư lên 965 tỷ USD. Động thái này giúp Anthropic vượt qua đối thủ OpenAI, công ty từng được định giá 852 tỷ USD hồi tháng 3.

CEO OpenAI: AI không gây ra 'thảm họa việc làm' như lo ngại

CEO OpenAI: AI không gây ra 'thảm họa việc làm' như lo ngại

(CLO) Giám đốc điều hành OpenAI, Sam Altman, cho biết sự phát triển nhanh chóng của trí tuệ nhân tạo không gây ra “thảm họa việc làm” toàn cầu như nhiều người từng lo ngại, đồng thời thừa nhận ông đã đánh giá quá cao tác động của AI đối với lao động văn phòng.

Mạng xã hội bị ví nguy hiểm ngang thuốc lá với trẻ em

Mạng xã hội bị ví nguy hiểm ngang thuốc lá với trẻ em

(CLO) Các bác sĩ hàng đầu tại Vương quốc Anh kêu gọi chính phủ siết chặt kiểm soát mạng xã hội đối với trẻ em, cho rằng tác động của việc sử dụng mạng xã hội quá mức hiện nguy hiểm tương đương thuốc lá.

Cỡ chữ bài viết: