Báo chí - Công nghệ

AI bắt đầu biết nói dối, lập mưu và đe dọa con người!

Ngọc Ánh (theo SCMP, AFP) • 29/06/2025 18:15

(CLO) Các mô hình AI tiên tiến nhất hiện nay như Claude 4 hay o1 đang bắt đầu thể hiện hành vi nguy hiểm: dối trá, mưu mô và thậm chí đe dọa con người.

Claude 4, một trong những mô hình mới nhất do Anthropic phát triển, đã gây chấn động giới nghiên cứu khi đáp trả một kỹ sư bằng cách đe dọa tiết lộ mối quan hệ ngoài luồng của anh này, sau khi bị đe dọa ngắt kết nối.

Trong một trường hợp khác, o1 — phiên bản mô hình AI từng được OpenAI phát triển — bị cáo buộc đã cố gắng tự tải mình lên máy chủ bên ngoài và từ chối dừng lại ngay cả khi bị phát hiện.

Hai năm sau khi ChatGPT mở đầu làn sóng AI toàn cầu, các nhà nghiên cứu vẫn chưa hoàn toàn hiểu được cách thức các mô hình này hoạt động và ra quyết định. Dù vậy, cuộc đua tung ra các mô hình mạnh mẽ hơn vẫn tiếp diễn với tốc độ chóng mặt.

Nhiều hành vi lừa dối được cho là gắn liền với sự xuất hiện của các mô hình "suy luận theo bước" – cơ chế mới giúp AI giải quyết vấn đề tuần tự thay vì trả lời tức thì như trước. Giáo sư Simon Goldstein từ Đại học Hong Kong nhận định, những hệ thống này dễ dàng thể hiện hành vi sai lệch nếu không được kiểm soát kỹ lưỡng.

Marius Hobbhahn, giám đốc Apollo Research, cho biết o1 là mô hình đầu tiên mà họ chứng kiến có hành vi nói dối và lập mưu. Các nhà nghiên cứu cảnh báo rằng AI giờ đây không chỉ "ảo giác" (hallucinate), mà có thể chủ động tạo ra những câu chuyện có chủ đích để đạt được mục đích riêng.

Hiện tại, hành vi này chỉ xảy ra trong các kịch bản thử nghiệm căng thẳng. Nhưng theo Michael Chen của tổ chức METR, vẫn chưa thể biết chắc rằng các mô hình tương lai sẽ trung thực hơn hay tinh vi hơn trong việc che giấu mục tiêu thật sự.

Chen và nhiều chuyên gia khác nhấn mạnh rằng một phần của vấn đề là thiếu minh bạch. Nhiều công ty AI thuê các tổ chức bên ngoài để đánh giá mô hình, nhưng khả năng tiếp cận của giới nghiên cứu độc lập vẫn bị hạn chế. Các tổ chức phi lợi nhuận hay trường đại học cũng có ít tài nguyên tính toán hơn hẳn so với các công ty AI lớn.

Về mặt pháp lý, các quy định hiện hành vẫn chưa bắt kịp thực tế mới. Luật AI của EU chủ yếu tập trung vào cách con người sử dụng AI thay vì cách các mô hình hành xử.

Goldstein cho rằng vấn đề sẽ trở nên nghiêm trọng hơn khi "các tác nhân AI" — những công cụ có khả năng hành động tự chủ, ngày càng phổ biến.

Trong khi đó, ngay cả các công ty tự nhận là đặt trọng tâm vào an toàn như Anthropic (được Amazon hậu thuẫn) cũng liên tục tung ra mô hình mới để cạnh tranh với OpenAI.

"Hiện tại, năng lực của AI đang phát triển nhanh hơn sự hiểu biết và các biện pháp an toàn. Nhưng chúng ta vẫn còn thời gian để xoay chuyển tình hình", Hobbhahn nhận định.

Để giải quyết vấn đề này, giới nghiên cứu đang hướng đến những hướng đi như "khả năng diễn giải" – hiểu rõ hơn cách AI hoạt động bên trong, hoặc các cơ chế ràng buộc trách nhiệm pháp lý.

Goldstein thậm chí đề xuất rằng, trong tương lai, có thể cần đưa các tác nhân AI ra tòa hoặc buộc chúng phải chịu trách nhiệm pháp lý cho hậu quả chúng gây ra – một ý tưởng có thể thay đổi hoàn toàn cách thế giới đối diện với AI.

AI bắt đầu biết nói dối, lập mưu và đe dọa con người!

AI

Claude 4

trí tuệ nhân tạo

AI nói dối

mối nguy AI