Reddit cập nhật giao thức ngăn chặn AI đánh cắp nội dung

• 26/06/2024 11:36

(CLO) Nền tảng truyền thông xã hội Reddit cho biết hôm thứ Ba rằng họ sẽ cập nhật một tiêu chuẩn web để chặn việc tự động thu thập dữ liệu, sau những báo cáo cho thấy các công ty AI đang phớt lờ quy tắc để thu thập trái phép nội dung trên internet.

Động thái này diễn ra trong bối cảnh các công ty trí tuệ nhân tạo đang bị cáo buộc đánh cắp nội dung từ các nhà xuất bản để đào tạo AI hoặc tóm tắt thông tin, gồm các bài báo có bản quyền, để trả lời cho người dùng mà không trả phí hoặc thậm chí không xin phép.

reddit cap nhat giao thuc ngan chan ai danh cap noi dung hinh 1

Bài liên quan

Phát hiện nhiều công ty AI âm thầm thu thập trái phép nội dung báo chí

Reddit cho biết họ sẽ cập nhật Giao thức loại trừ robot hay "robots.txt", một tiêu chuẩn được chấp nhận rộng rãi nhằm xác định phần nào của trang web được phép thu thập dữ liệu.

Công ty cũng cho biết họ sẽ duy trì giới hạn tỷ lệ, một kỹ thuật được sử dụng để kiểm soát số lượng yêu cầu từ một thực thể cụ thể và sẽ chặn các bot cũng như trình thu thập thông tin không xác định khỏi việc thu thập dữ liệu trên trang web của mình.

Robots.txt là một công cụ quan trọng mà các nhà xuất bản, gồm các tổ chức báo chí, sử dụng để ngăn các công ty công nghệ thu thập nội dung của họ trái phép để huấn luyện AI hoặc tạo các bản tóm tắt để trả lời một số truy vấn tìm kiếm.

Tuần trước, công ty khởi nghiệp cấp phép nội dung TollBit tiết lộ trong một báo cáo rằng một số công ty AI đang bỏ qua quy tắc để thu thập nội dung trên trang web của các nhà xuất bản.

Điều này diễn ra sau một cuộc điều tra của Wired phát hiện ra rằng công ty khởi nghiệp tìm kiếm AI Perplexity có thể đã không tuân thủ các quy tắc chặn trình thu thập dữ liệu web thông qua robots.txt.

Đầu tháng 6, nhà xuất bản truyền thông Forbes cũng đã cáo buộc Perplexity đạo văn các bài viết điều tra của họ, để sử dụng trong các hệ thống AI tạo sinh mà không ghi chú nguồn.

Reddit cho biết hôm thứ Ba rằng các nhà nghiên cứu và tổ chức như Internet Archive sẽ tiếp tục có quyền truy cập vào nội dung của họ cho mục đích phi thương mại.

Hoàng Hải (theo Reuters)

Reddit cập nhật giao thức ngăn chặn AI đánh cắp nội dung

Trí tuệ nhân tạo

chặn thu thập nội dung

chặn AI thu thập nội dung