Phát hiện nhiều công ty AI âm thầm thu thập trái phép nội dung báo chí

06/04/2025 18:34

(CLO) Nhiều công ty trí tuệ nhân tạo (AI) đang vi phạm tiêu chuẩn được các nhà xuất bản sử dụng để chặn việc thu thập nội dung báo chí của họ, theo công ty khởi nghiệp cấp phép nội dung TollBit tiết lộ với các tổ chức tin tức.

Một lá thư gửi cho các nhà xuất bản được hãng tin Reuters xem hôm thứ Sáu xuất hiện trong bối cảnh công ty khởi nghiệp tìm kiếm AI Perplexity và hãng truyền thông Forbes đang tranh chấp pháp lý công khai về việc sử dụng trái phép nội dung tin tức.

Nó cũng diễn ra trong một cuộc chiến rộng lớn của các tổ chức báo chí nhằm bảo vệ nội dung của mình trước sự xâm phạm của các công ty công nghệ trong thời kỳ bùng nổ công cụ AI tạo sinh.

Bài liên quan

Những câu hỏi lớn về AI và tin tức dành cho các tòa soạn

Cuộc cách mạng truyền thông số lần thứ ba: Báo chí có thể bắt kịp?

Thỏa thuận của News Corp với OpenAI lại là hành động 'tự bắn vào chân' của báo chí?

Mối lo của các tổ chức tin tức

Trong vụ tranh chấp giữa Perplexity và Forbes, một cuộc điều tra được xuất bản trong tuần này cho thấy Perplexity có thể đã vượt qua trình chặn thu thập thông tin web của Forbes là Giao thức loại trừ robot hay "robots.txt" - một tiêu chuẩn được chấp nhận rộng rãi nhằm xác định phần nào của trang web được phép thu thập thông tin.

News Media Alliance, một nhóm thương mại đại diện cho hơn 2.200 nhà xuất bản có trụ sở tại Mỹ, bày tỏ lo ngại về việc "thu thập dữ liệu trái phép" này đối với các thành viên của mình.

Danielle Coffey, chủ tịch tập đoàn News Media Alliance cho biết: “Nếu không có khả năng từ chối thu thập dữ liệu lớn, chúng ta không thể kiếm tiền từ nội dung có giá trị của mình và trả tiền cho các nhà báo. Điều này có thể gây tổn hại nghiêm trọng đến ngành của chúng ta”.

TollBit, một công ty khởi nghiệp ở giai đoạn đầu, đang tự định vị mình là người kết nối giữa các công ty AI đói nội dung và các nhà xuất bản trong các thỏa thuận cấp phép nội dung.

TollBit theo dõi lưu lượng truy cập AI đến các trang web của nhà xuất bản và sử dụng phân tích để giúp cả hai bên giải quyết các khoản phí phải trả cho việc sử dụng các loại nội dung khác nhau.

Ví dụ: các nhà xuất bản có thể chọn đặt mức giá cao hơn cho "nội dung cao cấp, chẳng hạn như tin tức mới nhất hoặc thông tin chi tiết độc quyền", theo công ty cho biết trên trang web của mình.

Theo bức thư của TollBit, Perplexity không phải là kẻ phạm tội duy nhất phớt lờ giao thức robots.txt. TollBit cho biết các phân tích của họ cho thấy "nhiều" tác nhân AI đang bỏ qua giao thức, một công cụ tiêu chuẩn được các nhà xuất bản sử dụng để cho biết phần nào trên trang web của họ có thể được thu thập thông tin.

TollBit viết: “Điều này có nghĩa trong thực tế là các tác nhân AI từ nhiều nguồn (không chỉ một công ty) đang chọn bỏ qua giao thức robots.txt để truy xuất nội dung từ các trang web".

Cần ngăn chặn các hành vi vi phạm bản quyền

Giao thức robots.txt được tạo ra vào giữa những năm 1990 như một cách để tránh làm các trang web bị quá tải bởi trình thu thập dữ liệu web. Mặc dù không có cơ chế thực thi pháp luật rõ ràng, nhưng trong lịch sử đã có sự tuân thủ rộng rãi trên web đối với quy định này.

Gần đây hơn, robots.txt đã trở thành một công cụ quan trọng mà các tổ chức tin tức đã sử dụng để chặn các công ty công nghệ “đánh cắp” nội dung báo chí của họ để sử dụng đào tạo các hệ thống AI tạo sinh hoặc thậm chí đưa tin trực tiếp cho người dùng để thu lợi nhuận.

Một số nhà xuất bản, bao gồm cả New York Times, đã kiện các công ty AI vì vi phạm bản quyền đối với những mục đích sử dụng đó. Nhiều nhà phát triển AI bao biện rằng họ không vi phạm luật nào khi truy cập chúng miễn phí, dù thực tế mọi bài báo đều được bảo vệ bản quyền ở mọi quốc gia.

Gần đây, các tổ chức báo chí đã đưa ra cảnh báo và rất lo ngại về các công cụ “xào xáo” tin tức, đặc biệt kể từ khi Google tung ra một sản phẩm vào năm ngoái về việc sử dụng AI để tạo các bản tóm tắt thông tin để trả lời một số truy vấn tìm kiếm, thay vì đưa ra các đường link đến nguồn tin gốc.

Tuy nhiên, thách thức lớn là nếu nhà xuất bản muốn ngăn AI của Google sử dụng nội dung của họ để giúp tạo ra những bản thông tin tóm tắt để trả lời cho người dùng đó, thì họ phải sử dụng cùng một công cụ có thể ngăn chúng xuất hiện trong kết quả tìm kiếm của Google.

Hoàng Hải (theo Reuters)