Phát hiện nhiều công ty AI âm thầm thu thập trái phép nội dung báo chí

Thứ bảy, 22/06/2024 09:49 AM - 0 Trả lời

(CLO) Nhiều công ty trí tuệ nhân tạo (AI) đang vi phạm tiêu chuẩn được các nhà xuất bản sử dụng để chặn việc thu thập nội dung báo chí của họ, theo công ty khởi nghiệp cấp phép nội dung TollBit tiết lộ với các tổ chức tin tức.

Một lá thư gửi cho các nhà xuất bản được hãng tin Reuters xem hôm thứ Sáu xuất hiện trong bối cảnh công ty khởi nghiệp tìm kiếm AI Perplexity và hãng truyền thông Forbes đang tranh chấp pháp lý công khai về việc sử dụng trái phép nội dung tin tức.

Nó cũng diễn ra trong một cuộc chiến rộng lớn của các tổ chức báo chí nhằm bảo vệ nội dung của mình trước sự xâm phạm của các công ty công nghệ trong thời kỳ bùng nổ công cụ AI tạo sinh.

phat hien nhieu cong ty ai am tham thu thap trai phep noi dung bao chi hinh 1

Ảnh: Reuters

Bài liên quan

Mối lo của các tổ chức tin tức

Trong vụ tranh chấp giữa Perplexity và Forbes, một cuộc điều tra được xuất bản trong tuần này cho thấy Perplexity có thể đã vượt qua trình chặn thu thập thông tin web của Forbes là Giao thức loại trừ robot hay "robots.txt" - một tiêu chuẩn được chấp nhận rộng rãi nhằm xác định phần nào của trang web được phép thu thập thông tin.

News Media Alliance, một nhóm thương mại đại diện cho hơn 2.200 nhà xuất bản có trụ sở tại Mỹ, bày tỏ lo ngại về việc "thu thập dữ liệu trái phép" này đối với các thành viên của mình.

Danielle Coffey, chủ tịch tập đoàn News Media Alliance cho biết: “Nếu không có khả năng từ chối thu thập dữ liệu lớn, chúng ta không thể kiếm tiền từ nội dung có giá trị của mình và trả tiền cho các nhà báo. Điều này có thể gây tổn hại nghiêm trọng đến ngành của chúng ta”.

TollBit, một công ty khởi nghiệp ở giai đoạn đầu, đang tự định vị mình là người kết nối giữa các công ty AI đói nội dung và các nhà xuất bản trong các thỏa thuận cấp phép nội dung.

TollBit theo dõi lưu lượng truy cập AI đến các trang web của nhà xuất bản và sử dụng phân tích để giúp cả hai bên giải quyết các khoản phí phải trả cho việc sử dụng các loại nội dung khác nhau.

Ví dụ: các nhà xuất bản có thể chọn đặt mức giá cao hơn cho "nội dung cao cấp, chẳng hạn như tin tức mới nhất hoặc thông tin chi tiết độc quyền", theo công ty cho biết trên trang web của mình.

Theo bức thư của TollBit, Perplexity không phải là kẻ phạm tội duy nhất phớt lờ giao thức robots.txt. TollBit cho biết các phân tích của họ cho thấy "nhiều" tác nhân AI đang bỏ qua giao thức, một công cụ tiêu chuẩn được các nhà xuất bản sử dụng để cho biết phần nào trên trang web của họ có thể được thu thập thông tin.

TollBit viết: “Điều này có nghĩa trong thực tế là các tác nhân AI từ nhiều nguồn (không chỉ một công ty) đang chọn bỏ qua giao thức robots.txt để truy xuất nội dung từ các trang web".

Cần ngăn chặn các hành vi vi phạm bản quyền

Giao thức robots.txt được tạo ra vào giữa những năm 1990 như một cách để tránh làm các trang web bị quá tải bởi trình thu thập dữ liệu web. Mặc dù không có cơ chế thực thi pháp luật rõ ràng, nhưng trong lịch sử đã có sự tuân thủ rộng rãi trên web đối với quy định này.

Gần đây hơn, robots.txt đã trở thành một công cụ quan trọng mà các tổ chức tin tức đã sử dụng để chặn các công ty công nghệ “đánh cắp” nội dung báo chí của họ để sử dụng đào tạo các hệ thống AI tạo sinh hoặc thậm chí đưa tin trực tiếp cho người dùng để thu lợi nhuận.

Một số nhà xuất bản, bao gồm cả New York Times, đã kiện các công ty AI vì vi phạm bản quyền đối với những mục đích sử dụng đó. Nhiều nhà phát triển AI bao biện rằng họ không vi phạm luật nào khi truy cập chúng miễn phí, dù thực tế mọi bài báo đều được bảo vệ bản quyền ở mọi quốc gia.

Gần đây, các tổ chức báo chí đã đưa ra cảnh báo và rất lo ngại về các công cụ “xào xáo” tin tức, đặc biệt kể từ khi Google tung ra một sản phẩm vào năm ngoái về việc sử dụng AI để tạo các bản tóm tắt thông tin để trả lời một số truy vấn tìm kiếm, thay vì đưa ra các đường link đến nguồn tin gốc.

Tuy nhiên, thách thức lớn là nếu nhà xuất bản muốn ngăn AI của Google sử dụng nội dung của họ để giúp tạo ra những bản thông tin tóm tắt để trả lời cho người dùng đó, thì họ phải sử dụng cùng một công cụ có thể ngăn chúng xuất hiện trong kết quả tìm kiếm của Google.

Hoàng Hải (theo Reuters)

Bình Luận

Tin khác

Lượng khí thải của Google tăng gần 50% do sử dụng AI tăng đột biến

Lượng khí thải của Google tăng gần 50% do sử dụng AI tăng đột biến

(CLO) Lượng khí thải nhà kính của Google đã tăng vọt 48% trong năm qua do mở rộng các trung tâm dữ liệu hỗ trợ trí tuệ nhân tạo (AI), đe dọa mục tiêu "phát thải ròng bằng 0" vào năm 2030 của gã khổng lồ công nghệ này.

Báo chí - Công nghệ
New Zealand thúc đẩy luật buộc các Big Tech phải trả tiền cho báo chí

New Zealand thúc đẩy luật buộc các Big Tech phải trả tiền cho báo chí

(CLO) New Zealand sắp tiến hành một dự luật buộc các nền tảng của những công ty công nghệ lớn (Big Tech) phải trả tiền cho các tổ chức truyền thông để có được tin tức báo chí.

Báo chí - Công nghệ
Úc ra 'tối hậu thư' bảo vệ trẻ em đối với các nền tảng trực tuyến

Úc ra 'tối hậu thư' bảo vệ trẻ em đối với các nền tảng trực tuyến

(CLO) Úc đã cho ngành công nghiệp internet nước này 6 tháng để đề ra một bộ quy tắc chi tiết cách ngăn trẻ em xem nội dung khiêu dâm và không phù hợp trực tuyến khác.

Báo chí - Công nghệ
Meta bị cáo buộc vi phạm luật pháp châu Âu với dịch vụ 'không quảng cáo'

Meta bị cáo buộc vi phạm luật pháp châu Âu với dịch vụ 'không quảng cáo'

(CLO) Công ty mẹ của Facebook là Meta đã bị cáo buộc vi phạm các quy tắc cạnh tranh kỹ thuật số mới của châu Âu về mô hình quảng cáo "trả tiền hoặc đồng ý".

Báo chí - Công nghệ
Nghị quyết do Trung Quốc dẫn đầu về AI được thông qua tại Liên hợp quốc

Nghị quyết do Trung Quốc dẫn đầu về AI được thông qua tại Liên hợp quốc

(CLO) Đại hội đồng Liên hợp quốc đã nhất trí thông qua nghị quyết do Trung Quốc dẫn đầu kêu gọi cộng đồng quốc tế tạo ra một môi trường kinh doanh "tự do, cởi mở, bao trùm và không phân biệt đối xử" giữa các quốc gia cho sự phát triển trí tuệ nhân tạo (AI).

Báo chí - Công nghệ