Hàng triệu video tin tức YouTube bị dùng để huấn luyện AI trái phép

(CLO) Ít nhất 15 triệu video trên YouTube đã bị các tập đoàn công nghệ âm thầm sử dụng làm dữ liệu đào tạo AI, gồm cả video từ các hãng truyền thông hàng đầu.

Tháng trước, tờ The Atlantic công bố loạt điều tra mới về nguồn dữ liệu mà các công ty công nghệ sử dụng để huấn luyện trí tuệ nhân tạo tạo sinh. Nhà báo Alex Reisner tiết lộ ít nhất 15 triệu video tin tức trên YouTube đã bị khai thác trái phép cho mục đích nghiên cứu hoặc để phát triển các mô hình video AI thương mại. Trong danh sách này có video của nhiều hãng truyền thông lớn như The New York Times, Al Jazeera, Fox News, Bloomberg và Vox.

Các nhà báo phát hiện những tập dữ liệu khổng lồ này đang được dùng bởi các công ty công nghệ hàng đầu như Microsoft, Meta, ByteDance (công ty mẹ của TikTok), Tencent, Snap và Runway - đơn vị đứng sau mô hình tạo video AI nổi tiếng Gen-3.

alexander-shatov-niUkImZcSP8-unsplash (1)
Ảnh minh họa: Unsplash

Runway được cho là đã thu thập hơn 8.000 video từ kênh YouTube của The New York Times để huấn luyện Gen-3. Những video đó bao gồm phim tài liệu, phỏng vấn Barack Obama, phóng sự biểu tình ở Hồng Kông và nhiều nội dung tin tức khác. Một tài liệu nội bộ của công ty cho biết họ đánh giá cao video tin tức vì “tính kể chuyện và đồ họa hấp dẫn”.

Không chỉ Runway, nhiều tập dữ liệu khác do các trường đại học và công ty nghiên cứu phát triển - như HD-VILA-100M của Microsoft Research hay YT-Temporal-180M của Đại học Washington - cũng bị phát hiện chứa hàng chục nghìn video tin tức từ YouTube. Những bộ dữ liệu này sau đó được chia sẻ công khai, tải xuống hàng nghìn lần và có thể đã được nhiều công ty AI khác sử dụng để huấn luyện mô hình video của riêng họ.

Giám đốc điều hành YouTube, Neal Mohan, từng khẳng định việc tải video YouTube cho mục đích huấn luyện AI là vi phạm điều khoản sử dụng của nền tảng. Tuy nhiên, trên thực tế, các bộ dữ liệu nói trên vẫn đang được lưu hành rộng rãi mà không bị chặn.

Các hãng truyền thông bị ảnh hưởng tỏ ra phẫn nộ. Đại diện Vox Media cho biết các công ty AI đang “chi hàng tỷ USD cho phần cứng nhưng gần như không trả gì cho nội dung giúp mô hình của họ hoạt động tốt hơn”. The New York Times cũng khẳng định chưa bao giờ cho phép Runway hay bất kỳ bên nào khác sử dụng video của mình và đang xem xét hành động pháp lý.

Không chỉ các hãng lớn, nhiều kênh YouTube độc lập cũng bị ảnh hưởng. David Pakman - chủ kênh The David Pakman Show - nói việc hàng chục nghìn video của ông bị lấy đi là hành vi “xâm phạm bản quyền quy mô lớn”. Người dẫn chương trình Sam Seder của The Majority Report thì chỉ trích rằng các công ty AI đang “chiếm đoạt văn hóa chính trị độc lập mà họ không hề tạo ra”.

Theo quy định hiện nay, người đăng video lên YouTube vẫn giữ bản quyền, nhưng chỉ YouTube mới có quyền sử dụng video đó cho việc huấn luyện các mô hình AI của chính họ, chẳng hạn như Gemini hoặc Veo của Google. Việc các công ty khác lấy video từ YouTube để huấn luyện AI là hoàn toàn trái phép.

Phát ngôn viên The New York Times kết luận: “Công nghệ không thể phát triển bằng cách cướp đi công sức của những người làm báo. Nếu AI tiếp tục lấy nội dung miễn phí mà không trả công xứng đáng, người thiệt cuối cùng chính là công chúng”.

Xem thêm

Đại hội Chi hội Nhà báo Báo Nhà báo và Công luận lần thứ V: Hoạt động thực chất, hiệu quả, bắt nhịp xu hướng làm báo hiện đại

Đại hội Chi hội Nhà báo Báo Nhà báo và Công luận lần thứ V: Hoạt động thực chất, hiệu quả, bắt nhịp xu hướng làm báo hiện đại

(CLO) Sáng 29/5, tại trụ sở Hội Nhà báo Việt Nam, Chi hội Nhà báo Báo Nhà báo và Công luận tổ chức Đại hội lần thứ V, nhiệm kỳ 2026 - 2028 nhằm đánh giá kết quả hoạt động nhiệm kỳ 2023 - 2025, đề ra phương hướng, nhiệm vụ nhiệm kỳ mới và bầu Ban Thư ký Chi hội.

Báo chí muốn hút giới trẻ phải thay đổi cách làm nội dung

Báo chí muốn hút giới trẻ phải thay đổi cách làm nội dung

(CLO) Sau một tuần diễn ra Đại hội Thế giới của INMA tại Berlin, nhiều cuộc thảo luận tại sự kiện đã xoay quanh tương lai của báo chí, đặc biệt là cách các cơ quan truyền thông tiếp cận thế hệ khán giả trẻ trong bối cảnh ngành công nghiệp tin tức đang thay đổi nhanh chóng.

Nhận diện thủ đoạn dẫn dắt nhận thức qua những luồng thông tin “bán tín bán nghi”

Nhận diện thủ đoạn dẫn dắt nhận thức qua những luồng thông tin “bán tín bán nghi”

(NB&CL) Không dừng ở việc phản bác các thông tin sai lệch đơn lẻ, nhà báo Đào Ngọc Tước và nhóm tác giả Tạp chí Việt - Mỹ lựa chọn đi sâu phân tích cách nhiều vụ việc gây tranh cãi trên không gian mạng bị cắt ghép, khuếch đại và định hướng dư luận để từng bước tác động tới nhận thức xã hội.

Công bố Hội thảo quốc tế "APEC 2027 - Nâng tầm phát triển văn hóa - du lịch Phú Quốc"

Công bố Hội thảo quốc tế "APEC 2027 - Nâng tầm phát triển văn hóa - du lịch Phú Quốc"

Ngày 27/5, tại Hà Nội, Báo Đại đoàn kết và UBND tỉnh An Giang tổ chức Lễ công bố thông tin Hội thảo quốc tế “APEC 2027 - Nâng tầm phát triển văn hóa - du lịch Phú Quốc”, sự kiện được kỳ vọng trở thành diễn đàn quy mô lớn nhằm đóng góp các giải pháp và sáng kiến phát triển bền vững cho Phú Quốc trong bối cảnh Việt Nam chuẩn bị đăng cai Tuần lễ Cấp cao APEC 2027.

Báo điện tử CAND đổi mới giao diện, hướng tới vận hành tòa soạn số đồng bộ

Báo điện tử CAND đổi mới giao diện, hướng tới vận hành tòa soạn số đồng bộ

(CLO) Giao diện mới và hệ thống quản trị tòa soạn điện tử của Báo điện tử CAND được xây dựng theo hướng hiện đại, đồng bộ và đa nền tảng, góp phần nâng cao hiệu quả vận hành, tăng tốc độ xử lý thông tin và từng bước hình thành mô hình tòa soạn hội tụ trong hệ thống truyền thông CAND.

Mô hình quảng cáo truyền thống của báo chí đang dần suy yếu

Mô hình quảng cáo truyền thống của báo chí đang dần suy yếu

(CLO) Tại Đại hội Truyền thông Tin tức Thế giới INMA tuần qua, nhiều lãnh đạo ngành truyền thông và quảng cáo cho rằng mô hình quảng cáo truyền thống của báo chí đang suy yếu nhanh chóng dưới tác động của lượng truy cập giảm, sự bùng nổ của AI và sự thống trị ngày càng lớn của các nền tảng công nghệ.

Cỡ chữ bài viết: