Google Veo 3 và cái chết của 'trăm nghe không bằng một thấy': Báo chí làm gì để giữ vững niềm tin?
(CLO) Google Veo 3, mô hình AI mới nhất của gã khổng lồ công nghệ, đang xóa nhòa ranh giới giữa thực tế và hư cấu. Mô hình AI này tạo ra video và âm thanh siêu thực, đặt ra thách thức lớn trong việc nhận diện tin tức chính xác.

Sự ra đời của Google Veo 3 đang đánh dấu một cột mốc quan trọng trong lĩnh vực trí tuệ nhân tạo tạo sinh. Đây là mô hình AI tạo video tiên tiến nhất của Google, được công bố tại hội nghị Google I/O 2025. Tuy nhiên, những sự đột phá về khả năng tạo video siêu thực cũng đang định hình lại một cách căn bản bối cảnh thông tin toàn cầu, đặc biệt là trong việc nhận diện tin tức chính thống.
Báo Nhà báo và Công luận đã có cuộc trò chuyện với ông Phạm Tấn Anh Vũ – Trưởng đại diện khu vực phía Nam, Công ty cổ phần giải pháp trí thông minh nhân tạo Việt Nam, VAIS.VN để hiểu rõ hơn về những cơ hội và thách thức mà Veo 3 mang lại, đặc biệt là trong bối cảnh tin tức giả mạo (deepfake) ngày càng tinh vi.
Không chỉ tạo video, mà còn kể chuyện - AI trở thành đạo diễn
PV: Cảm ơn ông đã dành thời gian cho cuộc trò chuyện hôm nay. Trước khi đi vào chủ đề chính, ông có thể chia sẻ cảm nghĩ đầu tiên của mình khi nghe về sự ra đời của Google Veo 3?
Ông Phạm Tấn Anh Vũ: Khi lần đầu tiếp xúc với Veo 3, tôi có cảm giác như đang chứng kiến một khúc quanh lịch sử. Giống như khi Gutenberg phát minh ra máy in - không ai có thể đoán trước được tác động toàn diện của nó lên xã hội loài người. Sự phát triển của Trí tuệ nhân tạo tạo sinh, mà Google Veo 3 là một ví dụ điển hình, không chỉ là một bước tiến công nghệ, mà còn là một phép thử đối với khả năng tư duy phản biện và nấc thang trưởng thành kế tiếp của xã hội phải đương đầu và chấp nhận.

PV: Ông có thể giải thích rõ hơn về những gì làm cho Veo 3 trở nên đặc biệt so với các mô hình AI tạo video trước đây không?
Ông Phạm Tấn Anh Vũ: Điểm đột phá lớn nhất của các mô hình thế hệ mới như Veo 3 không chỉ nằm ở chỗ nó tạo ra video “siêu thực” – tức là trông giống thật. Điểm đột phá thực sự nằm ở khả năng kiến tạo bối cảnh và kể chuyện một cách có logic.
Nói một cách dễ hiểu: Các mô hình trước đây giống như những người họa sĩ có thể vẽ một bức tranh tĩnh rất đẹp, hoặc làm một đoạn hoạt hình ngắn. Chúng có thể tạo ra một cảnh “người đàn ông đang đi bộ”. Nhưng Veo 3 và các mô hình tương lai giống như một đạo diễn phim thực thụ.
PV: Ý ông là thế nào?
Ông Phạm Tấn Anh Vũ: Bạn không chỉ yêu cầu nó tạo ra một hành động mà còn có thể yêu cầu nó tạo ra cả một câu chuyện có hồn. Chẳng hạn, thay vì chỉ nói: “Một người đang khóc”, bạn có thể yêu cầu “Một người lính già ngồi trong căn gác mái cũ, nhìn ra ngoài cửa sổ trong một ngày mưa, một giọt nước mắt lặng lẽ lăn dài trên má khi ông nhìn vào tấm ảnh đen trắng trên tay”.
Và điều kỳ diệu xảy ra - mô hình Veo 3 sẽ tự “hiểu” và kiến tạo nên toàn bộ bối cảnh: ánh sáng u ám của ngày mưa, sự cũ kỹ của căn gác, nét mặt trầm tư của người lính, với từng chi tiết hành động nhỏ nhưng đầy cảm xúc. Sự đột phá này chính là khả năng tạo ra bối cảnh và cảm xúc một cách tự động.
PV: Nghe có vẻ rất ấn tượng! Nhưng ông có lo ngại gì không?
Ông Phạm Tấn Anh Vũ: Đây chính là điểm đáng sợ mà tôi muốn nhấn mạnh. Bởi vì con người chúng ta không chỉ bị thuyết phục bởi hình ảnh, chúng ta bị thuyết phục bởi câu chuyện và cài cắm cảm xúc. Việc lạm dụng công nghệ này một cách “vô tri” - tức là chỉ tập trung vào việc tạo ra sản phẩm mà không suy nghĩ đến câu chuyện nó đang kể và cảm xúc nó đang gieo rắc - sẽ tạo ra những vũ khí truyền thông mạnh mẽ chưa từng có.
PV: Vũ khí truyền thông? Ông có thể giải thích cụ thể hơn không?
Ông Phạm Tấn Anh Vũ: Bạn thấy đấy, khả năng tạo video với âm thanh và lời thoại đồng bộ của Veo 3 đang mang đến cả cơ hội lẫn thách thức lớn cho ngành truyền thông, đặc biệt là báo chí chính thống.
Về mặt tích cực, báo chí có thể trực quan hóa tin tức một cách chưa từng có. Ví dụ, thay vì chỉ viết về một vụ sạt lở đất, một tòa soạn tại địa phương có thể tạo ra một video mô phỏng 3D chi tiết về cách nó đã xảy ra, giúp nâng cao nhận thức của cộng đồng. Việc sản xuất nội dung cũng trở nên nhanh chóng và tiết kiệm chi phí hơn.
PV: Còn về mặt tiêu cực thì sao?
Ông Phạm Tấn Anh Vũ: Thách thức mà nó mang lại lớn hơn rất nhiều. Thách thức lớn nhất là sự sụp đổ của “niềm tin thị giác”. Bởi vì từ trước đến nay, chúng ta có câu thành ngữ: “trăm nghe không bằng một thấy”và báo chí hình ảnh, truyền hình dựa trên nguyên tắc cơ bản: Những gì khán giả thấy là bằng chứng. Nhưng giờ đây, nguyên tắc đó đã chết.
Hãy tưởng tượng một kịch bản “đời sống” như sau: Ngay trước thềm đại hội cổ đông của doanh nghiệp, một video “siêu thực” xuất hiện, cho thấy một ứng cử viên lãnh đạo của đơn vị đang nhận hối lộ, với giọng nói và khẩu hình khớp từng chi tiết. Cho đến khi các chuyên gia có thể phân tích và khẳng định đó là deepfake, thì có lẽ cuộc bầu cử đã kết thúc với thiệt hại đã không thể cứu vãn…
Gây hiệu ứng hoài nghi tất cả mọi thứ, kể cả sự thật
PV: Ông có thể mô tả rõ hơn về “Nguy cơ thật giả lẫn lộn” mà ông đề cập?
Ông Phạm Tấn Anh Vũ: Đây là một hiện tượng mà tôi quan sát và lo ngại sâu sắc. Rủi ro lớn nhất không phải là một video deepfake lừa được vài triệu người. Rủi ro lớn nhất là một tình trạng mà tôi gọi là “Sự ô nhiễm không gian thông tin”, dẫn đến niềm tin từ sự thật bị xói mòn.

Khi môi trường thông tin bị bao phủ bởi quá nhiều thông tin thật - giả lẫn lộn, con người, đặc biệt là giới trẻ, sẽ không còn đủ năng lượng và động lực để phân biệt nữa. Họ sẽ trở nên hoài nghi với tất cả mọi thứ, kể cả sự thật. Họ sẽ nghĩ: “Thôi, tin cái gì mà chẳng được, tất cả đều có thể là giả”. Sự thờ ơ này chính là mảnh đất màu mỡ nhất cho chủ nghĩa cực đoan và các thuyết âm mưu.
PV: Còn về việc thao túng dư luận, ông lo ngại điều gì nhất?
Ông Phạm Tấn Anh Vũ: Điều tôi lo ngại nhất về việc thao túng dư luận là khả năng cá nhân hóa sự thao túng ở quy mô lớn.
Bạn thấy đấy, kẻ xấu không cần tạo ra một video giả mạo chung cho tất cả mọi người nữa. Chúng có thể sử dụng dữ liệu cá nhân của bạn - những gì bạn thích, bạn sợ, bạn bè của bạn là ai - để tạo ra một video deepfake chỉ dành riêng cho bạn.
Một video có thể sử dụng hình ảnh của người thân bạn để lừa đảo. Một video khác có thể dùng giọng nói của một chuyên gia bạn tin tưởng để quảng cáo cho một sản phẩm tài chính độc hại.
PV: Điều này nguy hiểm như thế nào?
Ông Phạm Tấn Anh Vũ: Khi sự tấn công được cá nhân hóa, nó sẽ có sức thuyết phục cao hơn gấp nhiều lần. Giới trẻ, những người chia sẻ rất nhiều dữ liệu cá nhân trên mạng, chính là mục tiêu dễ bị tổn thương nhất. Họ bị thao túng mà không hề hay biết, chỉ đơn giản vì nội dung đó “có vẻ hợp lý” với họ. Đó là câu chuyện thời sự của ngày hôm nay đã diễn ra – Vấn nạn “bắt cóc online”.
Đã đến lúc chuyển từ 'phát hiện' sang 'phòng thủ chủ động'
PV: Vậy làm thế nào để các cơ quan chức năng và báo chí có thể đối phó với tình trạng này?
Ông Phạm Tấn Anh Vũ: Đây là câu hỏi then chốt! Chúng ta phải chấp nhận một sự thật rằng: “Chạy theo để phát hiện thông tin” sẽ luôn là một cuộc đua mà con người sẽ luôn ở thế bị động và thường thua cuộc. Công nghệ tạo điều giả dối sẽ luôn đi trước công nghệ phát hiện. Vì vậy, chiến lược phải thay đổi từ bị động phát hiện sang chủ động xây dựng hàng rào phòng thủ.

PV: Cụ thể là như thế nào?
Ông Phạm Tấn Anh Vũ: Tôi đề xuất ba trụ cột chính:
Thứ nhất, xây dựng “Hệ thống xác thực nguồn”. Thay vì cố gắng chứng minh một video là giả, chúng ta hãy tập trung vào việc chứng minh một video là thật. Báo chí chính thống và cơ quan chức năng cần đi tiên phong trong việc áp dụng các công nghệ như mới về xác thực video hình ảnh của Google C2PA - là viết tắt của Coalition for Content Provenance and Authenticity (Liên minh về Nguồn gốc và Tính xác thực Nội dung).
Đây là một tiêu chuẩn kỹ thuật được thiết kế để theo dõi lịch sử của một bức ảnh, từ khi nó được tạo ra cho đến khi nó được chia sẻ trực tuyến. Mỗi video, hình ảnh được tạo ra sẽ có một “chữ ký số” không thể giả mạo, ghi rõ nó được quay bởi ai, khi nào, ở đâu, có bị chỉnh sửa hay không.
PV: Còn hai trụ cột kia?
Ông Phạm Tấn Anh Vũ: Thứ hai là chiến lược “Tạm gọi là tiêm vắc-xin thông tin”. Tức là, chúng ta tạo ra các chiến dịch truyền thông quy mô lớn, chỉ cho người dân, đặc biệt là học sinh, sinh viên, biết về các kỹ thuật tạo tin giả, các thủ đoạn lừa đảo. Khi họ đã biết “bài”, họ sẽ có sức đề kháng tốt hơn.
Thứ ba là hợp tác quốc tế. Tin giả không có biên giới. Các chính phủ, các công ty công nghệ và các tổ chức báo chí cần có một liên minh toàn cầu để chia sẻ dữ liệu và phương pháp đối phó một cách nhanh chóng nhất.
PV: Như vậy ý của ông là giáo dục kỹ năng số và tư duy phản biện phải không?
Ông Phạm Tấn Anh Vũ: Giáo dục kỹ năng số và tư duy phản biện là nền tảng, là điều kiện cần, nhưng chắc chắn là chưa đủ.
Để tôi giải thích thêm: Dạy một đứa trẻ biết bơi là rất quan trọng. Nhưng nếu bạn thả đứa trẻ đó vào một cơn sóng thần, kỹ năng bơi lội sẽ trở nên vô nghĩa. “Cơn bão thật giả lẫn lộn” chính là cơn sóng thần đó.
Việc giáo dục nếu đặt toàn bộ gánh nặng lên vai người dùng cá nhân có thể thất bại hoàn toàn. Chúng ta không thể kỳ vọng một người bình thường, một học sinh, có thể một mình chống lại sản phẩm của những cỗ máy AI trị giá hàng tỷ đô la, được thiết kế để khai thác những điểm yếu tâm lý sâu sắc nhất của con người.
PV: Chúng ta có cần thêm những biện pháp mạnh mẽ hơn từ phía các nền tảng và cơ quan quản lý?
Ông Phạm Tấn Anh Vũ: Theo tôi, đầu tiên cần quy định về trách nhiệm của nền tảng. Các mạng xã hội phải chịu trách nhiệm pháp lý về việc lan truyền các nội dung deepfake độc hại. Họ phải có nghĩa vụ dán nhãn rõ ràng tất cả các nội dung do AI tạo ra. Việc này các mạng xã hội lớn như Facebook, Youtube bắt đầu “đánh gậy” và loại bỏ dần dần các nội dung được sáng tạo từ AI.
Thứ hai, luật hóa tính minh bạch của thuật toán. Các nền tảng công nghệ như Chatgpt, Grok, Gemini… phải công khai cách thuật toán của họ đề xuất nội dung cho người dùng, đặc biệt là những nội dung nhạy cảm liên quan đến chính trị, xã hội.
Cuối cùng, chế tài xử phạt nghiêm khắc. Phải có những hình phạt đủ sức răn đe đối với các cá nhân, tổ chức cố tình tạo và phát tán thông tin giả mạo bằng AI để phá hoại, gây bất ổn hoặc lừa đảo.
PV: Xin cảm ơn ông về cuộc trò chuyện!