Báo chí - Công nghệ

RAG, cấu trúc biến AI trở thành 'đồng nghiệp đáng tin cậy' của nhà báo

Ngọc Ánh (theo Nieman Lab) 10/08/2025 11:25

(CLO) Hiện nhiều tổ chức, đặc biệt cơ quan báo chí trên toàn cầu, đang thiết lập các mô hình AI hoạt động dựa trên một cấu trúc đặc biệt gọi là Retrieval-Augmented Generation (tạm dịch: Tạo sinh dựa trên truy xuất tăng cường - RAG).

Hiểu một cách đơn giản, nếu các AI thông thường dễ bị "ảo giác" (hallucination) - tự tạo ra thông tin không có thật - thì RAG hoạt động như một nhà báo cẩn trọng: nó chỉ lấy thông tin từ một nguồn dữ liệu đã được xác thực và đáng tin cậy.

Nguồn này có thể là kho lưu trữ tin tức, các văn bản pháp luật, hay báo cáo điều tra của chính tòa soạn. Điều này giúp các nhà báo có được câu trả lời chính xác và minh bạch, không phải lo lắng về việc thông tin bị sai lệch.

Tóm lại, đây sẽ là kỹ thuật giúp các tổ chức hoặc cá nhân tự tạo ra mô hình hay chatbot AI của riêng mình, hoàn toàn dựa vào dữ liệu hoặc nguồn thông tin được chủ thể cung cấp, qua đó sẽ tạo ra những câu trả lời đáng tin cậy hơn.

Ảnh minh họa.

RAG đang được xem như là cách thức giúp các nhà báo giải quyết những bài toán sau:

  • "Đào vàng" trong dữ liệu: Báo chí điều tra đòi hỏi phải phân tích hàng nghìn trang tài liệu công khai từ các cơ quan nhà nước, báo cáo tài chính doanh nghiệp hay dữ liệu môi trường. Thay vì tốn hàng tháng trời đọc thủ công, một hệ thống AI dựa trên RAG có thể nhanh chóng phân tích, so sánh và chỉ ra những điểm bất thường, giúp nhà báo tìm thấy "điểm nóng" để tập trung điều tra.
  • Tăng tốc tin tức: Đối với tin tức thời sự, RAG có thể giúp các tòa soạn xây dựng một hệ thống tra cứu nội bộ, tổng hợp nhanh các thông tin về nhân vật, sự kiện hoặc lịch sử một vấn đề từ kho dữ liệu đã có. Điều này giúp các phóng viên lên bài nhanh và chính xác hơn, mà vẫn đảm bảo tính chân thực của thông tin.

Những tờ báo lớn trên thế giới như Financial Times hay Washington Post đã sử dụng công nghệ này để tạo ra các bot tìm kiếm, tóm tắt tin tức và hỗ trợ độc giả. Cụ thể, chatbot Ask FT của Financial Times, sử dụng nội dung của tờ báo này để trả lời các truy vấn của độc giả và đã được 35.000 độc giả sử dụng kể từ khi chính thức ra mắt vào tháng 4.

Một ví dụ sử dụng cấu trúc RAG đơn giản và hiệu quả khác là tại Na Uy, công cụ "FOIA Bot" đã tích hợp bộ luật thông tin cùng tên FOIA của nước này để trả lời truy vấn về các vấn đề liên quan.

Ngoài việc tự tạo ra các mô hình AI dựa trên cấu trúc RAG, các tòa soạn, nhà báo và những người làm công việc khác cũng có thể sử dụng ngay các nền tảng AI có sẵn hoạt động gần như theo cách thức tương tự (lấy thông tin và dữ liệu được cung cấp) như NotebookLM (Google), Humata.ai, ChatPDF, Deep Research (ChatGPT) hay Copilot Retrieval API (Microsoft).

Rõ ràng, AI không còn là câu chuyện của riêng một quốc gia nào, mà là một công cụ chung cho tất cả những ai muốn làm báo hiệu quả hơn.

Nhưng trách nhiệm của con người vẫn là cốt lõi

Dẫu vậy, không phải ai cũng bị thuyết phục. Robin Berjon, cựu Phó Chủ tịch quản trị dữ liệu của New York Times, cho rằng việc tóm tắt từ RAG vẫn tiềm ẩn sai sót: “Nếu AI chỉ trích lại tài liệu gốc thì không sao, nhưng nếu nó tóm tắt, tôi không thể tin nếu không có trích dẫn cụ thể”.

Một nghiên cứu từ nhóm AI Trách nhiệm của Bloomberg cho thấy những rủi ro tiềm ẩn. Sử dụng RAG dựa trên Wikipedia, họ đặt ra 5.000 câu hỏi về phần mềm độc hại, gian lận và hoạt động bất hợp pháp. Mô hình RAG trả lời những câu hỏi mà các AI thông thường thường từ chối. Điều này làm tăng nguy cơ lạm dụng.

Sebastian Gehrmann của Bloomberg nhấn mạnh: “Muốn đưa ra quyết định sáng suốt về việc triển khai hay không, bạn phải hiểu được tần suất gây ảo giác và tạo thông tin sai của hệ thống”.

Berjon cho rằng thách thức lớn nhất hiện nay là làm cho người dùng hiểu được AI hoạt động như thế nào. “Các tổ chức tin tức vốn đã rất kém trong việc giải thích cho độc giả mức độ công sức bỏ ra cho một bài báo. Giờ lại thêm AI? Phức tạp hơn nhiều”.

Theo ông, thay vì dán dòng chữ nhỏ “nội dung do AI tạo ra”, các tòa soạn cần đầu tư nghiêm túc vào trải nghiệm người dùng, giúp độc giả hiểu rõ mức độ đáng tin cậy và giới hạn của từng công cụ.

“Bạn phải biến độ tin cậy thành một phần cốt lõi của trải nghiệm”, Berjon nói. “Nếu không, thứ bạn tạo ra sẽ là một chatbot giỏi tưởng tượng hơn là một công cụ phục vụ sự thật”.

Ngọc Ánh (theo Nieman Lab)