Đánh giá mức độ tin cậy của các công cụ AI trong báo chí
(CLO) Các công cụ AI được cho là có thể giúp nhà báo trong nhiều tác vụ, từ phiên âm, ghi chú, tóm tắt, đến nghiên cứu và phân tích dữ liệu. Nhưng liệu chúng có đủ đáng tin để sử dụng thường xuyên trong tòa soạn? Câu trả lời vẫn chưa rõ ràng.
Hầu hết các tòa soạn đều đã có chính sách về AI, nhưng chúng thường rất chung chung, không đi sâu vào chi tiết công việc hàng ngày của phóng viên. Điều này khiến các nhà báo phải tự tìm tòi, dựa vào "cảm giác" của mình để đánh giá công cụ nào hữu ích.
Jeremy Merrill, một phóng viên tại Washington Post, từng thử nghiệm các công cụ một cách ngẫu nhiên. Tuy nhiên, anh nhanh chóng nhận ra phương pháp này không đủ. Anh nói: "Cảm giác không thể nói lên tất cả. Bạn không thể biết nó chính xác 60%, 70% hay 95%". Florent Daudens, trưởng nhóm báo chí tại Hugging Face, đồng tình rằng cách tiếp cận này chỉ dựa trên "sở thích về phong cách" chứ không phải độ chính xác.
Nhận thấy nhu cầu cấp thiết về các tiêu chuẩn đánh giá nghiêm ngặt hơn, một nhóm các nhà báo, học giả và trợ lý nghiên cứu tại Khoa Báo chí Đại học New York, Đại học Virginia và MuckRock đã tiến hành một nghiên cứu sâu rộng. Họ tập trung vào hai loại công cụ AI có tiềm năng ứng dụng cao trong báo chí: chatbot tóm tắt cuộc họp và công cụ nghiên cứu khoa học.
.png)
Đánh giá công cụ AI tóm tắt cuộc họp
Các nhà báo thường phải đọc hàng đống báo cáo và biên bản cuộc họp dài. Một công cụ AI có thể tóm tắt lại nội dung sẽ tiết kiệm được rất nhiều thời gian. Nhóm nghiên cứu đã sử dụng 4 chatbot phổ biến để tóm tắt biên bản các cuộc họp chính quyền địa phương: ChatGPT-4o, Claude Opus 4, Perplexity Pro, và Gemini 2.5 Pro.
Mỗi công cụ được yêu cầu tạo ra cả bản tóm tắt ngắn (khoảng 200 từ) và dài (khoảng 500 từ) cho cùng một tài liệu, sử dụng các gợi ý khác nhau, từ đơn giản đến chi tiết. Kết quả được so sánh với một bản tóm tắt do con người viết, với trọng tâm đánh giá là độ chính xác, tính nhất quán và tình trạng "ảo giác" (hallucination).
Kết quả cho thấy, với bản tóm tắt ngắn, các mô hình AI (trừ Gemini 2.5 Pro) hoạt động xuất sắc, vượt trội hơn cả bản tóm tắt do con người viết. Chúng đưa ra nhiều sự kiện hơn và ít ảo giác. Điều đáng chú ý là gợi ý đơn giản "Hãy tóm tắt ngắn gọn tài liệu này" mang lại kết quả chính xác cao nhất.
Với bản tóm tắt dài, kết quả bất ngờ tệ. Các bản tóm tắt dài do AI tạo ra chỉ chứa khoảng 50% thông tin so với bản tóm tắt do con người viết và có nhiều ảo giác hơn.
Mặc dù một bản tóm tắt dài do AI tạo ra chỉ mất khoảng một phút, trong khi bản tóm tắt tương tự của con người mất 3 - 4 giờ, điều này cho thấy sự hy sinh đáng kể về độ chính xác.
Trong số các công cụ được thử nghiệm, ChatGPT-4o cho thấy hiệu suất đáng tin cậy và chính xác nhất, với tỷ lệ ảo giác dưới 1%. Nó cùng với Claude Opus 4 duy trì độ chính xác và tính nhất quán cao. Perplexity Pro và ChatGPT-4o được đánh giá cao về trải nghiệm người dùng.
Nhóm nghiên cứu kết luận, hiện các nhà báo nên sử dụng các công cụ này để tạo bản tóm tắt ngắn cho mục đích nghiên cứu ban đầu và luôn kiểm tra lại thông tin. Bản tóm tắt dài hơn chỉ nên dùng để nắm bắt ý chính và không nên dùng để xuất bản.
Đánh giá công cụ AI nghiên cứu khoa học
Đối với các nhà báo khoa học, việc xác định các nghiên cứu "đột phá" có thực sự đáng tin cậy hay không là một thách thức lớn. Các công cụ AI hứa hẹn sẽ tự động hóa việc tìm kiếm các bài báo liên quan và tóm tắt lại, một quá trình thường được gọi là "đánh giá tài liệu".
Nhóm nghiên cứu đã đánh giá 5 công cụ: Elicit, Semantic Scholar, ResearchRabbit, Inciteful và Consensus. Họ yêu cầu các công cụ này tạo danh sách các bài báo liên quan cho 4 bài báo học thuật đã đoạt giải thưởng. Các trích dẫn thực tế trong các bài báo này được dùng làm chuẩn mực so sánh.
Kết quả thử nghiệm cho thấy một thực tế đáng báo động. Các công cụ nghiên cứu AI thiếu độ chính xác một cách nghiêm trọng, với hầu hết chúng không thể tạo ra danh sách trích dẫn trùng khớp đáng kể so với chuẩn mực của con người. Trong 4 bài kiểm tra, đa số các công cụ chỉ tìm được chưa đến 6% số bài báo liên quan, và trong một số trường hợp thậm chí là 0%.
Đáng lo ngại hơn, sự thiếu nhất quán còn thể hiện rõ khi các công cụ không chỉ bỏ sót các trích dẫn mà con người đã tìm thấy, mà còn bất đồng với nhau. Khi chạy lại cùng một thử nghiệm, nhiều công cụ lại trả về các kết quả khác biệt, cho thấy sự thiếu tin cậy về lâu dài.
Điều này cho thấy các công cụ nghiên cứu AI hiện tại chỉ là "quảng cáo thổi phồng hơn là hỗ trợ thực sự". Dựa vào chúng để hiểu bối cảnh khoa học có thể dẫn đến việc hiểu sai và trình bày sai lệch thông tin. Eric Olson, CEO của Consensus, thừa nhận mục tiêu của họ là giúp các nhà nghiên cứu làm việc nhanh hơn, chứ không phải vượt trội hơn các công trình học thuật đã được thẩm định.
Dựa trên nghiên cứu, các công cụ AI không phải là giải pháp vạn năng cho mọi tác vụ báo chí. Mặc dù chúng có thể rất hữu ích trong việc tạo ra các bản tóm tắt ngắn và chính xác cho tài liệu dài, nhưng hiệu suất lại kém đi rõ rệt khi đối mặt với các nhiệm vụ phức tạp hơn như tóm tắt chi tiết hoặc nghiên cứu chuyên sâu.
Nhóm nghiên cứu khuyến nghị các nhà báo nên tiếp tục sử dụng AI như một công cụ hỗ trợ, nhưng phải luôn kiểm tra lại thông tin và không nên phụ thuộc hoàn toàn vào chúng. Hiện tại, các công cụ này chỉ thực sự hiệu quả khi sử dụng cho các mục đích nghiên cứu cơ bản, giúp tiết kiệm thời gian nhưng không thay thế được khả năng phân tích và thẩm định của con người.