Dữ liệu: Nền tảng gốc rễ giúp tòa soạn phát triển và mở rộng trong kỷ nguyên số
(CLO) Trong kỷ nguyên số, dữ liệu không chỉ là con số – mà là nhịp đập của tòa soạn hiện đại. Mỗi cú nhấp chuột, thời gian dừng lại ở một bài viết, hay chủ đề được tìm kiếm nhiều nhất… đều phản ánh nhu cầu và thói quen tiêu thụ tin tức của độc giả. Với dữ liệu, báo chí đang chuyển mình từ “sản xuất hàng loạt” sang “may đo nội dung”.
Chiều 20/6 tại Trung tâm Hội nghị quốc gia, TP Hà Nội, Diễn đàn Báo chí toàn quốc 2025 – sự kiện diễn ra trong khuôn khổ Hội báo Toàn quốc 2025 - tiếp tục diễn ra với các phiên hội thảo chuyên sâu về các vấn đề nổi bật nhất hiện nay của báo giới nước nhà, cũng như trên thế giới nói chung. Và một trong những yếu tố quan trọng nhất trong thế giới báo chí trong kỷ nguyên số, kỷ nguyên AI là dữ liệu.

"Dữ liệu là gốc của toà soạn hiện đại"
Và như cái tên chủ đề, phiên hội thảo “Dữ liệu là gốc của tòa soạn hiện đại” đã nói lên tất cả về tầm quan trọng của dữ liệu trong kỷ nguyên mới của báo chí. Các tòa soạn tiên tiến trên thế giới và tại Việt Nam đang tận dụng sức mạnh của dữ liệu để nâng cao chất lượng và hiệu quả nội dung.
Phát biểu mở màn phiên hội thảo , người điều phối - ông Nguyễn Hoàng Nhật - Phó Trưởng Ban Nhân dân điện tử, Báo Nhân Dân – đã nhấn mạnh tầm quan trọng của dữ liệu trong báo chí hiện nay rằng: “AI dù hiện đại như thế nào nhưng mà nếu mà không có dữ liệu thì AI mà biết lấy gì bán đúng không? Nếu không có dữ liệu thì đối với báo chí số bây giờ thì cũng sẽ không kiếm được tiền đúng không?”.
Trong phiên tham luận với chủ đề “Dữ liệu và truyền hình số – Làm chủ công nghệ để giữ chân khán giả đa nền tảng”, ông Phạm Anh Chiến, Phó Giám đốc Trung tâm Sản xuất và Phát triển nội dung số Đài Truyền hình Việt Nam (VTV Digital) đã phần nào cho thấy tầm quan trọng của việc sở hữu và làm chủ dữ liệu trong truyền hình nói riêng và các nền tảng báo chí khác nói chung.
Ông Phạm Anh Chiến chia sẻ về sự chuyển dịch mạnh mẽ của Đài Truyền hình Việt Nam (VTV) từ một đơn vị sản xuất nội dung truyền hình sang một mô hình kinh doanh đa dạng, trong đó dữ liệu đóng vai trò then chốt. VTV đã phải đối mặt với sự cạnh tranh lớn từ các công ty công nghệ nắm giữ lượng lớn dữ liệu và nền tảng người dùng. Bởi vậy, VTV đã xây dựng "kho dữ liệu người dùng" và "kho nội dung" với metadata sâu rộng, xem đây là tài nguyên chưa được khai thác hết và là chìa khóa để cạnh tranh và phát triển bền vững.
.png)
Ông Chiến đã trình bày về tầm nhìn của VTV Digital trong việc phát triển VTVGO, nền tảng số quốc gia của VTV. Theo ông, chính nhờ sở hữu và làm chủ được dữ liệu, thì từ một ứng dụng xem truyền hình đã chuyển mình thành một "siêu ứng dụng" (super app) dựa trên dữ liệu và hành vi của hàng chục triệu người dùng trên VTVGO. Ông Chiến nhấn mạnh rằng dữ liệu người dùng không chỉ đến từ người xem nội dung VTV mà còn từ toàn bộ hệ sinh thái sản phẩm, dịch vụ của VTV.
Một sản phẩm tiêu biểu từ việc khai thác dữ liệu của VTV là VTV Ratings, một bộ chỉ số đo lường khán giả truyền hình trên nhiều nền tảng, dựa trên dữ liệu đa nguồn về hành vi xem của khán giả. VTV Ratings sử dụng công nghệ Big Data và khoa học dữ liệu để cung cấp thông tin chính xác, minh bạch, hoàn toàn miễn phí, giúp VTV đưa ra chiến lược sản xuất và phân phối nội dung khoa học hơn.
“VTV Ratings là bộ chỉ số đo lường khán giả truyền hình trên nhiều nền tảng của Đài truyền hình Việt Nam. Sử dụng dữ liệu đa nguồn về hành vi xem của khán giả với các kênh truyền hình và nền tảng truyền hình của VTV. Là kết quả của cách thức đo lường ứng dụng công nghệ big data và khoa học dữ liệu. VTV Ratings bước tiến tất yếu giúp Đài truyền hình Việt Nam bắt kịp xu thế truyền hình hiện đại… Chúng tôi mong muốn hiểu khán giả của mình qua mỗi ngày”, ông Thắng nhấn mạnh tầm quan trọng của việc dữ liệu để nắm bắt nhu cầu của khán giả.
“Vì thế mà hệ thống các chỉ số VTV Rating giúp đài truyền hình Việt Nam hiểu rõ hơn về thói quen, sở thích, xem truyền hình của khán giả. Cũng như đánh giá chính xác khách quan toàn diện hơn. Các chương trình do đài sản xuất. Đó cũng là cơ sở để các đơn vị sản xuất nội dung không ngừng đổi mới sáng tạo, nâng cao chất lượng chương trình. Xây dựng kế hoạch phân phối nội dung một cách khoa học để tiếp tục khán giả nhanh nhất và hiệu quả nhất”.
“Dữ liệu là nền tảng, không phải là đũa thần"
Tầm quan trọng của dữ liệu người dùng, trong đó có thói quen, sở thích và cách độc giả tương tác với nội dung, cũng được bà Nguyễn Thu Hương (Phó Tổng Biên tập VnExpress) làm rõ và củng cố trong tham luận “Từ bão Yagi đến tương lai báo chí dữ liệu – Kinh nghiệm của VnExpress”.
Bà Nguyễn Thu Hương mang đến câu chuyện thực tế về hành trình sử dụng dữ liệu tại VnExpress, một trong những báo điện tử tiếng Việt có lượng người xem lớn nhất. VnExpress bắt đầu thu thập dữ liệu từ những ngày đầu thành lập năm 2001, với các chỉ số cơ bản như "page hits". Đến hơn 10 năm sau, khi Google Analytics Universal ra mắt, họ mới có thể phân tích sâu hơn về tương tác độc giả với sản phẩm.

Ban đầu, việc sử dụng dữ liệu còn sơ khai, chủ yếu để điều phối nội dung trang nhất. Tuy nhiên, các câu hỏi phức tạp hơn dần xuất hiện (như tại sao Pageview giảm, ai là độc giả trung thành), thúc đẩy VnExpress xây dựng nhóm dữ liệu nội bộ vào năm 2019. Mục tiêu là sử dụng dữ liệu để phát triển độc giả và tăng trưởng doanh thu, tập trung vào việc điều phối sản xuất hiệu quả và phát triển độc giả trung thành.
VnExpress phân loại dữ liệu thành 5 nhóm chính: dữ liệu độc giả, dữ liệu hành vi, dữ liệu nội dung, dữ liệu quảng cáo và dữ liệu tương tác/phản hồi. Họ đã xây dựng ba hệ thống dữ liệu chính: VnExpress Analytic (cho Ban Biên tập), Audience Data Platform (cho hành vi độc giả, cá nhân hóa) và Sales Inventory System (cho quảng cáo).
Lý do VnExpress tự xây dựng hệ thống thay vì dùng các công cụ bên ngoài là chi phí khổng lồ, bảo mật dữ liệu, hạn chế tùy chỉnh của đối tác và khả năng kiểm soát lỗi. Bà Hương thừa nhận việc xây dựng đội ngũ dữ liệu gặp thách thức do sự khác biệt về tư duy giữa nhà báo và chuyên gia dữ liệu, cũng như việc các nhân sự dữ liệu từ ngành khác cần thời gian để hiểu bối cảnh báo chí.
Cuối cùng, bà Hương đúc kết rằng "Dữ liệu là nền tảng, không phải là đũa thần". Việc sử dụng dữ liệu hiệu quả đòi hỏi sự liên tục, kiên trì, chấp nhận sai và sửa, phục vụ mục tiêu cụ thể, và chỉ nên là bổ trợ cho việc ra quyết định chứ không phải là yếu tố duy nhất.
Hãy minh bạch và bảo vệ quyền riêng tư dữ liệu
Việc sử dụng dữ liệu đang được xem là yếu tố then chốt, là gốc rễ, đối với truyền thông và báo chí. Tuy nhiên, việc sử dụng như thế nào và theo nguyên tắc nào cũng quan trọng không kém, vì nếu không cẩn thận việc sử dụng dữ liệu có thể vi phạm bản quyền, vi phạm quyền cá nhân dữ liệu người dùng – một trong những vấn đề cũng được nói đến rất nhiều trên truyền thông thế giới.
Chuyên gia Ngô Mạnh Hà (Giám đốc Công ty TechX) trong tham luận “Bảo vệ và chia sẻ quyền riêng tư dữ liệu trong báo chí” đã chia sẻ và đưa ra những kiến thức quan trọng trong lĩnh vực này. Ông đã nhấn mạnh rằng dữ liệu cá nhân trong báo chí bao gồm cả thông tin định danh và hành vi của người dùng, được thu thập qua phỏng vấn, hình ảnh, hành vi đọc tin và khảo sát. Đặc biệt, dữ liệu liên quan đến hình ảnh và vị trí là rất nhạy cảm.

Ông chỉ ra năm thách thức phổ biến hiện nay: Thiếu quy trình quản trị dữ liệu cá nhân; Mâu thuẫn giữa quyền đưa tin và quyền riêng tư; Áp lực thương mại hóa dữ liệu người đọc; Rủi ro khi chia sẻ dữ liệu với bên thứ ba; Năng lực kỹ thuật bảo mật thông tin còn hạn chế.
Để giải quyết những thách thức này, ông Hà đề xuất tuân thủ năm nguyên tắc cốt lõi: Minh bạch - Công khai mục đích thu thập dữ liệu. Tối giản; Chỉ thu thập dữ liệu thực sự cần thiết; Bảo mật - Áp dụng mã hóa và phân quyền; Đồng thuận - Người dùng phải được thông báo và đồng ý; Tôn trọng quyền được quên và ẩn danh.
Phiên thảo luận cũng trở nên thực tế và sinh động hơn khi ông Bùi Công Duyến, Giám đốc sản phẩm Tòa soạn hội tụ ONECMS, trình bày về một vấn đề rất quan trọng khác của báo chí dữ liệu, đó là sử dụng dữ liệu lớn, dữ liệu chuyên sâu để tạo ra những bài báo chất lượng.
Ông đưa ra những bài báo nổi bật trên thế giới và Việt Nam để minh họa về loại hình báo chí hiện đại và thu hút độc giả này, như "Xung đột Nga - Ukraine qua bản đồ" (Financial Times); "Thời kỳ thảm sát" (The Guardian); "Dòng tiền hối lộ của chuyến bay giải cứu" (VnExpress); "Cuộc chiến với biến chủng Delta" (Nhân Dân), "Chi tiết bản đồ đơn vị hành chính mới của Việt Nam" (VietNamNet).
Những tác phẩm này cho thấy khả năng kể chuyện bằng dữ liệu trực quan, giúp công chúng tiếp cận thông tin phức tạp một cách rõ ràng và sinh động.
.png)
Ông Duyến cũng đề cập đến nhiều công cụ hỗ trợ báo chí dữ liệu hiện đại, như công cụ trực quan hóa dữ liệu giúp trình bày dữ liệu một cách hấp dẫn, dễ hiểu. Công cụ thu thập, xử lý và phân tích dữ liệu giúp tăng độ chính xác và chiều sâu cho các tác phẩm.
Phiên hội thảo cho thấy rằng, trong báo chí hiện đại, bên cạnh cơ hội và tầm quan trọng “gốc rễ”, dữ liệu cũng đặt ra nhiều thách thức: làm sao để cân bằng giữa cá nhân hóa và quyền riêng tư? Làm thế nào để đảm bảo sự chính xác của AI và không làm mờ đi vai trò của con người trong quy trình sản xuất tin?
Chuyển đổi số trong báo chí không đơn thuần là áp dụng công nghệ – đó là hành trình thay đổi tư duy, lấy dữ liệu làm nền tảng, lấy độc giả làm trung tâm, và lấy sự minh bạch làm kim chỉ nam.
Một số hình ảnh tại phiên hội thảo:
.png)
.png)
.png)
.png)
.png)