Điều chỉnh kích thước chữ

Đại học Johns Hopkins và "cái rốn dữ liệu Covid-19 " của truyền thông thế giới

(CLO) Kể từ khi đại dịch Covid-19 xuất phát từ Vũ Hán, Trung Quốc rồi bùng phát trên toàn cầu, cái tên của trường Đại học Johns Hopkins được nhắc đi nhắc lại hàng ngày trên các phương truyền thông.

Audio
Đại học Johns Hopkins, nơi phát triển Bảng dữ liệu Covid-19 đáng tin cậy nhất.

Đại học Johns Hopkins, nơi phát triển Bảng dữ liệu Covid-19 đáng tin cậy nhất.

Cùng với Worldometers thì Đại học Johns Hopkins là cụm từ được trích dẫn nhiều nhất kể từ khi đại dịch Covid-19 bùng phát.

Lí do bởi vì các nhà khoa học tại trường Đại học này đã xây dựng được một Bản đồ số Covid-19, đây được coi là cái "rốn dữ liệu" khiến hầu hết các hãng thông tấn, báo chí trên toàn thế giới dựa vào để cập nhật thống kê về dịch bệnh để đưa tin hàng ngày.

Hệ thống theo dõi dữ liệu Covid-19 của Đại học Johns Hopkins được coi là bền bỉ và đáng tin cậy nhất trên thế giới cho đến nay.

Đang theo dõi sởi, chuyển sang theo dõi Covid-19

Tháng 12/2019, khi căn bệnh mà ngày nay được gọi là Covid-19 xuất hiện tại Trung Quốc, Ensheng Dong đang nghiên cứu sự lây lan của bệnh sởi.

Chàng sinh viên năm nhất ngành kỹ thuật dân dụng và hệ thống chuyên về dịch tễ học tại Đại học Johns Hopkins ở Baltimore, Maryland (Mỹ), ngay lập tức quan tâm và theo dõi tình hình dịch bệnh này.

Ngày 22/1, Dong kết hợp Lauren Gardner, giám đốc Trung tâm Khoa học và Kỹ thuật Hệ thống (CSSE) tại Hopkins, cho ra mắt Bảng dữ liệu Covid-19 nhằm theo dõi sự lây lan của dịch bệnh này.

Bảng dữ liệu Covid-19 này nhanh chóng được lan truyền trên Internet. Nó đã trở thành một công cụ được sử dụng trên các trang tin tức và trên truyền hình toàn thế giới, để theo dõi tổng số trường hợp được xác nhận nhiễm Covid-19, số ca tử vong và số ca phục hồi trên toàn cầu.

Trang web mà Dong xây dựng chỉ trong vài giờ nhận được hơn một tỷ lượt truy cập mỗi ngày.

Cơ hội hiếm có để xây dựng cơ sở dữ liệu về căn bệnh mới

Nhóm của Gardner đã dồn toàn lực để nghiên cứu hành vi dân số, khả năng di chuyển và các yếu tố khác gây ảnh hưởng đến nguy cơ mắc bệnh. Họ xây dựng các mô hình toán học để dự đoán nơi các điểm nóng dịch bệnh có khả năng phát sinh.

Sự bùng phát đột ngột của Covid-19, căn bệnh do virus SARS-CoV2 gây ra, đã tạo ra "cơ hội hiếm hoi gần như duy nhất để bắt đầu xây dựng một bộ dữ liệu cho một bệnh truyền nhiễm mới xuất hiện trong thời gian thực", bà Gardner nói.

Nhóm của bà có thể sử dụng những dữ liệu thu thập được để xây dựng các mô hình toán học chính xác hơn về khả năng lây lan của căn bệnh.

Họ nhận ra cơ sở dữ liệu này sẽ có ích cho các nhà nghiên cứu, nhóm nghiên cứu khác nên đã quyết định chia sẻ dữ liệu một cách rộng rãi.

"Đây là một quyết định rất bất ngờ, chúng tôi đơn giản chỉ nghĩ rằng hãy xây dựng bộ dữ liệu này, tiếp tục cập nhật nó, và chia sẻ công khai".

Gardner cho biết đối tượng ban đầu của bảng dữ liệu này là cộng đồng nhà nghiên cứu như các nhà dịch tễ học và người lập mô hình bệnh tật khác.

Giao diện Bảng dữ liệu Covid-19 của Đại học Johns Hopkins

Giao diện Bảng dữ liệu Covid-19 của Đại học Johns Hopkins

Nhưng bất ngờ, cả thế giới đã chú ý đến nó. Bản đồ dữ liệu này nhận được hơn một tỷ tương tác mỗi ngày.

Cả Dong và Gardner ban đầu dự đoán số người quan tâm chỉ tầm hàng trăm hoặc hàng ngàn người mà thôi. "Chúng tôi đều rất ngạc nhiên với sự quan tâm đặc biệt của công chúng."

Theo Dong, Bảng dữ liệu rất dễ xây dựng, một phần vì nhóm đã xây dựng một cái gì đó tương tự trước đấy. Trước khi Covid-19 nổ ra, Gardner và Dong đã tìm kiếm các điểm nóng bệnh sởi, sử dụng ArcGIS, một công cụ lập bản đồ không gian địa lý từ Esri, có trụ sở tại Redlands, California, để mô hình hóa  kết quả của họ.

Và chính những kinh nghiệm đó khiến cho việc xây dựng Bảng dữ liệu cho Covid-19 trở nên đơn giản.

Dữ liệu đến từ nhiều nguồn khác nhau gồm mạng xã hội, Tổ chức Y tế thế giới, Trung tâm kiểm soát và phòng ngừa dịch bệnh Hoa Kỳ, Trung tâm phòng chống dịch bệnh châu Âu, Ủy ban y tế quốc gia Trung Quốc, và các cơ quan truyền thông, y tế trên khắp thế giới.

Những dữ liệu được thu thập, sau đó được tổng hợp và xuất bản lên GitHub (một kho dữ liệu lớn cho lập trình viên).

Từ đây dữ liệu được đẩy lên nền tảng ArcGIS, nơi tái hiện dữ liệu "thô" lên bảng thông tin và khiến nó trực quan hơn.

Ban đầu, những dữ liệu đó được thu thập và nhập thủ công, đầu tiên là Dong và sau đó bởi các sinh viên làm việc theo ca. Nhưng khi căn bệnh lây lan rộng, việc này trở nên không hiệu quả.

Ensheng Dong, chàng sinh viên năm nhất ngành kỹ thuật dân dụng và hệ thống chuyên về dịch tễ học tại Đại học Johns Hopkins.

Ensheng Dong, chàng sinh viên năm nhất ngành kỹ thuật dân dụng và hệ thống chuyên về dịch tễ học tại Đại học Johns Hopkins.

Vì vậy, nhóm tìm cách để tự động hóa toàn bộ quá trình. Ngày nay, bảng thông tin được cung cấp chủ yếu bằng cách sử dụng công cụ quét trang web chủ động một cách tự động giúp dữ liệu được cập nhật gần như trong thời gian thực.

Vì vậy, trên thực tế, bảng thông tin này thường báo cáo về các trường hợp nhiễm bệnh đầu tiên của các quốc gia trước cả cơ quan y tế địa phương.

Bộ dữ liệu cơ bản, được lưu trữ trên trang GitHub, đã được đánh dấu sao yêu thích tới gần 20.000 lần, với gần 1.700 đề xuất, báo cáo lỗi được gửi và hơn 350 thay đổi dữ liệu được đề xuất. Gardner cho biết việc đáp ứng tất cả các đề xuất, truy vấn và sửa lỗi gần như là điều bất khả thi.

Một bài báo mô tả bảng thông tin này được xuất bản trên tạp chí Bệnh truyền nhiễm Lancet vào ngày 19/2 và theo Google, nó đã được trích dẫn tới 79 lần.

Dù nhận được nhiều trợ giúp từ các thành viên trong trường và các công ty khác nhưng thực tế nhóm chỉ có 5 thành viên chủ chốt thực hiện hầu hết các công việc để vận hành Bảng dữ liệu này.

Khó khăn và thách thức địa chính trị

"Chúng tôi xứng đáng với một kỳ nghỉ trọn vẹn, sau khi dịch bệnh lắng xuống và mọi người không còn phải thực hiện giãn cách xã hội", Gardner hóm hỉnh nói. "Bạn có biết chúng tôi làm việc bao nhiêu giờ mỗi ngày không?".

Tốc độ, phạm vi và sự lây lan của dịch bệnh khiến nhóm phải càng nỗ lực hơn. Sự nổi tiếng của Bảng thông tin này khiến việc vận hành, duy trì trở nên khó khăn. 

Phòng thí nghiệm Vật lý Ứng dụng tại Johns Hopkins và Esri, công ty có phần mềm lập bản đồ được xây dựng đã cử các đội nhóm tham gia cùng để trợ giúp Bảng thông tin vận hành tốt kể cả trong thời điểm có rất nhiều người truy cập.

Lauren Gardner, chủ nhiệm nhóm nghiên cứu.

Lauren Gardner, chủ nhiệm nhóm nghiên cứu.

Gardner chia sẻ: "Nó (bảng thông tin) vốn không được xây dựng cho hàng tỷ lượt truy cập trong một giờ. Chúng tôi đã nhiều lần phải thiết kế lại nền tảng và cũng nhiều lần nâng cấp máy chủ để phục vụ công chúng".

Ngoài ra vấn đề phức tạp là những thách thức địa chính trị bất ngờ. Khi ngày càng có nhiều quốc gia bị ảnh hưởng bởi virus, nhóm nghiên cứu đã phải đối mặt với thực tế là tên địa danh đôi khi khác nhau tùy thuộc vào cơ quan chính phủ nào đang thực hiện báo cáo.

"Nhóm đã gặp phải những phản ứng dữ dội vì nhiều nơi người dùng không chấp nhận cách mà địa danh của họ bị đặt tên và nhóm cuối cùng đã thông qua các quy ước đặt tên của Bộ Ngoại giao Hoa Kỳ.", Gardner nói.

Gardner cho biết những phản ứng này khiến nhóm tốn thời gian xử lý, mất tập trung nhưng lại không thể bỏ qua vì đây là những vấn đề khá nghiêm trọng.

"Ý nghĩa địa chính trị đã gây căng thẳng và mất tập trung cho nhóm nghiên cứu"..."Chúng tôi chỉ muốn cung cấp những dữ liệu hữu ích và phù hợp nhất cho những người đang cố gắng truy cập vào dữ liệu đó. Virus không quan tâm đến biên giới".

Cơ hội mở ra

Bảng dữ liệu đã mang đến sự hợp tác mới, và tăng cường tiếp xúc cho cả nhóm và trung tâm của cô. "Tôi mong đợi nó sẽ mang lại những cơ hội thực sự thú vị cho nhóm của chúng tôi, và thật sự điều đó đã đến", cô ấy nói.

Nhiều cơ hội mở ra sau những đóng góp không biết mệt mỏi của nhóm.

Nhiều cơ hội mở ra sau những đóng góp không biết mệt mỏi của nhóm.

Cụ thể, với sự tài trợ của Cơ quan Hàng không và Vũ trụ Quốc gia Hoa Kỳ, nhóm nghiên cứu cũng sẽ nghiên cứu tác động của tính thời vụ và khí hậu đối với virus.

Tuy nhiên, do phải làm việc suốt 10 tuần liên tục, nhóm Gardner đã rất mệt mỏi với việc bảo trì Bảng dữ liệu đến nỗi họ đã có ít thời gian để phân tích dữ liệu.

Hiện tại, nhóm nghiên cứu đang tập trung vào mô hình đánh giá rủi ro của người mắc bệnh trên toàn nước Mỹ và những gì khiến virus lây lan trên toàn thế giới.