Mẹo chăm sóc xe cho những người không dành nhiều thời gian cho xe
(CLO) Chỉ mất 5 phút kiểm tra dầu nhớt, lốp xe và ắc quy, bạn có thể tránh những rắc rối tốn kém và giữ xe bền bỉ hơn.
Theo dõi báo trên:
Theo Mekdes Gebrewold, người sáng lập công ty tư vấn Ashagari ở thủ đô Addis Ababa của Ethiopia, các công cụ dịch máy hiện vẫn chưa được tối ưu hóa cho ngôn ngữ địa phương. "Các công cụ như Google Dịch không được xây dựng tốt cho tiếng Amharic", cô nói. "Vì vậy, chúng tôi vẫn phải trả tiền cho các chuyên gia".
Ảnh: BBC
Hàng tỷ người như cô Mekdes không thể tận dụng các công cụ do AI cung cấp do ngôn ngữ của họ không tương thích. Điều này không chỉ áp dụng cho AI tổng quát như ChatGPT hoặc dịch vụ dịch thuật như Google Dịch mà còn áp dụng cho một loạt công cụ khác, như dịch vụ phiên âm, trợ lý giọng nói và kiểm duyệt nội dung trên mạng xã hội.
Nhưng một số người đang làm việc để thay đổi điều đó. Về bản chất, các công cụ AI hiện đại là các công cụ tự động dự đoán câu trả lời có khả năng xảy ra nhất dựa trên thông tin đầu vào mà chúng nhận được. Những dự đoán này dựa trên một lượng lớn "dữ liệu đào tạo".
Một nguồn dữ liệu đào tạo quan trọng được gọi là nguồn thông tin chung, một bộ dữ liệu có sẵn công khai, bao gồm hàng tỷ trang web từ internet. Khoảng 60% thông tin được sử dụng để huấn luyện phiên bản 3.5 của ChatGPT đến từ nguồn thông tin này.
Tuy nhiên, do phụ thuộc vào dữ liệu đào tạo này, các công cụ AI không hoạt động khi khan hiếm dữ liệu ở một ngôn ngữ cụ thể. Đây là một vấn đề vì internet bị chi phối bởi một số ngôn ngữ chính. Đa phần các trang web đều hiển thị bằng tiếng Anh, và ngôn ngữ này đã chiếm gần một nửa trong bộ sưu tập nguồn thông tin chung.
Tiếng Amharic, cùng với tất cả các ngôn ngữ châu Phi, châu Mỹ và châu Đại Dương khác, chiếm chưa đến 0,1% trong bộ sưu tập này. Nó được biết đến như một ngôn ngữ tài nguyên thấp với ít dữ liệu kỹ thuật số có sẵn.
Trên khắp thế giới, hàng tỷ người đang nói những ngôn ngữ này, bao gồm cả những ngôn ngữ chính như tiếng Hindi, tiếng Ả Rập và tiếng Bengal. Các ngôn ngữ châu Âu xuất hiện nhiều gấp nhiều lần so với hầu hết các ngôn ngữ châu Á và châu Phi.
Ví dụ, tiếng Hà Lan được hơn 20 triệu người nói như ngôn ngữ thứ nhất, tương tự như tiếng Amharic. Tuy nhiên, tiếng Hà Lan xuất hiện nhiều hơn gần 700 lần trong bộ dữ liệu Thu thập thông tin chung và gấp hàng trăm lần so với cả tiếng Hindi, vốn có hơn 300 triệu người đang sử dụng.
Tuy nhiên, có nhiều cách để khắc phục việc thiếu dữ liệu này. Ngoài những gã khổng lồ công nghệ của Thung lũng Silicon, các nhà nghiên cứu máy học trên toàn thế giới đang phát triển các công cụ hỗ trợ AI cho ngôn ngữ của họ.
Lesan, một công ty khởi nghiệp, đang tạo ra công nghệ dịch máy và lời nói cho các ngôn ngữ của Ethiopia là Amharic và Tigrinya. Ông Asmelash Teka Hadgu, người đồng sáng lập ra Lesan, cho biết họ không có nhiều tài nguyên trực tuyến, và nhóm của ông đang làm việc trực tiếp với cộng đồng và tìm ra những cách sáng tạo để thu thập dữ liệu.
"Chúng tôi chủ yếu làm việc với những sinh viên yêu thích ngôn ngữ", ông cho biết. "Khi chúng tôi nói với họ rằng chúng tôi đang xây dựng thứ này, họ được truyền cảm hứng và muốn đóng góp. Vì vậy, chúng tôi đặt ra nhiệm vụ thu thập nội dung bằng ngôn ngữ của mình. Và chúng tôi hỗ trợ họ về mặt tài chính".
Điều này đòi hỏi rất nhiều lao động thủ công. Trước tiên, những người đóng góp xác định các bộ dữ liệu chất lượng cao, chẳng hạn như sách hoặc báo đáng tin cậy, sau đó số hóa và dịch chúng sang ngôn ngữ mục tiêu. Cuối cùng, họ sắp xếp song song từng câu giữa bản gốc và bản dịch để hướng dẫn quá trình học máy.
Với cách tiếp cận này, các công ty như Lesan không thể hy vọng có thể cạnh tranh với hàng tỷ trang nội dung tiếng Anh hiện có, nhưng họ sẽ có lợi thế tại địa phương. Điển hình là việc Lesan hiện đã vượt trội so với Google Dịch ở cả tiếng Amharic và tiếng Tigrinya.
“Bạn có thể xây dựng các mô hình hữu ích bằng cách sử dụng các tập dữ liệu nhỏ, được sắp xếp cẩn thận", ông Asmelash Teka Hadgu nói thêm. "Chúng tôi hiểu những hạn chế và khả năng của nó. Trong khi đó, Microsoft hay Google thường xây dựng một mô hình khổng lồ duy nhất cho tất cả các ngôn ngữ nên họ gần như không thể kiểm tra kỹ càng nguồn thông tin được".
Cách tiếp cận của Lesan không phải là duy nhất. Các dự án tương tự đang được triển khai thành công trên khắp thế giới, ngay cả đối với các ngôn ngữ có ít dữ liệu trực tuyến.
Hàng nghìn ngôn ngữ trên toàn thế giới, bao gồm nhiều ngôn ngữ có hơn một triệu người dùng, thậm chí còn có ít nội dung trực tuyến hơn và ít công cụ kỹ thuật số hơn.
Ông Asmelash Teka Hadgu là một thành viên của mạng lưới những người tiên phong về AI ở châu Phi. Ông cũng là nghiên cứu viên tại Viện nghiên cứu AI phân tán (DAIR), một nhóm các nhà nghiên cứu đến từ châu Phi, châu Âu và Bắc Mỹ.
Ngoài châu Phi, các nhà nghiên cứu trên khắp thế giới đang nghiên cứu các ngôn ngữ khác bao gồm tiếng Jamaican Patois, tiếng Catalan, tiếng Sudan và tiếng Māori.
Và trong khi những gã khổng lồ công nghệ như OpenAI của ChatGPT đang giữ bí mật về các công nghệ của mình, thì các sáng kiến như tập thể AI toàn cầu Hugging Face đã chia sẻ thông tin chi tiết và mô hình AI một cách tự do. Điều này giúp bất kỳ nhà nghiên cứu nào cũng có thể tạo ra các giải pháp cho ngôn ngữ của họ một cách dễ dàng hơn.
“Tài năng ở khắp mọi nơi, còn cơ hội thì không", ông Asmelash nói. "Nếu bạn muốn tạo ra loại công nghệ máy dịch tốt nhất, chẳng hạn như đối với ngôn ngữ Ghana, sẽ có một người Ghana cảm thấy đam mê và có thể làm tốt điều đó. Hãy trao quyền cho họ".
Hoàng Tôn (theo DW)
(CLO) Chỉ mất 5 phút kiểm tra dầu nhớt, lốp xe và ắc quy, bạn có thể tránh những rắc rối tốn kém và giữ xe bền bỉ hơn.
(CLO) Trung Quốc siết chặt giám sát thương vụ BlackRock mua 43 cảng, trị giá 19 tỷ USD, làm dấy lên lo ngại về cuộc đua địa chính trị.
(CLO) Phòng Cảnh sát giao thông (CSGT) - Công an TP.Hà Nội đang tiến hành củng cố hồ sơ, xử lý nhóm thanh niên điều khiển xe máy vi phạm trật tự, an toàn giao thông trên cầu Nhật Tân gây bức xúc dư luận.
(CLO) Lewandowski toả sáng với cú đúp, Barca dễ dàng đánh bại Girona tỷ số 4-1 để củng cố ngôi đầu La Liga, với 3 điểm nhiều hơn đại kình địch Real Madrid trên bảng xếp hạng giải đấu.
(CLO) Rạng sáng 31/3 (giờ Việt Nam), Man City dù bị đối thủ dẫn trước nhưng nhờ các pha lập công của Haaland và Marmoush đã lội ngược dòng kịch tính giành chiến thắng 2-1 trước Bournemouth trong hiệp 2. Nhờ đó, Man City đã giành vé vào thi đấu bán kết.
(CLO) Trung Quốc vừa đạt bước tiến quan trọng trong công nghệ tổng hợp hạt nhân khi "mặt trời nhân tạo" thế hệ mới, China Circulation-3, lần đầu tiên đạt nhiệt độ trên 100 triệu độ C cho cả hạt nhân nguyên tử và electron.
(CLO) Ngôi sao huyền thoại Richard Chamberlain, nổi tiếng với vai diễn Cha Ralph trong "Tiếng chim hót trong bụi mận gai", đã qua đời ở tuổi 91 sau một cơn đột quỵ tại Hawaii vào ngày 29/3, theo CNN đưa tin.
(CLO) Trận động đất khủng khiếp ở Myanmar không chỉ khiến các tòa nhà tại thủ đô Bangkok của Thái Lan rung lắc dữ dội, nó cũng được cho rằng sẽ khiến ngành du lịch của xứ sở Chùa Vàng thêm chao đảo.
(CLO) Mới đây, chuyên trang ẩm thực nổi tiếng Taste Atlas đã công bố danh sách 100 món rau ngon nhất thế giới, trong đó, rau muống xào tỏi của Việt Nam vinh dự xếp hạng thứ 24 với số điểm 4,3/5 sao.
(CLO) Kỳ thi chọn đội tuyển quốc gia dự thi Olympic quốc tế và khu vực năm nay có sự tham gia của 187 thí sinh đến từ các tỉnh, thành phố trên cả nước đã kết thúc và những thành viên xuất sắc nhất đã được lựa chọn đại diện cho Việt Nam.
(CLO) Bộ đôi cầu thủ Khuất Văn Khang và Danh Trung cùng nhau ghi bàn, Thể Công Viettel đánh bại HAGL tỷ số 2-0 để giành vé vào thi đấu bán kết Cúp Quốc gia 2024/25.
(CLO) Chiều 30/3 tại Quần đảo Cát Bà - Di sản thiên nhiên thế giới, huyện Cát Hải tổ chức Khai mạc du lịch Cát Bà năm 2025 và Giải Marathon Cát Bà Amatina 2025 - Heritage Road (Sải bước trên miền di sản).
(CLO) Ngày 29/3, Tổng thống lâm thời Syria Ahmed al-Sharaa đã công bố chính phủ chuyển tiếp với 23 bộ trưởng, đánh dấu giai đoạn mới sau khi chế độ của Bashar al-Assad sụp đổ vào tháng 12 năm ngoái.
(CLO) Theo Trung tâm Dự báo Khí tượng Thuỷ văn, ngày 31/3, không khí lạnh tiếp tục ảnh hưởng đến Nam Trung Bộ, khu vực Bắc Bộ và Trung Bộ trời rét, có mưa rào rải rác và có nơi có dông. Nam Bộ ngày có mưa rào, chiều tối và đêm có mưa rào và dông rải rác.
(CLO) Ngày 30/3, UBND TP.HCM tổ chức lễ công bố quyết định đưa Nghệ thuật Lân Sư Rồng của người Hoa vào danh mục Di sản văn hóa phi vật thể quốc gia, đồng thời xếp hạng thêm bảy di tích lịch sử - văn hóa cấp thành phố.
(CLO) "Khi Cuộc Đời Cho Bạn Quả Quýt" (When Life Gives You Tangerines) được đánh giá là một tác phẩm chạm đến những góc khuất sâu thẳm trong tâm hồn con người, đặc biệt là về tình cảm gia đình. Không ồn ào, không phô trương, bộ phim cùng với lối diễn xuất mới của IU nhẹ nhàng len lỏi vào trái tim người xem bằng những thước phim chân thực, đầy cảm xúc.
(CLO) Ở các vùng quê rộng lớn của Trung Quốc, AI đang dần trở thành công cụ hỗ trợ đắc lực cho nông dân, cung cấp lời khuyên về mọi thứ, từ chăn nuôi lợn đến kiểm soát sâu bệnh.
(CLO) Hôm 25/3, OpenAI ra mắt GPT-4o, một mô hình AI có khả năng tạo ra hình ảnh chính xác, chân thực và mang phong cách nghệ thuật đặc trưng.
(CLO) Trong một thông báo mới vào ngày 29/3, Microsoft đã chính thức loại bỏ script bypassnro.cmd - công cụ được nhiều người dùng ưa chuộng để bỏ qua yêu cầu đăng nhập tài khoản Microsoft khi cài đặt Windows 11.
(CLO) Tối 28/3, Elon Musk thông báo đã bán mạng xã hội X cho công ty trí tuệ nhân tạo xAI của chính mình với giá 45 tỷ USD.
(CLO) Tiền điện tử ngày càng trở thành mục tiêu của tội phạm mạng, với những vụ trộm trị giá hàng tỷ USD. Để truy vết tài sản bị đánh cắp, các nhà báo cần đến sự hỗ trợ của các công cụ phân tích blockchain mạnh mẽ.
(CLO) Bạn có thường xuyên kiểm tra cửa ra vào trước khi đi ngủ để đảm bảo rằng chúng đã được khóa chưa? Nếu có, bạn cũng nên áp dụng nguyên tắc tương tự cho các tài khoản trực tuyến quan trọng của mình, đặc biệt là tài khoản Google.
(CLO) Trong nhiều năm qua, quá trình phát triển Android luôn diễn ra một cách công khai, cho phép cộng đồng theo dõi tiến độ làm việc của Google. Tuy nhiên, điều này sắp thay đổi.
(CLO) Một nhà báo truyền hình nhà nước Nga đã thiệt mạng và người quay phim của cô bị thương nặng do trúng mìn ở vùng Belgorod của Nga gần biên giới với Ukraine, theo đài truyền hình nhà nước Nga đưa tin hôm thứ Tư.
(CLO) Microsoft thu về 245 tỷ USD trong năm tài chính 2024, chủ yếu nhờ các dịch vụ đám mây, phần mềm văn phòng và trò chơi điện tử.
(CLO) Những người sử dụng ChatGPT thường xuyên có xu hướng cô đơn hơn, phụ thuộc cảm xúc vào công cụ AI nhiều hơn và có ít mối quan hệ xã hội ngoài đời thực, theo nghiên cứu mới từ OpenAI và MIT Media Lab.