Trí tuệ nhân tạo đang giúp thu hẹp khoảng cách ngôn ngữ trên thế giới

Thứ hai, 31/07/2023 19:58 PM - 0 Trả lời

(CLO) Các công cụ trí tuệ nhân tạo, từ ChatGPT đến Google Dịch, đều vô dụng đối với hàng tỷ người ở Nam bán cầu, những người không làm việc bằng các ngôn ngữ phương Tây. Các nhà nghiên cứu và công ty khởi nghiệp từ châu Phi và nhiều nơi khác đang thay đổi điều đó.

Theo Mekdes Gebrewold, người sáng lập công ty tư vấn Ashagari ở thủ đô Addis Ababa của Ethiopia, các công cụ dịch máy hiện vẫn chưa được tối ưu hóa cho ngôn ngữ địa phương. "Các công cụ như Google Dịch không được xây dựng tốt cho tiếng Amharic", cô nói. "Vì vậy, chúng tôi vẫn phải trả tiền cho các chuyên gia".

tri tue nhan tao dang giup thu hep khoang cach ngon ngu tren the gioi hinh 1

Ảnh: BBC

Bài liên quan

Hàng tỷ người như cô Mekdes không thể tận dụng các công cụ do AI cung cấp do ngôn ngữ của họ không tương thích. Điều này không chỉ áp dụng cho AI tổng quát như ChatGPT hoặc dịch vụ dịch thuật như Google Dịch mà còn áp dụng cho một loạt công cụ khác, như dịch vụ phiên âm, trợ lý giọng nói và kiểm duyệt nội dung trên mạng xã hội.

Nhưng một số người đang làm việc để thay đổi điều đó. Về bản chất, các công cụ AI hiện đại là các công cụ tự động dự đoán câu trả lời có khả năng xảy ra nhất dựa trên thông tin đầu vào mà chúng nhận được. Những dự đoán này dựa trên một lượng lớn "dữ liệu đào tạo".

Một nguồn dữ liệu đào tạo quan trọng được gọi là nguồn thông tin chung, một bộ dữ liệu có sẵn công khai, bao gồm hàng tỷ trang web từ internet. Khoảng 60% thông tin được sử dụng để huấn luyện phiên bản 3.5 của ChatGPT đến từ nguồn thông tin này.

Tuy nhiên, do phụ thuộc vào dữ liệu đào tạo này, các công cụ AI không hoạt động khi khan hiếm dữ liệu ở một ngôn ngữ cụ thể. Đây là một vấn đề vì internet bị chi phối bởi một số ngôn ngữ chính. Đa phần các trang web đều hiển thị bằng tiếng Anh, và ngôn ngữ này đã chiếm gần một nửa trong bộ sưu tập nguồn thông tin chung.

Tiếng Amharic, cùng với tất cả các ngôn ngữ châu Phi, châu Mỹ và châu Đại Dương khác, chiếm chưa đến 0,1% trong bộ sưu tập này. Nó được biết đến như một ngôn ngữ tài nguyên thấp với ít dữ liệu kỹ thuật số có sẵn.

Trên khắp thế giới, hàng tỷ người đang nói những ngôn ngữ này, bao gồm cả những ngôn ngữ chính như tiếng Hindi, tiếng Ả Rập và tiếng Bengal. Các ngôn ngữ châu Âu xuất hiện nhiều gấp nhiều lần so với hầu hết các ngôn ngữ châu Á và châu Phi.

Ví dụ, tiếng Hà Lan được hơn 20 triệu người nói như ngôn ngữ thứ nhất, tương tự như tiếng Amharic. Tuy nhiên, tiếng Hà Lan xuất hiện nhiều hơn gần 700 lần trong bộ dữ liệu Thu thập thông tin chung và gấp hàng trăm lần so với cả tiếng Hindi, vốn có hơn 300 triệu người đang sử dụng.

Tuy nhiên, có nhiều cách để khắc phục việc thiếu dữ liệu này. Ngoài những gã khổng lồ công nghệ của Thung lũng Silicon, các nhà nghiên cứu máy học trên toàn thế giới đang phát triển các công cụ hỗ trợ AI cho ngôn ngữ của họ.

Lesan, một công ty khởi nghiệp, đang tạo ra công nghệ dịch máy và lời nói cho các ngôn ngữ của Ethiopia là Amharic và Tigrinya. Ông Asmelash Teka Hadgu, người đồng sáng lập ra Lesan, cho biết họ không có nhiều tài nguyên trực tuyến, và nhóm của ông đang làm việc trực tiếp với cộng đồng và tìm ra những cách sáng tạo để thu thập dữ liệu.

"Chúng tôi chủ yếu làm việc với những sinh viên yêu thích ngôn ngữ", ông cho biết. "Khi chúng tôi nói với họ rằng chúng tôi đang xây dựng thứ này, họ được truyền cảm hứng và muốn đóng góp. Vì vậy, chúng tôi đặt ra nhiệm vụ thu thập nội dung bằng ngôn ngữ của mình. Và chúng tôi hỗ trợ họ về mặt tài chính".

Điều này đòi hỏi rất nhiều lao động thủ công. Trước tiên, những người đóng góp xác định các bộ dữ liệu chất lượng cao, chẳng hạn như sách hoặc báo đáng tin cậy, sau đó số hóa và dịch chúng sang ngôn ngữ mục tiêu. Cuối cùng, họ sắp xếp song song từng câu giữa bản gốc và bản dịch để hướng dẫn quá trình học máy.

Với cách tiếp cận này, các công ty như Lesan không thể hy vọng có thể cạnh tranh với hàng tỷ trang nội dung tiếng Anh hiện có, nhưng họ sẽ có lợi thế tại địa phương. Điển hình là việc Lesan hiện đã vượt trội so với Google Dịch ở cả tiếng Amharic và tiếng Tigrinya.

“Bạn có thể xây dựng các mô hình hữu ích bằng cách sử dụng các tập dữ liệu nhỏ, được sắp xếp cẩn thận", ông Asmelash Teka Hadgu nói thêm. "Chúng tôi hiểu những hạn chế và khả năng của nó. Trong khi đó, Microsoft hay Google thường xây dựng một mô hình khổng lồ duy nhất cho tất cả các ngôn ngữ nên họ gần như không thể kiểm tra kỹ càng nguồn thông tin được".

Cách tiếp cận của Lesan không phải là duy nhất. Các dự án tương tự đang được triển khai thành công trên khắp thế giới, ngay cả đối với các ngôn ngữ có ít dữ liệu trực tuyến.

Hàng nghìn ngôn ngữ trên toàn thế giới, bao gồm nhiều ngôn ngữ có hơn một triệu người dùng, thậm chí còn có ít nội dung trực tuyến hơn và ít công cụ kỹ thuật số hơn.

Ông Asmelash Teka Hadgu là một thành viên của mạng lưới những người tiên phong về AI ở châu Phi. Ông cũng là nghiên cứu viên tại Viện nghiên cứu AI phân tán (DAIR), một nhóm các nhà nghiên cứu đến từ châu Phi, châu Âu và Bắc Mỹ.

Ngoài châu Phi, các nhà nghiên cứu trên khắp thế giới đang nghiên cứu các ngôn ngữ khác bao gồm tiếng Jamaican Patois, tiếng Catalan, tiếng Sudan và tiếng Māori.

Và trong khi những gã khổng lồ công nghệ như OpenAI của ChatGPT đang giữ bí mật về các công nghệ của mình, thì các sáng kiến như tập thể AI toàn cầu Hugging Face đã chia sẻ thông tin chi tiết và mô hình AI một cách tự do. Điều này giúp bất kỳ nhà nghiên cứu nào cũng có thể tạo ra các giải pháp cho ngôn ngữ của họ một cách dễ dàng hơn.

“Tài năng ở khắp mọi nơi, còn cơ hội thì không", ông Asmelash nói. "Nếu bạn muốn tạo ra loại công nghệ máy dịch tốt nhất, chẳng hạn như đối với ngôn ngữ Ghana, sẽ có một người Ghana cảm thấy đam mê và có thể làm tốt điều đó. Hãy trao quyền cho họ".

Hoàng Tôn (theo DW)

Tin mới

Google ra mắt bản xem trước Android 16: Những tính năng mới đáng chú ý

Google ra mắt bản xem trước Android 16: Những tính năng mới đáng chú ý

(CLO) Android 16 mang đến tính năng "Even Dimmer" giúp làm mờ màn hình hiệu quả hơn, bảo vệ mắt vào ban đêm, cùng với các cải tiến về quyền riêng tư và âm thanh.

Sức sống số
Ông Trump thay ứng viên Tổng chưởng lý, sau khi Matt Gaetz rút lui vì nhiều cáo buộc nhạy cảm

Ông Trump thay ứng viên Tổng chưởng lý, sau khi Matt Gaetz rút lui vì nhiều cáo buộc nhạy cảm

(CLO) Hôm thứ Năm, Đảng viên Cộng hòa Matt Gaetz đã rút tên khỏi danh sách ứng viên Tổng chưởng lý của Tổng thống đắc cử Mỹ Donald Trump, sau khi phải đối mặt với các cáo buộc về hành vi trong quá khứ.

Thế giới 24h
Nhận định Man City vs Tottenham, 00h30 ngày 24/11 tại Ngoại hạng Anh

Nhận định Man City vs Tottenham, 00h30 ngày 24/11 tại Ngoại hạng Anh

(CLO) Nhận định Man City vs Tottenham, 00h30 ngày 24/11 tại Ngoại hạng Anh; dự đoán tỉ số Man City vs Tottenham cùng các chuyên gia phân tích.

Thể thao
Nga sắp sử dụng doanh thu từ tài sản bị đóng băng của các nhà đầu tư phương Tây

Nga sắp sử dụng doanh thu từ tài sản bị đóng băng của các nhà đầu tư phương Tây

(CLO) Nga sẽ sử dụng doanh thu từ tài sản bị đóng băng của các nhà đầu tư nước ngoài, Bộ trưởng Tài chính Nga Anton Siluanov cho biết trong một cuộc phỏng vấn trên kênh truyền hình Rossiya-1.

Thị trường - Doanh nghiệp
TP.HCM: Nhiều rạp hát xuống cấp, chỉ 2/12 cơ sở đủ điều kiện hoạt động

TP.HCM: Nhiều rạp hát xuống cấp, chỉ 2/12 cơ sở đủ điều kiện hoạt động

(CLO) Sở Văn hóa và Thể thao TP.HCM (Sở VH-TT) chỉ đạo các đơn vị phối hợp sắp xếp lại cơ sở vật chất để đảm bảo tổ chức các chương trình nghệ thuật, phục vụ chính trị và nhu cầu giải trí của người dân.

Đời sống văn hóa
Ông Putin nói chiến tranh Ukraine đang lan rộng toàn cầu, Trung Quốc kêu gọi 'hạ nhiệt'

Ông Putin nói chiến tranh Ukraine đang lan rộng toàn cầu, Trung Quốc kêu gọi 'hạ nhiệt'

(CLO) Tổng thống Vladimir Putin hôm thứ Năm cho biết chiến tranh Ukraine đang leo thang thành một cuộc xung đột toàn cầu sau khi Mỹ và Vương quốc Anh cho phép Ukraine tấn công Nga bằng vũ khí tầm xa của họ, đồng thời cảnh báo phương Tây rằng Nga có thể đáp trả.

Thế giới 24h
Sớm bàn giao toàn bộ mặt bằng làm đường Hồ Chí Minh đoạn Chơn Thành - Đức Hòa

Sớm bàn giao toàn bộ mặt bằng làm đường Hồ Chí Minh đoạn Chơn Thành - Đức Hòa

(CLO) Bộ Giao thông Vận tải (GTVT) vừa có văn bản đề nghị các địa phương đẩy nhanh công tác giải phóng mặt bằng, hoàn thành toàn bộ trong tháng 11/2024 nhằm đáp ứng tiến độ dự án đầu tư xây dựng đường Hồ Chí Minh đoạn Chơn Thành - Đức Hòa.

Giao thông
Làm rõ trách nhiệm quản lý, vận hành thiết bị giám sát hành trình xe ô tô

Làm rõ trách nhiệm quản lý, vận hành thiết bị giám sát hành trình xe ô tô

(CLO) Thông tư 71/2024/TT-BCA quy định rõ trách nhiệm của đơn vị kinh doanh vận tải bằng xe ô tô, chủ phương tiện xe ô tô chở người từ 8 chỗ trở lên (không kể chỗ của người lái xe) kinh doanh vận tải, xe ô tô đầu kéo, xe cứu thương và xe cứu hộ.

Giao thông
Đoan Hùng (Phú Thọ): Dự án đường giao thông trăm tỷ thi công kiểu 'tiền trảm hậu tấu'!

Đoan Hùng (Phú Thọ): Dự án đường giao thông trăm tỷ thi công kiểu 'tiền trảm hậu tấu'!

(CLO) Thời gian vừa qua, huyện Đoan Hùng (tỉnh Phú Thọ) đã đầu tư và triển khai nhiều dự án đường giao thông để phục vụ việc phát triển kinh tế xã hội của địa phương. Tuy nhiên, một số công trình thực hiện thi công có dấu hiệu không tuân thủ theo quy trình thủ tục của pháp luật hiện hành.

Điều tra
Đội tuyển futsal nữ Việt Nam nhận thưởng 'khủng' sau chức vô địch Đông Nam Á

Đội tuyển futsal nữ Việt Nam nhận thưởng 'khủng' sau chức vô địch Đông Nam Á

(CLO) Đội tuyển futsal nữ Việt Nam đánh bại futsal nữ Thái Lan tỷ số 2-1 để giành ngôi vô địch giải futsal nữ Đông Nam Á 2024 tại Philippines. Ngay sau trận chung kết diễn ra tối 21/11, Liên đoàn bóng đá Việt Nam (VFF) đã thưởng nóng 600 triệu đồng cho đội nhà.

Thể thao
Những phản ứng trước việc Tòa án Hình sự Quốc tế ban hành lệnh bắt Thủ tướng Israel

Những phản ứng trước việc Tòa án Hình sự Quốc tế ban hành lệnh bắt Thủ tướng Israel

(CLO) Vào thứ Năm (21/12) Tòa án Hình sự Quốc tế (ICC) đã ban hành lệnh bắt giữ đối với Thủ tướng Israel Benjamin Netanyahu, cùng cựu Bộ trưởng Quốc phòng Yoav Gallant trong chính quyền của ông, cũng như thủ lĩnh Ibrahim Al-Masri của Hamas với cáo buộc phạm tội ác chiến tranh và tội ác chống lại loài người trong cuộc xung đột ở Gaza.

Thế giới 24h
Thắng Thái Lan, đội tuyển futsal nữ Việt Nam vô địch Giải futsal nữ Đông Nam Á

Thắng Thái Lan, đội tuyển futsal nữ Việt Nam vô địch Giải futsal nữ Đông Nam Á

(CLO) Tối ngày 21/11, đội tuyển futsal nữ Việt Nam đánh bại tuyển futsal nữ Thái Lan với tỉ số 2-1 để lên ngôi vô địch giải futsal nữ Đông Nam Á 2024.

Thể thao
Củng cố, phát triển hơn nữa mối quan hệ láng giềng hữu nghị truyền thống và hợp tác tốt đẹp giữa Việt Nam - Campuchia

Củng cố, phát triển hơn nữa mối quan hệ láng giềng hữu nghị truyền thống và hợp tác tốt đẹp giữa Việt Nam - Campuchia

(CLO) Chiều 21/11, tại trụ sở Quốc hội Campuchia ở thủ đô Phnom Penh, ngay sau lễ đón, Chủ tịch Quốc hội Trần Thanh Mẫn và Chủ tịch Quốc hội Campuchia Samdech Khuon Sudary đã dẫn đầu đoàn đại biểu cấp cao hai nước tiến hành hội đàm.

Tin tức
Chủ tịch Quốc hội Trần Thanh Mẫn nhận Huân chương Công trạng hạng Đại Thập tự của Nhà nước Campuchia

Chủ tịch Quốc hội Trần Thanh Mẫn nhận Huân chương Công trạng hạng Đại Thập tự của Nhà nước Campuchia

(CLO) Trong khuôn khổ chuyến thăm chính thức Vương quốc Campuchia, chiều 21/11, tại trụ sở Quốc hội Campuchia ở thủ đô Phnom Penh, thay mặt Nhà nước Campuchia, Chủ tịch Quốc hội Samdech Khuon Sudary đã trao tặng Huân chương Công trạng hạng Đại Thập tự của Nhà nước Campuchia cho Chủ tịch Quốc hội Trần Thanh Mẫn.

Tin tức
Đề nghị các quốc gia khác tôn trọng đầy đủ chủ quyền của Việt Nam

Đề nghị các quốc gia khác tôn trọng đầy đủ chủ quyền của Việt Nam

(CLO) Việt Nam có đầy đủ cơ sở pháp lý và bằng chứng lịch sử khẳng định chủ quyền của Việt Nam đối với quần đảo Hoàng Sa và quần đảo Trường Sa phù hợp với luật pháp quốc tế, cũng như chủ quyền, quyền chủ quyền và quyền tài phán đối với các vùng biển được xác lập phù hợp với Công ước Liên hợp quốc về Luật Biển năm 1982 (UNCLOS 1982).

Tin tức
Doanh nghiệp Hàn Quốc cần coi Việt Nam là điểm đến chiến lược để phát triển, ứng dụng công nghệ cao

Doanh nghiệp Hàn Quốc cần coi Việt Nam là điểm đến chiến lược để phát triển, ứng dụng công nghệ cao

(CLO) Phó Thủ tướng Thường trực Chính phủ Nguyễn Hòa Bình đề nghị các doanh nghiệp nhỏ và vừa của Hàn Quốc coi Việt Nam là điểm đến chiến lược cho xây dựng các trung tâm nghiên cứu và phát triển, ứng dụng công nghệ cao.

Tin tức
Bình Luận

Tin khác

Giới trẻ Trung Quốc chi tiền để được trò chuyện trên mạng xã hội

Giới trẻ Trung Quốc chi tiền để được trò chuyện trên mạng xã hội

(CLO) Ở Trung Quốc, giới trẻ ngày càng sử dụng mạng xã hội không chỉ để kết nối với bạn bè mà còn để thuê người lạ để trò chuyện.

Báo chí - Công nghệ
Meta bị phạt gần 800 triệu euro vì 'rao vặt' trên Facebook

Meta bị phạt gần 800 triệu euro vì 'rao vặt' trên Facebook

(CLO) Meta đã bị EU phạt gần 800 triệu euro với cáo buộc cạnh tranh không lành mạnh bằng cách liên kết dịch vụ 'rao vặt' Marketplace với mạng xã hội Facebook.

Báo chí - Công nghệ
TikTok ra mắt nền tảng tạo video AI để thu hút các nhà quảng cáo

TikTok ra mắt nền tảng tạo video AI để thu hút các nhà quảng cáo

(CLO) TikTok hôm thứ Năm công bố rằng nền tảng tạo video AI mang tên Symphony Creative Studios đã có sẵn trên toàn cầu cho tất cả các nhà quảng cáo.

Báo chí - Công nghệ
Mạng xã hội X sắp 'hốt bạc' khi các nhà quảng cáo muốn lấy lòng tỷ phú Elon Musk

Mạng xã hội X sắp 'hốt bạc' khi các nhà quảng cáo muốn lấy lòng tỷ phú Elon Musk

(CLO) Việc tỷ phú Elon Musk ủng hộ ông Donald Trump dự kiến sẽ giúp mạng xã hội X (trước đây là Twitter) khôi phục kinh doanh, khi một số thương hiệu bắt đầu quay lại quảng cáo trên nền tảng này để tranh thủ sự ủng hộ từ chính quyền mới.

Báo chí - Công nghệ
Nhiều tờ báo Pháp kiện mạng xã hội X vì sử dụng nội dung mà không trả tiền

Nhiều tờ báo Pháp kiện mạng xã hội X vì sử dụng nội dung mà không trả tiền

(CLO) Ngày 12/11, các tờ báo lớn của Pháp, bao gồm Le Monde, Le Figaro và Le Parisien, cho biết họ đang có hành động pháp lý chống lại mạng hội X, cáo buộc nền tảng này sử dụng nội dung của họ mà không trả tiền.

Báo chí - Công nghệ
Vương quốc Anh: Quảng cáo Giáng sinh không còn ưu tiên truyền hình, dù khán giả mong muốn

Vương quốc Anh: Quảng cáo Giáng sinh không còn ưu tiên truyền hình, dù khán giả mong muốn

(CLO) Các nhà quảng cáo dự kiến ​​sẽ chi số tiền kỷ lục là 10,5 tỷ bảng cho quảng cáo Giáng sinh tại Vương quốc Anh trong mùa này, song không ưu tiên cho truyền hình truyền thông.

Báo chí - Công nghệ
Các trang tin tức đang hồi sinh báo chí địa phương trên Substack

Các trang tin tức đang hồi sinh báo chí địa phương trên Substack

(CLO) Vào đầu thế kỷ 19, thủ đô London của Vương quốc Anh có hàng chục tờ báo in hàng ngày. Nhưng ngày nay, việc các tờ báo thay đổi định dạng đã đánh dấu sự kết thúc của tin tức địa phương hàng ngày trên báo in.

Báo chí - Công nghệ
The Economist dùng AI dịch video để kết nối với độc giả trẻ toàn cầu

The Economist dùng AI dịch video để kết nối với độc giả trẻ toàn cầu

(CLO) Espresso, ứng dụng tin tức ngắn gọn của The Economist, sử dụng AI để dịch nội dung video sang nhiều ngôn ngữ nhằm tiếp cận đối tượng độc giả trẻ trên toàn cầu.

Báo chí - Công nghệ
Người phụ nữ rao bán đứa con chưa chào đời trên Facebook với giá 'tối thiểu 150 USD'

Người phụ nữ rao bán đứa con chưa chào đời trên Facebook với giá 'tối thiểu 150 USD'

(CLO) Một phụ nữ tại Texas, Mỹ đã bị bắt sau khi các nhà chức trách cho biết cô cố gắng bán đứa con chưa sinh của mình qua Facebook.

Báo chí - Công nghệ
'Bộ tứ' Big Tech dự báo chi 200 tỷ đô la cho AI trong năm 2024

'Bộ tứ' Big Tech dự báo chi 200 tỷ đô la cho AI trong năm 2024

(CLO) Bốn tập đoàn công nghệ lớn (Big Tech) gồm Microsoft, Meta, Amazon và Alphabet tiếp tục tăng mạnh chi tiêu vào trí tuệ nhân tạo (AI) với dự báo tổng mức đầu tư sẽ vượt 200 tỷ đô la trong năm nay và còn tăng thêm trong năm 2025.

Báo chí - Công nghệ