Thông điệp trên được ông Ha Jung Woo, Trưởng bộ phận đổi mới sáng tạo Cloud công ty Naver (Hàn Quốc), chia sẻ tại Ngày hội Trí tuệ Nhân tạo Việt Nam (AI4VN) 2023, được tổ chức tại TP.HCM ngày 22/9 vừa qua.
AI tạo sinh là một dạng trí tuệ nhân tạo có khả năng tạo ra nội dung và ý tưởng mới ở nhiều hình thái khác nhau như văn bản, hình ảnh, video, âm nhạc. Từ đó, AI có thể tạo ra các bài hát, loại thuốc, bộ phim, game mới... với việc sử dụng mô hình ngôn ngữ lớn (LLMs).
Theo ước tính của McKinsey gần đây, AI tạo sinh có thể đóng góp cho nền kinh tế thế giới 4,4 nghìn tỉ USD. Nghiên cứu được đánh giá dựa trên 60.000 ứng dụng của AI tạo sinh cho các ngành nghề khác nhau.
Theo ông Ha Jung Woo, các mô hình ngôn ngữ lớn để phát triển AI tạo sinh hiện nay đều dùng tiếng Anh, chính vì vậy khi mô hình chạy trên các ngôn ngữ khác sẽ không được đầy đủ và gặp lỗi, và cũng vì là tiếng Anh nên khi sử dụng tạo ra sự thiên vị, đặc biệt là về văn hoá không đáng có.
Chính vì thế ông cho rằng, việc làm chủ về dữ liệu và công nghệ là yếu tố quan trọng mà nhiều quốc gia cân nhắc trong tương lai, vượt qua rủi ro việc phụ thuộc nước khác. Chẳng hạn như ở Hàn Quốc, Naver cũng đã tạo ra mô hình ngôn ngữ lớn tiếng Hàn để phục vụ Chính phủ và các doanh nghiệp trong nước khi triển khai ứng dụng AI.
Đồng quan điểm, tiến sĩ Đào Đức Minh, Tổng giám đốc VinBigdata cũng cho rằng, người Việt cũng có thể tạo sản phẩm AI tạo sinh trong nước giúp đảm bảo an toàn, chính xác thông tin và phục vụ tốt nhất chính quyền, xã hội…
Theo ông Đào Đức Minh, khi chatGPT ra mắt cuối 2022 đã tạo ra làn sóng ngầm cạnh tranh giữa các quốc gia và các tập đoàn lớn trong việc nghiên cứu, ra mắt các mô hình AI tạo sinh và các mô hình ngôn ngữ lớn.
Cụ thể ở Mỹ, ngoài công cụ chatGPT của OpenAI, còn có các mô hình AI tạo sinh khác như Bard của Google, Titan của Amazon. Tại Trung Quốc có Earnie Bot của Baidu, SenseChat của Sense Time, Hunyan của Tencent. Tại Hàn Quốc có HyperClova X của Naver…
Ông Đào Đức Minh cho biết, để phát triển mô hình ngôn ngữ lớn ứng dụng vào AI tạo sinh là một việc làm không đơn giản và tốn rất nhiều chi phí, nếu ứng dụng AI tạo sinh dựa trên các nền tảng mô hình ngôn ngữ lớn có sẵn trên thế giới, Việt Nam có nguy cơ đối mặt nhiều rủi ro. Chẳng hạn như, với mô hình ngôn ngữ lớn của nước ngoài, dữ liệu tiếng Việt chỉ chiếm tỷ lệ rất nhỏ, chủ yếu là tiếng Anh nên khó đảm bảo tính chính xác, bảo mật dữ liệu, sự phù hợp cho nhu cầu của doanh nghiệp...
Lấy ví dụ, các mô hình ngôn ngữ lớn của nước ngoài có hàng trăm tỉ tham số. Để chạy mô hình thực tế đòi hỏi hạ tầng tính toán rất lớn, nhưng chất lượng mang lại không tương xứng vì mô hình AI có thể trả lời sai, đặc biệt trong các kiến thức lịch sử, văn hóa, những vấn đề mang tính đặc trưng mỗi quốc gia.
Chính vì lí do này, VinBigdata đã quyết định xây dựng mô hình ngôn ngữ lớn bằng tiếng Việt, với mục tiêu hướng đến đảm bảo bảo mật dữ liệu, cải thiện tính chính xác, giảm chi phí, phù hợp với thực trạng trong nước. Nhóm chuyên gia xây dựng mô hình có số lượng tham số nhỏ hơn chatGPT hàng trăm lần nhưng nó được xây dựng trên lượng dữ liệu của người Việt.
Mô hình có thể trả lời câu hỏi mang tính đặc thù địa phương với độ chính xác cao. Cụ thể, khi hỏi về luật với hai vi phạm khác nhau nhưng mô hình chatGPT lại có chung một câu trả lời và nội dung chung chung. Trong khi mô hình AI dùng dữ liệu người Việt có thể trả lời chính xác căn cứ theo luật, nghị định, mức phạt, dẫn nguồn thông tin... rất cụ thể.
Để chứng minh về sự chính xác này, tiến sĩ Đào Đức Minh đã đưa ra ví dự khi hỏi về tác phẩm “Vợ Nhặt” trong văn học Việt Nam trên chatGPT và mô hình ngôn ngữ lớn tiếng Việt do VinBigdata phát triển, kết quả mô hình của VinBigdata trả lời chính xác hoàn toàn còn ChatGPT lại trả lời không rõ ràng.
Đại diện của VinBigdata cũng cho rằng, việc làm chủ AI tạo sinh trong nước quan trọng vì nó có thể giúp Chính phủ làm chủ nội dung, tránh thông tin sai lệch, đảm bảo an toàn dữ liệu quốc gia, cũng như đưa công nghệ Việt vươn tầm thế giới.