Phát triển mô hình ngôn ngữ lớn tiếng Việt cần nguồn lực khổng lồ. Nhưng đây là việc phải làm để tạo ra những hệ thống AI, trợ lý ảo hỗ trợ tiếng Việt, phục vụ cho người Việt.
Trí tuệ nhân tạo (AI) đang nổi lên như một công cụ làm thay đổi cách sống và làm việc của con người. Tại Việt Nam, cũng có những doanh nghiệp đang ngày đêm phát triển trợ lý ảo tiếng Việt nhằm phục vụ cho người Việt. VietNamNet xin gửi tới quý độc giả tuyến bài về những nỗ lực phát triển trợ lý ảo phục vụ công chức, người dân.
Sau cơn sốt ChatGPT, thế giới ngày càng quan tâm nhiều hơn tới trí tuệ nhân tạo tạo sinh hay AI tạo sinh (Generative AI). Đây là một dạng trí tuệ nhân tạo, trong đó các thuật toán tự động tạo ra nội dung dưới dạng văn bản, hình ảnh, âm thanh và video.
Để làm được điều đó, các hệ thống này phải trải qua quá trình đào tạo bằng một lượng dữ liệu khổng lồ. Chúng hoạt động bằng cách dự đoán từ hoặc pixel tiếp theo để tạo ra tác phẩm.
Các mô hình ngôn ngữ lớn là một trong những công nghệ cơ bản được sử dụng để tạo ra các hệ thống AI tạo sinh. Những mô hình này cung cấp cho các thuật toán AI tạo sinh khả năng nắm bắt mức độ phức tạp khác nhau của ngôn ngữ tự nhiên và tạo ra các sản phẩm mới dựa trên dữ liệu được đào tạo.
Một số ví dụ về các hệ thống AI tạo sinh, trợ lý ảo được tạo ra từ các mô hình ngôn ngữ lớn là ChatGPT của OpenAI và Cortana của Microsoft. Tuy vậy, hầu hết các mô hình ngôn ngữ lớn phổ biến hiện nay đều được phát triển bởi nước ngoài, chưa hỗ trợ ngôn ngữ tiếng Việt.
Đến năm 2030, nhiều dự báo cho thấy, AI tạo sinh có thể tạo nên một thị trường có quy mô lên tới 16.000 tỷ USD. Báo cáo Statista Market Insights nhận định, quy mô thị trường AI tạo sinh tại Việt Nam năm 2023 dự kiến sẽ đạt mốc 100,2 triệu USD.
Đây sẽ là công nghệ đóng vai trò quan trọng trong việc thúc đẩy chuyển đổi số, gia tăng năng suất lao động trong nhiều ngành, lĩnh vực như ngân hàng, sản xuất, bán lẻ và nông nghiệp,…
Đáng chú ý, khảo sát của Finastra cho thấy, Việt Nam hiện dẫn đầu trong các thị trường về mối quan tâm tới AI tạo sinh. Theo kết quả khảo sát, 91% người Việt thể hiện sự hưởng ứng với những giá trị tích cực mà AI tạo sinh mang lại.
Trong bối cảnh đó, việc phát triển các mô hình ngôn ngữ lớn tiếng Việt sẽ giúp cải thiện chất lượng các ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt. Các mô hình ngôn ngữ lớn tiếng Việt có thể giúp việc dịch máy, nhận dạng giọng nói, trả lời câu hỏi và tóm tắt văn bản bằng tiếng Việt trở nên chính xác và hiệu quả hơn.
Cũng chính vì thế, người Việt đang kỳ vọng về sự ra đời của các trợ lý ảo Việt Nam, sử dụng mô hình ngôn ngữ lớn tiếng Việt do chính người Việt Nam phát triển.
Thách thức khi xây dựng mô hình ngôn ngữ lớn tiếng Việt
Chia sẻ với VietNamNet, ông Nguyễn Tuấn Khang - Giám đốc khối phần mềm IBM Việt Nam cho biết, trên thế giới hiện chỉ có khoảng vài chục mô hình ngôn ngữ lớn (large language model).
Những mô hình ngôn ngữ lớn do nước ngoài phát triển hiện không có dữ liệu của người Việt, do vậy, không hỗ trợ tiếng Việt. Thông thường, các “large model” chỉ trả lời câu hỏi bằng tiếng Anh rồi sau đó tự động dịch ra tiếng Việt. Điều này khiến chất lượng câu trả lời đôi lúc không được mượt do phải xử lý qua một ngôn ngữ trung gian.
Lý giải về số lượng ít ỏi của các mô hình ngôn ngữ lớn, Giám đốc khối phần mềm IBM Việt Nam cho hay, để phát triển một mô hình ngôn ngữ lớn có thể phải tiêu tốn hàng trăm triệu USD, với khoảng vài trăm nghìn USD mỗi ngày.
“Do là cuộc chơi rất tốn kém, các mô hình ngôn ngữ lớn thường được xây dựng bởi những hãng lớn như IBM, Facebook, Google. Thông thường, những hãng lớn sẽ cạnh tranh và dẫn dắt cuộc chơi”, ông Khang chia sẻ.
Khi được đặt câu hỏi về khả năng thành công của các mô hình ngôn ngữ lớn tiếng Việt, theo ông Khang, từ trước đến nay, tiếng Việt luôn là một vấn đề trong việc phát triển AI.
Lý giải thêm, theo Giám đốc khối phần mềm IBM Việt Nam, trong ChatGPT, chữ T ở đây là viết tắt của từ Transformer (chuyển đổi). Mô hình Transformer cho phép biến dữ liệu từ dạng này sang dạng khác, đó là lý do trợ lý ảo ngày nay có thể biến dữ liệu đầu vào từ dạng text (văn bản) thành ảnh, thành thơ,...
“Để xây dựng mô hình ngôn ngữ lớn tiếng Việt, chữ T đó phải có khả năng “Transformer” được dữ liệu tiếng Việt. Mà để làm được như vậy, chúng phải học rất nhiều”, ông Khang nói.
Với những thách thức kể trên, Giám đốc khối phần mềm IBM Việt Nam nhận định, để xây dựng được một mô hình ngôn ngữ lớn tiếng Việt, của người Việt Nam không phải là chuyện dễ dàng.
Tuy nhiều khó khăn, thách thức, hiện đã có một số doanh nghiệp, trường đại học Việt Nam ấp ủ tham vọng về việc phát triển các mô hình ngôn ngữ lớn tiếng Việt. Thậm chí, tham vọng đó đã được cụ thể hóa bằng sản phẩm thực tế. Người dùng và các doanh nghiệp Việt Nam sẽ được hưởng lợi trước tiên từ sự xuất hiện của những hệ thống AI cơ sở hỗ trợ tiếng Việt.
Bài 4: Người Việt phát triển mô hình ngôn ngữ lớn tiếng Việt