TS Vũ Hải Quân (phải) cùng cộng sự tại Phòng Trí tuệ nhân tạo

Từ dữ liệu đầu vào là văn bản, hệ thống có thể tạo ra giọng nói nhân tạo của người trên máy tính

Một phần mềm khá độc đáo: “Tổng hợp tiếng nói tiếng Việt - Tiếng nói phương Nam” (VOS) vừa được TS Vũ Hải Quân, Trưởng Phòng Trí tuệ nhân tạo tại Trường ĐH Khoa học tự nhiên TPHCM, cùng các cộng sự xây dựng thành công. Đây là đề tài trọng điểm được ĐH Quốc gia TPHCM đầu tư, với kỳ vọng sẽ tạo nên một hướng đột phá trong lĩnh vực mới mẻ và đầy triển vọng này.

Rất gần với giọng thực

Việc tổng hợp tiếng nói là công nghệ nền tảng cho lĩnh vực giao tiếp người máy. Có thể hình dung công trình của TS Vũ Hải Quân và nhóm cộng sự của mình đơn giản như sau: Đây là hệ thống có thể tạo ra giọng nói nhân tạo của người trên máy tính từ dữ liệu đầu vào là văn bản. Văn bản sử dụng hệ thống này sẽ được chuyển qua ngôn ngữ nói. Nhưng VOS phiên bản 1.0 được phát triển theo phương pháp mới với các cải tiến để tạo ra tiếng nói được tổng hợp tự nhiên, rõ ràng, rất gần với giọng thực. Cụ thể, đơn vị ngữ âm không nhất thiết phải là âm tiết mà có thể là từ, thậm chí cụm từ, được xác định một cách mềm dẻo trong quá trình tổng hợp. Các đơn vị này sẽ được phân đoạn một cách tự động trên mỗi câu thu âm bằng phần mềm nhận dạng tiếng nói mà nhóm đã phát triển.

VOS có thể được áp dụng trong các ứng dụng truy vấn thông tin qua tổng đài điện thoại, trong đó yêu cầu của người dùng sẽ được ứng dụng tiếp nhận và xử lý, trả về thông tin do người dùng yêu cầu dưới dạng văn bản. VOS còn có thể được tích hợp với hệ thống định vị GPS trong các ứng dụng tìm đường đi gắn trên xe hơi để cung cấp các chỉ dẫn dạng âm thanh, hạn chế việc vừa lái xe vừa nhìn chỉ dẫn. Ngoài ra, VOS còn có thể sử dụng trong các hệ thống dịch tiếng nói, giúp người khiếm thị cập nhật kiến thức, dạy tiếng Việt cho người nước ngoài... Mục tiêu VOS hướng tới nữa sẽ là Việt hóa các sản phẩm của Microsoft, Google... bằng tiếng nói.

Sẽ tiếp tục nâng cấp

Nhưng tại sao lại là VOS phiên bản 1.0? Phải chăng nhóm nghiên cứu khinh suất khi đưa hệ thống chưa hoàn thiện vào sử dụng? PGS-TS Dương Anh Đức, Phó hiệu trưởng Trường ĐH Khoa học Tự nhiên TPHCM, giải đáp: Khi Google Translate mới ra đời, bị rất nhiều người chê cười vì dịch ngô nghê một số từ ngữ. Nhưng đến giờ, sau khi nhóm tiếp nhận góp ý và tiếp tục hoàn thiện, mọi người đã dần chấp nhận. Bàn phím máy tính khi ra đời cũng bị nhiều chỉ trích vì việc sắp xếp các chữ cái không khoa học. Nhưng mọi người sử dụng đều thấy tiện lợi và hình thành thói quen rồi nên không bỏ được. VOS cũng được công bố theo cách như thế. Đây là sản phẩm lạ nhưng mọi người sẽ dần quen thuộc và hiểu rõ tính độc đáo của nó.

Nhóm nghiên cứu sẽ tiếp tục hoàn thiện để tạo nên một sản phẩm hoàn chỉnh. Thực tế cũng cho thấy sau một tuần đưa lên mạng, đã có hơn 10.000 người dùng thử.

Tổng hợp giọng nói là gì?

Tổng hợp giọng nói là việc tạo ra giọng nói của người từ đầu vào là văn bản hay các mã hóa việc phát âm. Hệ thống thực hiện việc này còn gọi là máy tổng hợp giọng nói, có thể là hệ thống phần mềm hoặc phần cứng. Hệ thống này còn được gọi là văn bản-sang-tiếng nói.

Một máy tổng hợp giọng nói bao gồm hai phần: ngoại diện và hậu trường. Phần ngoại diện nhận đầu vào ở dạng văn bản rồi cho đầu ra là thể hiện biểu tượng ngôn ngữ của văn bản (tức là một cách mã hóa cách phát âm văn bản). Phần hậu trường nhận lấy thể hiện biểu tượng ngôn ngữ như đầu vào và cho ra giọng nói tổng hợp ở dạng sóng âm thanh.

(Nguồn Wikipedia)

Theo NguoiLaoDong



Bình luận

  • TTCN (0)