Để có thể ứng dụng và phát triển CNTT trong mọi lĩnh vực, một trong những định hướng cần phải xác định rõ và phải thực hiện chính là việc tích hợp CNTT và ngôn ngữ học.

Tiếp thu các ý kiến đóng góp cho “Đề án Tăng tốc sớm đưa Việt Nam thành quốc gia mạnh về CNTT”, Viện Chiến lược Thông tin và Truyền thông – cơ quan thay mặt Bộ TT&TT chịu trách nhiệm soạn thảo đề án đã chính thức thừa nhận định hướng cần phải thực hiện này. Tuy nhiên, để điều đó trở thành hiện thực thì vẫn cần những sự nỗ lực từ nhiều phía.

Như hai mặt của một tờ giấy

Khi máy vi tính bắt đầu xuất hiện, có thể nói việc đầu tiên mà mọi quốc gia phải thực hiện là làm thế nào đưa được chữ quốc ngữ của mình vào đó. Với Việt Nam, việc này không quá khó vì chữ quốc ngữ là theo hệ Latinh nên chỉ cần lợi dụng bảng mã có sẵn của máy tính (ASCII) và đưa thêm vào các ký tự có dấu cùng quy tắc để soạn thảo.

CNTT và ngôn ngữ học đều là những công cụ, phương tiện để lưu trữ thông tin, dữ liệu. Và bất cứ ngành khoa học nào cũng phải dùng đến cả hai để phục vụ nhu cầu của mình. Vậy nhưng, đây lại là câu chuyện của “bóng tối dưới chân cột đèn” vì dường như có rất ít người để ý. Những cuộc khảo sát với sinh viên ngành CNTT tại rất nhiều trường đại học cho thấy số lượng trả lời được mã tổ hợp và mã dựng sẵn là gì là rất ít và thậm chí có sinh viên còn không ngần ngại nói rằng, sau này ra trường sẽ tham gia vào hoạt động gia công, xuất khẩu phần mềm thì không cần phải quan tâm đến tiếng Việt làm gì?

Quả là đáng buồn cho thực trạng này và theo TS. Ngô Trung Việt - chuyên viên Viện CNTT - Viện Khoa học Công nghệ Việt Nam, nguyên nhân của việc này là lỗi của những thế hệ đi trước. Trong tiềm thức của họ chỉ nổi lên những bài toán về quản lý, hệ thống... mà coi thường điều đơn giản. Tuy nhiên, càng đi sâu vào nó thì sẽ thấy đó là những bài toán không hề đơn giản.

Không hề là câu chuyện... đơn giản

Trở lại với câu chuyện đưa tiếng Việt vào máy tính thuở sơ khai. Người ta đã tranh thủ những gì có sẵn của máy tính với hệ chữ cái Latinh và khai thác không gian còn trống để đưa vào đó các ký tự riêng (ă, â, đ, ê, ơ, ư) của tiếng Việt cùng các thanh dấu (huyền, sắc, hỏi, ngã, nặng). Tuy nhiên, mỗi nhóm phần mềm lại tự quy định một chuẩn riêng và khi thống nhất các dữ liệu vào cùng một văn bản thì không thể đọc nổi vì loạn mã. Việc chuyển đổi dữ liệu về một chuẩn chung đương nhiên cũng không phải là dễ và thậm chí đã nảy sinh rất nhiều vấn đề. Đến nay, chuẩn quốc ngữ tiếng Việt theo tiêu chuẩn Unicode về cơ bản đã trở nên thông dụng với các báo điện tử và trang thông tin điện tử, cho phép hiển thị đồng thời cả các văn bản tiếng nước ngoài không thuộc hệ Latinh như Nga, Arab... Tuy nhiên, vì thói quen cố hữu nên ở rất nhiều nơi trong đó có không ít cơ quan nhà nước vẫn cứ gõ và lưu trữ văn bản với bộ phông chữ .VnTime (TCVN 5712:1993). Không dừng lại ở đó, các sản phẩm về từ điển điện tử, kiểm tra chính tả, nhận dạng văn bản, tìm kiếm văn bản trên mạng, hỗ trợ dịch thuật... cũng đã ra đời. Để thực hiện các sản phẩm này, trong một chừng mực nào đó các chuyên gia phần mềm đã chủ động tranh thủ khai thác, cập nhật các tri thức về ngôn ngữ học bởi có làm được điều đó thì mới xây dựng được phương án xử lý cụ thể.

Nhưng vấn đề tồn tại suốt nhiều năm qua là sự vào cuộc của ngành ngôn ngữ học còn khá hạn chế và thậm chí là dường như đứng ngoài cuộc. Tuy nhiên, khi bài toán dịch máy nổi lên thì ngành ngôn ngữ học không thể đứng ngoài cuộc được nữa. Để dịch từ tiếng nước ngoài sang tiếng Việt thì thuận lợi là chúng ta đã có sẵn các công cụ phân tích của đầu vào nhưng khi thực hiện theo chiều ngược lại thì tất yếu phải tranh thủ những nghiên cứu của ngành ngôn ngữ học và xây dựng được các công cụ phân tích cho chính tiếng Việt. Đi sâu vào chuyện này thì đây là cả những câu chuyện dài dài... Tiếng Nga chia động từ cho tất cả các ngôi và danh từ, tính từ ở các trạng thái đó bị chi phối với 6 cách. Tiếng Anh, tiếng Pháp... cũng chia động từ và các cụm từ đứng sau động từ cũng bị biến đổi theo nhưng có phần đơn giản hơn. Tiếng Việt thì lại chẳng quan tâm đến sở hữu cách, không cần chia động từ, thậm chí rất hay nói tắt... nên để máy tính có thể hiểu được tiếng Việt thì đó là câu chuyện không hề đơn giản chút nào.

Không chỉ một đề án quốc gia

Tình trạng lộn xộn của ngôn ngữ, lỗi chính tả tràn lan trên báo chí, khẩu hiệu... rồi những sự biến thái của ngôn ngữ blog, ngôn ngữ chat trên mạng... đã và đang tồn tại và gây bức xúc với không ít người. Theo TS Nguyễn Ái Việt – Phó Viện trưởng Viện CNTT ĐHQG Hà Nội thì đây là chuyện không thể xem thường và phải có biện pháp.

Những năm qua, trong chương trình khoa học về CNTT của Bộ KH&CN, định hướng cho những bài toán về ngôn ngữ học luôn nổi cộm hơn các định hướng khác dù rằng nguồn ngân sách nhà nước đầu tư cũng chưa thực sự lớn. Tuy nhiên, theo thừa nhận của chính những người trong cuộc thì những đầu tư, hỗ trợ đó mới là theo các định hướng cụ thể, còn để đi tới một đề án tổng thể rõ ràng hơn, thậm chí ở quy mô quốc gia thì đó vẫn là câu chuyện còn bỏ ngỏ.

Bởi thế, đã đến lúc phải bàn đến không chỉ một đề án quốc gia về CNTT cho các bài toán đặc thù của ngôn ngữ học. Và việc này không thể có công ty tư nhân, cá nhân, nước ngoài hay thị trường tự do nào làm được ngoài Chính phủ.

Theo ICTNews



Bình luận

  • TTCN (0)