Trong báo cáo này, trình bày việc nghiên cứu và xây dựng Từ điển tiếng Việt dùng cho máy tính (Vietnamese Computational Lexicon – VCL), với mục tiêu đặt ra trước mắt là cung cấp ngữ liệu phục vụ phân tích cú pháp tiếng Việt. Chúng tôi sẽ giới thiệu mô hình ngữ liệu cho VCL, quy trình xây dựng VCL và những vấn đề cần phải tiếp tục nghiên cứu, giải quyết trong tương lai. | Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính NGHIÊN CỨU VÀ XÂY DỰNG TỪ ĐIỂN TIẾNG VIỆT CHO MÁY TÍNH (Building a Vietnamese Computational Lexicon) Vũ Xuân Lương Nguyễn Thị Minh Huyền Trung tâm từ điển học Vietlex Trường Đại học Khoa học Tự nhiên Hà Nội Tóm tắt Trong xử lí ngôn ngữ tự nhiên (Natural Language Processing), từ điển cho máy tính (Machine Readable Dictionary - MRD) là một dạng tài nguyên thiết yếu cho các bài toán phân tích ngôn ngữ từ đơn giản đến phức tạp. Một kho từ vựng chất lượng tốt phải cung cấp được cho các hệ thống xử lí ngôn ngữ tự nhiên các thông tin ngôn ngữ ở nhiều tầng bậc khác nhau như hình thái, ngữ pháp, ngữ nghĩa, tốt hơn nữa là có thể phục vụ cả các hệ thống xử lí đơn ngữ và đa ngữ. Trong báo cáo này, chúng tôi trình bày việc nghiên cứu và xây dựng Từ điển tiếng Việt dùng cho máy tính (Vietnamese Computational Lexicon – VCL), với mục tiêu đặt ra trước mắt là cung cấp ngữ liệu phục vụ phân tích cú pháp tiếng Việt. Chúng tôi sẽ giới thiệu mô hình ngữ liệu cho VCL, quy trình xây dựng VCL và những vấn đề cần phải tiếp tục nghiên cứu, giải quyết trong tương lai. 1. GIỚI THIỆU Trên thế giới, việc xây dựng loại từ điển dạng MRD áp dụng trong các ứng dụng xử lí ngôn ngữ tự nhiên là rất phổ biến. Đã có nhiều MRD được xây dựng, cả cho các ứng dụng xử lí đơn ngữ và đa ngữ, với những quan niệm và xuất phát điểm riêng (Nguyen, 2006). Với các kho từ vựng đơn ngữ, có thể kể đến nhiều dạng từ điển cung cấp các thông tin ở các tầng bậc khác nhau. Chẳng hạn, những dự án như BDLEX, CELEX, MULTEXT xây dựng các kho từ vựng chứa thông tin ở mức ngữ âm, hình thái - cú pháp học cho nhiều thứ tiếng Ấn – Âu. Ở tầng bậc cú pháp, nhiều mô hình từ điển cung cấp các thông tin ngôn ngữ rất phong phú, cả về khả năng kết hợp cú pháp cũng như những ràng buộc ngữ nghĩa hay các chức năng trong các cấu trúc ngữ pháp như GENELEX, EAGLES cho các ngôn ngữ Ấn – Âu, CKIP cho tiếng Trung. Thiên về ngữ nghĩa,