Báo cáo này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF. Mô hình vnSynAF là một lược đồ mã hóa dựa trên định dạng XML (eXtended Markup Language) có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Báo cáo cũng giới thiệu một công cụ đồ hoạ trợ giúp gán nhãn cây cú pháp và phát triển treebank tiếng Việt. | Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp tiếng Việt XÂY DỰNG SƠ ĐỒ MÃ HÓA VÀ CÔNG CỤ TRỢ GIÚP GÁN NHÃN CÚ PHÁP TIẾNG VIỆT Phan Thị Hà1, Nguyễn Thị Minh Huyền2, Lê Hồng Phương2, Lưu Văn Tăng2 1 Học viện Công nghệ Bưu chính Viễn Thông Hà Nội 2 Đại học Khoa học Tự nhiên Hà Nội Tóm tắt: Báo cáo này trình bày một hướng tiếp cận xây dựng mô hình chú giải cú pháp cho tiếng Việt tương thích mô hình chú giải cú pháp chuẩn quốc tế SynAF có tên vnSynAF. Mô hình vnSynAF là một lược đồ mã hóa dựa trên định dạng XML (eXtended Markup Language) có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Báo cáo cũng giới thiệu một công cụ đồ hoạ trợ giúp gán nhãn cây cú pháp và phát triển treebank tiếng Việt. 1. Giới thiệu Kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp và được biểu diễn dưới dạng cấu trúc cây phân cấp là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ (XLNN) tự nhiên. Kho văn bản này được gọi là treebank. Treebank có nhiều ứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lí ngôn ngữ tự động, các phần mềm dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp Các hệ thống treebank cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa đã được xây dựng từ lâu, đối với tiếng Việt, việc xây dựng treebank đang là công việc mới bắt đầu. Trong lĩnh vực XLNN tự nhiên, nguồn tài nguyên ngôn ngữ đóng vai trò rất quan trọng trong việc nghiên cứu và phát triển các phương pháp và công cụ tự động. Việc chuẩn hoá vấn đề mã hoá tài nguyên ngôn ngữ nói chung và mã hoá treebank nói riêng nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác tài nguyên là vấn đề rất quan trọng. Gần đây một số dự án xây dựng kho ngữ liệu trên thế giới đưa vấn đề chuẩn hóa lên hàng đầu. Đặc biệt là dự án European eContent LIRICS đã và đang xử lý quá trình chuẩn hóa quốc tế về chú giải tài nguyên cú pháp - SynAF (Syntactic Annotation Framework). Mô hình SynAF được thiết kế dựa vào cả