Bài báo này trình bày một hướng tiếp cận cho bài toán gán nhãn từ loại trong văn bản tiếng Việt trên cơ sở vận dụng các mô hình thống kê dựa vào kho ngữ liệu, từ điển, cú pháp và ngữ cảnh. Đồng thời trong quá trình phát triển hệ thống ứng dụng, do chưa có kho ngữ liệu dành cho mục đích nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt, chúng tôi cũng đã xây dựng có tính kế thừa [1][4] được một kho ngữ lịêu gồm gần từ tiếng Việt, và một từ điển gồm mục từ, để phục vụ cho vấn đề nghiên cứu này. | TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ 2 -2006 GÁN NHÃN TỪ LOẠI CHO TIẾNG VIỆT DỰA TRÊN VĂN PHONG VÀ TÍNH TOÁN XÁC SUẤT Nguyễn Quang Châu (1), Phan Thị Tươi (2), Cao Hoàng Trụ(2) (1) Trường Đại học Công Nghiệp (2) Trường Đại học Bách Khoa, ĐHQG- HCM (Bài nhận ngày 09 tháng 12 năm 2006) TÓM TẮT: Xác định từ loại chính xác cho các từ trong văn bản tiếng Việt là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự xác định này sẽ hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hướng đến ngữ nghĩa, Bài báo này trình bày một hướng tiếp cận cho bài toán gán nhãn từ loại trong văn bản tiếng Việt trên cơ sở vận dụng các mô hình thống kê dựa vào kho ngữ liệu, từ điển, cú pháp và ngữ cảnh. Đồng thời trong quá trình phát triển hệ thống ứng dụng, do chưa có kho ngữ liệu dành cho mục đích nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt, chúng tôi cũng đã xây dựng có tính kế thừa [1][4] được một kho ngữ lịêu gồm gần từ tiếng Việt, và một từ điển gồm mục từ, để phục vụ cho vấn đề nghiên cứu này. Từ khóa : Tiếng Việt, từ loại, gán nhãn từ loại, văn phong, từ điển, kho ngữ liệu, thống kê, mô hình Markov, thuật toán Viterbi, rút trích thông tin. I. GIỚI THIỆU Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và giữ một vai trò ngữ pháp nhất định. Các công cụ chú thích từ loại hay công cụ gán từ loại cho từ có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác