Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ, gán nhãn từ loại được sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ trong văn bản và kết hợp với từ điển đồng nghĩa, gần nghĩa để điều chỉnh thành phần của vector văn bản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. | TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ 2 -2006 NGHIÊN CỨU ỨNG DỤNG TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT CÓ XEM XÉT NGỮ NGHĨA Đỗ Phúc Trung tâm Phát triển Công nghệ Thông tin, ĐHQG-HCM (Bài nhận ngày 25 tháng 08 năm 2005, hoàn chỉnh sửa chữa ngày 27 tháng 02 năm 2006) TÓM TẮT : Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ, gán nhãn từ loại được sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ trong văn bản và kết hợp với từ điển đồng nghĩa, gần nghĩa để điều chỉnh thành phần của vector văn bản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. Ngoài ra, luật kết hợp có vế phải là các thuộc tính phân lớp sẽ được sử dụng để làm luật phân lớp. Chúng tôi đã thử nghiệm giải pháp đề xuất vào bài toán phân lớp các tóm tắt bài báo khoa học trong lĩnh vực CNTT tiếng Việt Từ Khoá: Cụm danh từ, Đồ thị đồng hiện, Luật kết hợp, Luật phân lớp, Tập phổ biến THIỆU Với sự xuất hiện của Internet, khối lượng thông tin chủ yếu và chiếm trên 80% vẫn là các thông tin văn bản. Các phương pháp phân loại văn bản trước đây đều dựa trên tiếp cận máy học, mô hình xác suất,cây quyết định, qui nạp thuộc tính, người láng giềng gần nhất, và mới đây là phương pháp support vector machine [11]. Các thuật toán này thường tập trung vào bài toán phân làm 2 lớp và gặp khó khăn với khối lượng dữ liệu lớn. Trong bài báo này, chúng tôi nghiên cứu dùng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt gồm a)Đặc trưng văn bản: bao gồm tìm dãy từ phổ biến trong tập ngữ liệu văn bản và tạo đồ thị đồng hiện nhằm xác lập nghĩa của từ đặc trưng b) Tạo luật phân lớp văn bản. Bài báo được tổ chức như sau: 1) Giới thiệu 2) Bài toán