Trong bài viết đề xuất một giải pháp mới trong xử lý tiếng Việt bằng cách xây dựng mô hình chủ đề tiếng Việt. Phương pháp này sử dụng cách thức tìm một từ lõi và phát triển để tự sinh ra các từ khác trong chủ đề dựa trên Naive Bayes. Dựa trên tập dữ liệu huấn luyện, chúng tôi tính toán xác suất của các từ trong mô hình chủ đề tiếng Việt. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. Đồng thời, có độ chính xác khá cao và thời gian xử lý phân loại nhanh hơn so với các phương pháp đã được đề xuất trước đó. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỂ Bùi Khánh Linh 1 Nguyễn Thị Thu Hà1 Nguyễn Thị Ngọc Tú1 Đào Thanh Tĩnh2 1 Khoa CNTT Trường Đại học Điện lực Hà Nội 2 Khoa CNTT Trường Đại học Lê Quý Đôn Hà Nội linbk@ hantt@ tunn@ tinhdt@ TÓM TẮT Trong bài báo này chúng tôi đề xuất một giải pháp mới trong xử lý tiếng Việt bằng cách xây dựng mô hình chủ đề tiếng Việt. Phương pháp này sử dụng cách thức tìm một từ lõi và phát triển để tự sinh ra các từ khác trong chủ đề dựa trên Naive Bayes. Dựa trên tập dữ liệu huấn luyện chúng tôi tính toán xác suất của các từ trong mô hình chủ đề tiếng Việt. Kết quả thực nghiệm cho thấy rằng phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. Đồng thời có độ chính xác khá cao và thời gian xử lý phân loại nhanh hơn so với các phương pháp đã được đề xuất trước đó. Từ khóa Mô hình chủ đề tiếng Việt khai phá văn bản từ lõi Naive Bayes. I. ĐẶT VẤN ĐỀ Phân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức knowledge based hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn bản. Mỗi loại hay còn gọi là lớp class tương đương với một chủ đề ví dụ thể thao chính trị hay nghệ thuật . Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản D d1 d2 . dn được gọi là tập huấn luyện trong đó các tài liệu di được gán nhãn cj - với cj thuộc tập các chủ đề C c1 c2 . cm . Nhiệm vụ tiếp theo là xác định được mô hình phân loại trên cơ sở đó có thể gán đúng lớp để một tài liệu dk bất kỳ có thể phân loại chính xác vào một trong những chủ đề của tập chủ đề C 1 2 3 6 . Bài toán phân loại văn bản được mô phỏng thành quá trình .