Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến

Bài viết "Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến" đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Các kết quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân loại văn bản tiếng Việt. Mời các bạn cùng tham khảo! | Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến 1st ThS Hoàng Ngọc Dương 2nd ThS Phạm Ngọc Công Trường Sĩ quan Không quân Trường Sĩ quan Không quân Thành phố Nha Trang Khánh Hòa Thành phố Nha Trang Khánh Hòa Email congpham82@ Email hoangduongvtl@ Tóm tắt Phân loại văn bản là công việc phân tích nội dung thị văn bản được biểu diễn thành đồ thị vô hướng đơn giản của văn bản sau đó đưa ra quyết định văn bản này thuộc chủ đề và sử dụng thuật toán khai thác đồ thị con phổ biến bằng nào trong các loại văn bản đã biết chủ đề trước. Trong lĩnh vực thuật toán gSpan để xác định đặc trưng cho từng chủ đề. Sau khai thác dữ liệu các phương pháp tiếp cận chính như Naïve bước này là công việc vec tơ hóa đồ thị văn bản. Bước cuối Bayes máy vectơ hỗ trợ SVM Cây quyết định K láng giềng gần nhất k-NN mạng nơron Trong bài báo này chúng tôi cùng thực hiện là huấn luyện phân loại bằng SVM. đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật A. Tiền xử lý văn bản khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Mô hình đề xuất được thực nghiệm trên một tập 2000 Việc đầu tiên hệ thống thực hiện là tách các từ trong văn các tài liệu văn bản tiếng Việt là các bài viết được tải xuống từ bản. Phương pháp tách từ sử dụng bộ thư viện tách từ các trang báo điện tử . Các kết quot JVnTextPro A Java-based Vietnamese Text Processing quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất Tool quot được phát triển bởi nhóm tác giả Cam-Tu Nguyen đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân Xuan-Hieu Phan and Thu-Trang Nguyen tại địa chỉ loại văn bản tiếng Việt. http . Đây là bộ thư viện mã Từ khóa Phân loại văn bản phân lớp văn bản đồ thị con nguồn mở trong java. Bước tiếp theo hệ thống sẽ tính tần phổ biến suất xuất hiện của các từ trong tập văn bản. Để giảm kích I. GIỚI THIỆU thước của đồ thị và thời gian tính toán đồ thị con phổ biến chỉ những từ có

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.