Phương pháp phân cụm từ tiếng Việt dựa trên phương pháp Dendrogram và Wikipedia

Bài viết Phương pháp phân cụm từ tiếng Việt dựa trên phương pháp Dendrogram và Wikipedia đề xuất phương pháp phân cụm các từ tiếng Việt dựa vào tần số xuất hiện cùng nhau trên một trang Wikipedia tiếng Việt nhằm rút gọn vector thuộc tính của văn bản. | TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7 80 .2014 129 PHƯƠNG PHÁP PHÂN CỤM TỪ TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP DENDROGRAMVÀ WIKIPEDIA VIETNAMESE WORDS CLUSTERING METHOD BASED ON DENDROGRAM AND WIKIPEDIA Nguyễn Thị Lệ Quyên Phạm Minh Tuấn Trường Đại học Bách khoa Đại học Đà Nẵng Email quyen09t1@ pmtuan@ Tóm tắt - Ngày nay cùng với phát triển thông tin một cách nhanh Abstract - Nowadays within the development of quick information chóng việc phân loại văn bản tự động đang là một vấn đề cấp thiết. technology the automatic document classification is an urgent issue. Nhiều phương pháp học máy như cây quyết định mạng nơron Many machine learning methods such as decision trees artificial nhân tạo hay máy vector hỗ trợ được áp dụng cho tiếng Anh và neural networks and support vector machines are applied to classify mang lại hiệu quả nhiên các phương pháp này lại gặp khó English documents and bring high efficiency. However these khăn khi áp dụng cho phân loại tiếng Việt vì tiếng Việt có rất nhiều methods are difficult to apply to classify Vietnamese documents từ đồng nghĩa nhưng cách biễu diễn khác nhau. Báo cáo này đề because Vietnamese has many synonyms but performing different xuất phương pháp phân cụm các từ tiếng Việt dựa vào tần số xuất ways. This paper proposed a Vietnamese word clustering methods hiện cùng nhau trên một trang Wikipedia tiếng Việt nhằm rút gọn based on frequency appearing together on a Vietnamese Wikipedia vector thuộc tính của văn bản. Báo cáo này đồng thời đề xuất sử page to shortened the length of feature vector of the document. This dụng phương pháp phân tích nhóm Cluster Analysis sử dụng đồ paper also proposed methods using cluster analysis based on graph thị dendrogram trong việc phân cụm các từ Tiếng Việt. Kết quả clustering dendrogram. The experimental results show that the thực nghiệm cho thấy phương pháp đề xuất đã phân cụm đúng proposed method has the correct clustering of the synonyms and the các từ .

Bấm vào đây để xem trước nội dung
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.