So sánh các độ đo trong phân cụm văn bản tiếng Việt

Bài viết trình bày tập trung nghiên cứu so sánh các độ đo sử dụng trong các giải thuật phân cụm phổ biến như HDBSCAN, PAM và Hierarchical Clustering để tìm độ đo thích hợp cho các thuật toán. Nghiên cứu thực hiện so sánh các giải thuật phân cụm sử dụng các độ đo Euclidean, City-Block, Cosine, Jaccard Coefficient và Chebyshev trên tập dữ liệu gồm 2,000 văn bản được thu thập ngẫu nhiên từ hai trang báo điện tử và . | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI SO SÁNH CÁC ĐỘ ĐO TRONG PHÂN CỤM VĂN BẢN TIẾNG VIỆT Tô Khánh Toàn1 Võ Hải Đăng2 Trần Thị Cẩm Tú3 Trƣơng Quốc Định2 Huỳnh Xuân Hiệp2 1 Khoa Công nghệ thông tin Trường Đại học Bạc Liêu 2 Khoa Công nghệ thông tin và Truyền thông Trường Đại học Cần Thơ 3 Khoa Công nghệ thông tin Trường Đại học Sư phạm Kỹ thuật Vĩnh Long tktoan@ vhdang@ tuttc@ tqdinh@ hxhiep@ TÓM TẮT Phân cụm văn bản là quá trình nhóm các tập văn bản có các tính chất tương tự nhau trong một tập dữ liệu vào các cụm sao cho các văn bản trong cùng một cụm có các tính chất tương đồng nhau. Phân cụm văn bản đóng vai trò quan trọng trong các lĩnh vực như phân loại văn bản tự động trích xuất chủ đề văn bản tự động hay tìm kiếm và trích lọc thông tin. Có nhiều giải thuật phân cụm đã được đề xuất trong các nghiên cứu về phân cụm văn bản. Mỗi thuật toán sử dụng các độ đo tương tự hay độ đo khoảng cách để xác định một văn bản giống hay khác biệt với các văn bản khác. Do đó việc chọn độ đo không phù hợp sẽ cho ra kết quả phân cụm không mong muốn. Trong bài báo này chúng tôi tập trung nghiên cứu so sánh các độ đo sử dụng trong các giải thuật phân cụm phổ biến như HDBSCAN PAM và Hierarchical Clustering để tìm độ đo thích hợp cho các thuật toán. Nghiên cứu thực hiện so sánh các giải thuật phân cụm sử dụng các độ đo Euclidean City-Block Cosine Jaccard Coefficient và Chebyshev trên tập dữ liệu gồm 2 000 văn bản được thu thập ngẫu nhiên từ hai trang báo điện tử và . Kết quả thực nghiệm cho thấy giải thuật HDBSCAN kết hợp độ đo Euclidean cho ra kết quả tốt nhất so với các kết hợp còn lại Độ đo Chebyshev cho ra kết quả tốt nhất trên giải thuật PAM với k 3. Từ khóa HDBSCAN PAM Hierarchical Clustering Euclidean Jaccard Coefficient Cosine City-Block Chebyshev phân cụm văn bản tiếng Việt. I. PHÂN CỤM

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
74    113    3    19-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.