Một phương pháp lựa chọn thuộc tính gom cụm sử dụng lý thuyết thông tin

Bài viết trình bày việc xem xét ba kỹ thuật dựa trên lý thuyết tập thô: TR (Total Roughness), MMR (Min-Min Roughness) và MDA (Maximum Dependency Attribute), và đề xuất một thuật toán mới MAX-MEAN-SU (Maximum Mean of Symmetric Uncertainties), cho việc lựa chọn thuộc tính phân cụm theo tiếp cận phân cấp. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI MỘT PHƯƠNG PHÁP LỰA CHỌN THUỘC TÍNH GOM CỤM SỬ DỤNG LÝ THUYẾT THÔNG TIN Phạm Công Xuyên Nguyễn Thanh Tùng Lac Hong University pcxuyen@ nttung@ TÓM TẮT Bài toán gom cụm dữ liệu xuất hiện trong nhiều lĩnh vực khác nhau. Mục tiêu cơ bản của gom cụm là nhóm đối tượng thành các cụm sao cho các đối tượng trong cùng một cụm thì tương tự như nhau hơn là các đối tượng từ các cụm khác nhau. Gần đây nhiều nhà nghiên cứu quan tâm đến vấn đề gom cụm dữ liệu phạm trù categorical trong đó các đối tượng dữ liệu được mô tả bởi các thuộc tính không phải thuộc tính số. Đặc biệt phương pháp gom cụm phân cấp dữ liệu phạm trù sử dụng lý thuyết tập thô đã thu hút nhiều sự chú ý. Chìa khóa của các phương pháp này là làm thế nào để chọn được một thuộc gom cụm tốt nhất tại mỗi thời điểm trong số nhiều thuộc tính ứng viên. Trong bài báo này chúng tôi xem xét ba kỹ thuật dựa trên lý thuyết tập thô TR Total Roughness MMR Min-Min Roughness và MDA Maximum Dependency Attribute và đề xuất một thuật toán mới MAX-MEAN-SU Maximum Mean of Symmetric Uncertainties cho việc lựa chọn thuộc tính phân cụm theo tiếp cận phân cấp. MAX-MEAN-SU sử dụng độ đo SU Symmetric Uncertainty một độ đo lý thuyết thông tin cho phép lượng hóa mức độ tương quan lẫn nhau giữa hai thuộc tính và tìm cách xác định thuộc tính gom cụm sao cho độ tương quan trung bình của nó với các thuộc tính khác đạt giá trị lớn nhất. Để đánh giá và so sánh MAX-MEAN-SU với ba kỹ thuật dựa trên lý thuyết tập thô chúng tôi sử dụng khái niệm Độ tương tự trung bình bên trong các cụm của một phép gom cụm để đo lường chất lượng gom cụm của mỗi thuộc tính được chọn bởi mỗi phương pháp. Kết quả thực nghiệm cho thấy chất lượng gom cụm của thuộc tính chọn được bằng phương pháp MAX-MEAN-SU là cao hơn so với các thuộc tính chọn bởi các phương pháp TR MMR và MDA. Do đó MAX-MEAN-SU có thể .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.