Một phiên bản cải tiến của thuật toán MMR gom cụm dữ liệu phân loại

Bài viết đề xuất một phiên bản cải tiến của thuật toán MMR để gom cụm dữ liệu phân loại, gọi là IMMR (Improved Minimum-Minimum Roughness). Ngoài việc duy trì tất cả các ưu điểm của MMR, thuật toán IMMR có hai cải tiến đáng chú ý. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI MỘT PHIÊN BẢN CẢI TIẾN CỦA THUẬT TOÁN MMR GOM CỤM DỮ LIỆU PHÂN LOẠI Đỗ Sĩ Trường Phạm Công Xuyên Trần Thanh Phương Nguyễn Thanh Tùng Lac Hong University truongds@ pcxuyen@ thanhphuong@ nttung@ TÓM TẮT Một trong những thuật toán gom cụm dữ liệu phân loại sử dụng lý thuyết tập thô tiên phong và thành công nhất là thuật toán MMR Minimum-Minimum Roughness do Parmar đề xuất. MMR là một thuật toán gom cụm phân cấp từ trên xuống. Nó là một thuật toán gom cụm mạnh cho phép xử lý sự không chắc chắn. Tuy nhiên MMR có hai hạn chế. Thứ nhất nó có xu hướng chọn thuộc tính có ít giá trị hơn làm thuộc tính phân chia cụm các đối tượng tại mỗi thời điểm. Do đó nếu một thuộc tính chỉ có một giá trị đơn lẻ nó sẽ được chọn dẫn đến quá trình gom cụm sẽ bị chặn. Thứ hai thuật toán MMR chọn nút lá có nhiều đối tượng hơn để phân chia tiếp do đó có thể tạo ra kết quả gom cụm không mong muốn. Trong bài báo này chúng tôi đề xuất một phiên bản cải tiến của thuật toán MMR để gom cụm dữ liệu phân loại gọi là IMMR Improved Minimum-Minimum Roughness . Ngoài việc duy trì tất cả các ưu điểm của MMR thuật toán IMMR có hai cải tiến đáng chú ý. Thứ nhất ở mỗi bước của quá trình gom cụm IMMR loại bỏ tất cả các thuộc tính chỉ nhận một giá trị đơn lẻ. Thứ hai IMMR xác định nút phân chia tiếp theo bằng cách xem xét tổng entropy của tất cả các thuộc tính trên các nút đây là một phương pháp hợp lý hơn so với phương pháp được sử dụng trong thuật toán MMR. Kết quả thử nghiệm trên các tập dữ liệu thực lấy từ kho dữ liệu UCI cho thấy thuật toán IMMR có thể được sử dụng thành công trong phân tích gom cụm dữ liệu phân loại vì nó cho kết quả gom cụm tốt hơn. Từ khóa Khai phá dữ liệu dữ liệu phân loại gom cụm gom cụm phân cấp lý thuyết tập thô lựa chọn thuộc tính gom cụm. I. MỞ ĐẦU Gom cụm là một kỹ thuật cơ bản trong khai

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.