Lựa chọn các ràng buộc cho thuật toán phân cụm nửa giám sát

Bài viết đề xuất một thuật toán mới mở rộng từ thuật toán MMFFQS nhằm thu thập các ràng buộc từ người sử dụng, thuật toán mới được đặt tên là KMMFFQS dựa trên K-Means và phương pháp Min-Max. Kết quả thực nghiệm với các tập dữ liệu thực từ UCI chỉ ra tính hiệu quả của thuật toán đề xuất | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 8 2018 DOI LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT Vũ Việt Vũ1 Nguyễn Anh Tuấn2 Lê Thị Kiều Oanh3 1 Viện Công nghệ Thông tin Đại học Quốc gia Hà Nội 2 Công ty Hệ thống Thông tin FPT 3 Trường Đại học Kinh tế Kỹ thuật Công Nghiệp vuvietvu@ tuanna2@ oanhlk2004@ TÓM TẮT Thuật toán phân cụm dựa trên các ràng buộc là một dạng của thuật toán phân cụm nửa giám sát nhằm tích hợp một tập các ràng buộc để cải tiến quá trình phân cụm. Trên thực tế rất nhiều thuật toán phân cụm nửa giám sát đã được giới thiệu. Tuy nhiên hầu hết các ràng buộc sử dụng được sinh ngẫu nhiên hoặc giả thiết rằng có sẵn từ ban đầu. Hơn nữa một số tập ràng buộc thậm chí có thể làm giảm chất lượng của quá trình phân cụm nếu chúng không được lựa chọn cẩn thận. Trong bài báo này chúng tôi đề xuất một thuật toán mới mở rộng từ thuật toán MMFFQS nhằm thu thập các ràng buộc từ người sử dụng thuật toán mới được đặt tên là KMMFFQS dựa trên K-Means và phương pháp Min-Max. Kết quả thực nghiệm với các tập dữ liệu thực từ UCI chỉ ra tính hiệu quả của thuật toán đề xuất. Từ khóa Phân cụm nửa giám sát ràng buộc học tích cực K-Means. I. GIỚI THIỆU Thuật toán phân cụm clustering nhằm phân tách một tập dữ liệu X có n phần tử trong không gian m chiều thành các cụm sao cho các phần tử trong mỗi cụm thì tương tự nhau theo một độ đo nào đó. Thuật toán phân cụm đóng vai trò quan trọng trong lĩnh vực khai phá dữ liệu và phát hiện tri thức từ dữ liệu. Mục đích của quá trình phân cụm là phát hiện ra cấu trúc của tập dữ liệu đang xét tìm ra mối liên hệ giữa các phần tử và thậm chí trong một số trường hợp phát hiện ra các phần tử dị thường outlier . Các thuật toán phân cụm được nghiên cứu và giới thiệu từ những năm 50 của thế kỷ XX. Các thuật toán điển hình có thể kể đến như K-Means Fuzzy C-Means thuật toán phân cụm dựa trên đồ thị GC thuật

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.