Một cải tiến thuật toán K-Means song song sử dụng phương pháp lấy mẫu

Nghiên cứu này trình bày ý tưởng cải tiến thuật toán phân cụm dữ liệu PK-means, phân tích ưu và nhược điểm của thuật toán này, sau đó trình bày thuật toán cải tiến của chúng tôi SK-meansMR và thực nghiệm đánh giá chất lượng, tốc độ của thuật toán trên dữ liệu lớn. | 196 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Một cải tiến thuật toán K-Means song song sử dụng phương pháp lấy mẫu Trần Hoàng Việt1 Nguyễn Thị Tuyết1 Trần Thiên Thành1 1 Khoa Công nghệ thông tin Đại học Quy Nhơn tranhoangviet92@ nguyenthituyet@ thanhtranthien@ Tóm tắt Phân cụm dữ liệu là một kỹ thuật ứng dụng trong nhiều lĩnh vực khác nhau. K-means là thuật toán kinh điển trong phân cụm dữ liệu. Hiện tại trong thời điểm bùng nổ dữ liệu K-means cũng như các thuật toán khác không đáp ứng yêu cầu về tốc độ. Việc cải tiến thuật toán để xử lý dữ liệu lớn là nhu cầu cấp thiết. Trong nghiên cứu này chúng tôi trình bày ý tưởng cải tiến thuật toán phân cụm dữ liệu PK-means phân tích ưu và nhược điểm của thuật toán này sau đó trình bày thuật toán cải tiến của chúng tôi SK-meansMR và thực nghiệm đánh giá chất lượng tốc độ của thuật toán trên dữ liệu lớn. Keywords K-means cải tiến MapReduce PK-means SK-meansMR. 1 Mở đầu Chúng ta đang tràn ngập trong thông tin nhưng lại khát tri thức nhận định của John Naisbett s đã thể hiện được nhu cầu rất lớn về khai phá dữ liệu. Đặc biệt trong thời điểm bùng nổ thông tin việc khai phá dữ liệu lớn càng trở nên cấp thiết hơn nữa. Các bài toán hiện tại thường gắn liền với tập dữ liệu lớn nhưng các thuật toán truyền thống không đáp ứng yêu cầu về thời gian. Xử lý song song trên môi trường phân tán là một giải pháp để giải quyết vấn đề này. Phân cụm dữ liệu là một bước quan trọng trong khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực khác nhau như thiên văn học tin sinh học thương mại điện tử phát hiện lừa đảo quảng cáo quản lý quan hệ khách hàng chăm sóc sức khỏe viễn thông đầu tư. Trong phân cụm dữ liệu thuật toán K-means là thuật toán kinh điển nhưng không thể giải quyết tập dữ liệu lớn. Để khắc phục một số nhược điểm của K-means khi xử lý dữ liệu lớn các cải tiến thường sử dụng mô hình lập trình MapReduce để tăng hiệu suất thuật toán. Một trong những thuật toán cải tiến .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
62    43    1    28-03-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.