Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning. Bài viết Ứng dụng mô hình mapreduce trong phân cụm ảnh đề xuất cải tiến thuật toán phân cụm KMeans dựa trên mô hình MapReduce để có thể áp dụng cho phân cụm ảnh. | Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN 978-604-82-2981-8 ỨNG DỤNG MÔ HÌNH MAPREDUCE TRONG PHÂN CỤM ẢNH Vũ Thị Hường1 Nguyễn Tu Trung2 1 Sinh viên khoa Công nghệ thông tin Trường Đại học Thủy lợi huongvt52@ 2 Trường Đại học Thủy lợi 1. ĐẶT VẤN ĐỀ MapReduce là mô hình xử lý tính toán song song và phân tán do google đề xuất. Nó Phân cụm là kỹ thuật rất quan trọng trong bao gồm hai chức năng cơ bản quot Map quot và khai phá dữ liệu nó thuộc lớp các phương quot Reduce quot được xác định bởi người dùng 4 . pháp Unsupervised Learning trong Machine Dữ liệu đầu vào được chia thành nhiều mảnh Learning. Về bản chất ta có thể hiểu phân nhỏ và xử lý song song bởi các Worker cụm là quá trình tìm cách nhóm các đối MapTasktracker và ReduceTasktracker tượng đã cho vào các cụm sao cho các đối như được thể hiện trong hình 1. tượng trong cùng 1 cụm tương tự nhau và các đối tượng khác cụm thì không tương tự nhau. 3. THUẬT TOÁN PHÂN CỤM SONG Có nhiều phương pháp phân cụm khác SONG PKMEANS nhau như phương pháp hình thái phương Từ thuật toán KMeans 6 và mô hình xử pháp họ KMeans tách và hợp. Trong 2 lý dữ liệu phân tán MapReduce Jaatun và các tác giả đã đề xuất thuật toán KMeans sử công sự đã đưa ra thuật toán PKMeans dựa dụng thay thế tâm cụm. Trong 1 Balaji và trên MapReduce gồm 2 thuật toán chính cho cộng sự trình bày phương pháp phân đoạn hàm map và hàm reduce. ảnh mới dựa trên đặc trưng màu từ ảnh với việc chuyển điểm ảnh từ không gian RGB Bảng 1 Thuật toán cho hàm map key value sang không gian L a b . Input Global variable centers the offset key the sample Sự bùng nổ của nguồn dữ liệu lớn Big value Output pair where the key is the index of the closest Data những phương pháp xử lý mới. center point and value is a string comprise of sample MapReduce là mô hình xử lý dữ liệu phân tán information rất hiệu quả đã và đang được ứng dụng rộng 1. Construct the sample instance from value rãi trong xử lý dữ liệu lớn. Trong 3 7 các 2. minDis VALUE 3. index -1 .