Trên bài viết này, trình bày một phương pháp song song để khai thác HUIs từ lập chỉ mục dựa trên chiếu để tăng tốc hiệu suất và giảm yêu cầu bộ nhớ. Thí nghiệm kết quả cho thấy hiệu suất và số lượng ứng cử viên của thuật toán của chúng tôi là tốt hơn so với một số không thuật toán song song. | Các công trình nghiên cứu phát triển CNTT và Truyền thông Tập V-1, Số 17 (37), tháng 6/2017 Phƣơng pháp song song khai phá tập lợi ích cao dựa trên chỉ số hình chiếu Parallel Method for Mining High Utility Itemsets from ProjectionBased Indexing Đậu Hải Phong, Nguyễn Mạnh Hùng Abstract: High utility itemsets (HUIs) mining is one of popular problems in data mining. Several parallel and sequential algorithms have been proposed in the literature to solve this problem. All the parallel algorithms to try reduce synchronization cost and caculation global profit of itemsets. In this paper, we present a parallel method for mining HUIs from projection-based indexing to speed up performance and reduce memory requirements. The experimental results show that the performance and number candidate of our algorithm is better than some non parallel algorithms. Keywords: Data Mining, Parallel Mining, Shared Memory, High Utility, Projection index, PPB-Miner algorithm. I. GIỚI THIỆU Ngày nay, với sự phát triển nhanh chóng của các kỹ thuật về cơ sở dữ liệu đã tạo điều kiện cho việc lưu trữ và sử dụng dữ liệu lớn trong kinh doanh, y tế, giáo dục, các tổ chức khoa học, chính phủ, Một trong những chủ đề quan trọng trong các nghiên cứu về khai phá dữ liệu gần đây là tìm kiếm những tập mục lợi ích cao từ cơ sở dữ liệu giao dịch. Mục tiêu là trích xuất các thông tin hữu ích từ dữ liệu có quan tâm đến lợi ích, số lượng, chi phí, của từng phần tử. Đã có các nghiên cứu được đề xuất để khai phá tập lợi ích cao [1]–[6], Tuy nhiên, các thuật toán chủ yếu đều thực hiện khai phá tuần tự. Vấn đề đặt ra là khi dữ liệu lớn, các thuật toán tuần tự sẽ khó đáp ứng về mặt thời gian thực hiện và không gian lưu trữ. Trong khai phá tập lợi ích cao có một số thách thức sau: Thứ nhất, với khối lượng dữ liệu lớn thì không gian tìm kiếm lớn và vấn đề về sự hợp nhất. Thứ hai, tập lợi ích cao không có tính chất đóng [7]. Do vậy, số lượng các ứng cử viên được sinh ra rất lớn và chi phí lớn về thời gian duyệt dữ