Trong bài báo này, tác giả đề xuất thuật toán sử dụng diffset để khai thác tập đóng được gán trọng phổ biến (FWCIs-DIFF). Dựa trên cơ sở các định lý và tính chất, tác giả đề xuất thuật toán (FWCIs-DIFF). Kết quả thực nghiệm cho thấy, với cơ sở dữ liệu dày đặc thời gian khai thác của (FWCIs-DIFF) là nhanh hơn so với (FWCIs). | Tạp chí Khoa học công nghệ và Thực phẩm số 11 (2017) 84-94 SỬ DỤNG DIFFSET ĐỂ KHAI THÁC TẬP ĐÓNG ĐƢỢC GÁN TRỌNG PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG Trần Nhƣ Ý*, Nguyễn Văn Tùng, Ngô Dƣơng Hà Trường Đại học Công nghiệp Thực phẩm * Email: ytn@ Ngày nhận bài: 09/11/2016 ; Ngày chấp nhận đăng: 12/04/2017 TÓM TẮT Khai thác tập phổ biến đóng vai trò quan trọng trong khai thác luật kết hợp. Đối với cơ sở dữ liệu số lượng, khai thác tập đóng được gán trọng phổ biến (FWCIs) là một trong những phương pháp khai thác tập phổ biến đã được tác giả đề xuất. Tuy nhiên đối với cơ sở dữ liệu dày đặc, thời gian khai thác tập phổ biến (FWCIs) vẫn còn cao. Trong bài báo này, tác giả đề xuất thuật toán sử dụng diffset để khai thác tập đóng được gán trọng phổ biến (FWCIs-DIFF). Dựa trên cơ sở các định lý và tính chất, tác giả đề xuất thuật toán (FWCIs-DIFF). Kết quả thực nghiệm cho thấy, với cơ sở dữ liệu dày đặc thời gian khai thác của (FWCIs-DIFF) là nhanh hơn so với (FWCIs). Từ khóa: khai thác tập phổ biến, khai thác tập đóng được gán trọng phổ biến, diffset. 1. GIỚI THIỆU Điều kiện chặt hơn của tập đóng phổ biến so với tập phổ biến làm giảm đáng kể số lượng tập được sinh ra, và vì vậy khai thác luật từ tập đóng phổ biến sẽ hiệu quả hơn. Khái niệm tập đóng phổ biến được đưa ra lần đầu tiên vào năm 1999 [1] bởi Pasquier và đồng sự. Về sau này, thuật toán được sử dụng nhiều nhất là CHARM [2]. Vào năm 2013, Võ Đình Bảy, Frans Coenen, Lê Hoài Bắc đã đưa ra thuật toán khai thác tập được gán trọng phổ biến (FWIs) [3]. Cuối năm 2013, Võ Đình Bảy, Ngô Dương Hà, Trần Như Ý đã đưa ra thuật toán (FWCIs) [4]. Dựa trên WIT-tree [1], FWCIs [4], tính chất của IT-pair trên cơ sở Diffset [2], Diffset là một phần nhỏ của kích thước Tidset nên thao tác tính phần khác nhau được thực thi khá hiệu quả. Bên cạnh đó Diffset còn làm giảm kích thước bộ nhớ yêu cầu đề lưu trữ Tidset. Trong cùng một lớp tương đương, Diffset được tính dựa trên sự khác biệt giữa hai Tidset. Vì vậy, đối .