Trong bài viết này, nhóm tác giả đề xuất bài toán khai thác tập phổ biến tuyệt đối trên dữ liệu giao dịch có trọng số của items và tiếp cận theo hướng không thỏa tính chất bao đóng giảm. Đây là tập itemset phổ biến có tất cả các itemset con đều phổ biến - giúp giai đoạn khai thác luật kết hợp nhanh và hiệu quả trên dữ liệu giao dịch có trọng số của items. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI ĐỀ XUẤT BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN TUYỆT ĐỐI TRÊN DỮ LIỆU GIAO DỊCH CÓ TRỌNG SỐ CỦA ITEMS Phan Thành Huấn1 3 Lê Hoài Bắc2 3 Khoa Toán - Tin học Trường Đại học Khoa học Tự nhiên Đại học Quốc gia TP. Hồ Chí Minh 1 2 Khoa Công nghệ thông tin Trường Đại học Khoa học Tự nhiên Đại học Quốc gia TP. Hồ Chí Minh 3 Đại học Quốc gia TP. Hồ Chí Minh huanphan@ lhbac@ TÓM TẮT Trong bài viết này nhóm tác giả đề xuất bài toán khai thác tập phổ biến tuyệt đối trên dữ liệu giao dịch có trọng số của items và tiếp cận theo hướng không thỏa tính chất bao đóng giảm. Đây là tập itemset phổ biến có tất cả các itemset con đều phổ biến - giúp giai đoạn khai thác luật kết hợp nhanh và hiệu quả trên dữ liệu giao dịch có trọng số của items. Để giải quyết bài toán trên nhóm tác giả sử dụng cách tiếp cận đơn giản dựa theo thuật toán AprioriTID và kết hợp biểu diễn dạng bit - cải tiến thành thuật toán có tên gọi là AprioriTID-PFWI. Nhóm tác giả tiến hành thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và bộ dữ liệu giả lập của trung tâm nghiên cứu IBM Almaden cho thấy bài toán đề xuất là khả thi cùng thuật toán cải tiến hiệu quả. Từ khóa Khai thác luật kết hợp tập phổ biến tuyệt đối có trọng số thuật toán AprioriTID-PFWI. I. GIỚI THIỆU Năm 1993 R. Agrawal cùng đồng sự đề xuất mô hình cơ bản khai thác luật kết hợp từ dữ liệu giao dịch DLGD truyền thống mức độ quan trọng hay mức ý nghĩa của các thuộc tính là như nhau - thuộc tính không có trọng số theo hai pha 1 Pha 1 Tìm tất cả các kết hợp thỏa ngưỡng phổ biến tối thiểu minsup sinh tập phổ biến FI - Frequent Itemset Pha 2 Sinh luật kết hợp lần lượt từ các kết hợp thỏa minsup ở pha 1 và các luật kết hợp này phải thỏa ngưỡng tin cậy tối thiểu minconf. Lúc này luật kết hợp chỉ có một thuộc tính ở vế phải X ik X là tập gồm nhiều thuộc tính ik là một thuộc tính .