Bài viết nghiên cứu nhằm đề xuất một cách tiếp cận mới để tìm tập phổ biến tối đại trên cơ sở dữ liệu giao dịch lớn: kỹ thuật nén hiệu quả cơ sở dữ liệu giao dịch lớn, dùng cấu trúc dữ liệu lưu trữ dạng bit và tập chỉ mục chứa các item đồng xuất hiện để chiếu tính nhanh tập phổ biến tối đại. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH LỚN Lê Hoài Bắc1 Phan Thành Huấn2 1 Khoa Công nghệ thông tin Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh 2 Bộ môn Tin học Trường Đại học Khoa học Xã hội và Nhân văn Đại học Quốc gia Tp. Hồ Chí Minh lhbac@ huanphan@ TÓM TẮT Khai thác luật kết hợp một trong những kỹ thuật quan trọng nhất và được nghiên cứu nhiều nhất trong khai thác dữ liệu. Khai thác tập phổ biến tối đại là một trong những vấn đề cơ bản nhất trong khai thác luật kết hợp. Hầu hết các thuật toán tìm tập phổ biến tối thiểu trước từ tập phổ biến tối thiểu suy ra tập phổ biến tối đại. Những phương pháp này tốn nhiều thời gian để tìm tập phổ biến tối đại. Để khắc phục vấn đề này chúng tôi đề xuất một cách tiếp cận mới để tìm tập phổ biến tối đại trên cơ sở dữ liệu giao dịch lớn kỹ thuật nén hiệu quả cơ sở dữ liệu giao dịch lớn dùng cấu trúc dữ liệu lưu trữ dạng bit và tập chỉ mục chứa các item đồng xuất hiện để chiếu tính nhanh tập phổ biến tối đại. Sau cùng chúng tôi trình bày kết quả thực nghiệm cho thấy rằng thuật toán đề xuất tốt hơn so với các thuật toán hiện hành. Từ khóa Khai thác luật kết hợp cơ sở dữ liệu giao dịch lớn tập phổ biến tối đại itemset đồng xuất hiện. I. GIỚI THIỆU Khai thác luật kết hợp là một kỹ thuật quan trọng trong lĩnh vực khai thác dữ liệu. Mục tiêu khai thác là phát hiện những mối quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mô hình đầu tiên của bài toán khai thác luật kết hợp là mô hình nhị phân hay còn gọi là mô hình cơ bản được R. Agrawal T. Imielinski và A. Swami đề xuất vào năm 1993 1 phân tích cơ sở dữ liệu giao dịch phát hiện các mối quan hệ giữa các tập mục hàng hoá đã bán được tại các siêu thị. Từ đó có kế hoạch bố trí sắp xếp kinh doanh hợp lý đồng thời tổ chức sắp xếp các .