Bài viết này trình bày các nghiên cứu liên quan đến bài toán khai thác tập mục hữu ích cao, và khai thác luật kết hợp. Đồng thời, bài viết còn giới thiệu thuật toán đóng góp bao gồm các định nghĩa liên quan và thuật toán đề xuất. | Tạp chí Khoa học & Công nghệ Số 1 30 Khai thác luật kết hợp từ các tập mục hữu ích cao Nguyễn Thị Thuý Loan1, Mai Hoàng Thắng2 Đại học Nguyễn Tất Thành Công Ty TNHH Harvey Nash Việt Nam nthithuyloan@; 1 2 Tóm tắt Trong kinh doanh, các doanh nghiệp đều có chung một mong muốn là làm thế nào để tăng doanh thu hay lợi nhuận. Ví dụ, các siêu thị thường phân tích hoạt động kinh doanh của mình để xem xét sản phẩm nào mang lại lợi nhuận cao cho siêu thị. Để thực hiện được việc này, cần khai thác tập hữu ích cao. Gần đây có nhiều công trình quan tâm đến lĩnh vực này, nhưng các công trình trên tốn nhiều thời gian và bộ nhớ sử dụng trong quá trình khai thác. Trong công trình này, nhóm tác giả đề xuất một thuật toán giúp tiết kiệm được thời gian và bộ nhớ trong quá trình khai thác. ® 2018 Journal of Science and Technology - NTTU 1. Giới thiệu Khai thác dữ liệu (KTDL) là một quá trình quan trọng trong khám phá tri thức, nó là quá trình mô tả và dự đoán dựa trên các thông tin, tri thức, dữ liệu đã được lưu trữ, và phân tích các dữ liệu để tìm ra các dạng thức hoặc kết hợp có tính lặp đi lặp lại và tạo thành qui luật, các qui luật này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh, . KTDL còn là quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị được lấy từ tập dữ liệu cho trước [1]. Phương pháp KTDL thường được chia thành hai nhóm chính như sau: (i) Kỹ thuật KTDL mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu string hiện có. Các kỹ thuật này bao gồm: Phân cụm (Clustering), tóm tắt (Summerization), trực quan hóa (Visualization), phân tích sự phát triển và độ lệch (Evolution and Deviation analyst), khai phá luật kết hợp (Association rules), (ii) Kỹ thuật KTDL dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (Classifacation), hồi quy (regession), . Tuy