Bài viết đề xuất thuật toán khai phá tập mục hữu ích cao hiếm mà không cần sinh tập ứng viên. Để lưu trữ hiệu quả thông tin về giá trị hữu ích và độ phổ biến của các tập mục chúng tôi sử dụng cấu trúc utility-list, đồng thời dựa trên cấu trúc này để tỉa không gian tìm kiếm hiệu quả. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi nhanh hơn các thuật toán hiện tại. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI FHURIM THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM Huỳnh Triệu Vỹ1 Lê Quốc Hải2 Trương Ngọc Châu3 1 Trường ĐH Phạm Văn Đồng 2 Trường CĐSP Quảng Trị 3 Trường ĐH Bách khoa Đà Nẵng htrvy@ hailq79@ truongngocchau@ TÓM TẮT Khai phá tập mục hữu ích cao hiếm nhằm mục đích tìm kiếm trong cơ sở dữ liệu giao tác CSDL tất cả các tập mục có độ hỗ trợ thấp hơn hoặc bằng ngưỡng hỗ trợ tối đa và giá trị hữu ích lớn hơn hoặc bằng ngưỡng hữu ích tối thiểu được chỉ ra bởi người dùng. Các thuật toán khai phá tập mục hữu ích cao hiếm hai pha sẽ tốn nhiều thời gian thực thi ở pha sinh tập ứng viên đặc biệt khi ngưỡng hỗ trợ tối đa tăng lên sẽ sinh ra nhiều tập ứng viên. Để khắc phục hạn chế này trong bài báo này chúng tôi đề xuất thuật toán khai phá tập mục hữu ích cao hiếm mà không cần sinh tập ứng viên. Để lưu trữ hiệu quả thông tin về giá trị hữu ích và độ phổ biến của các tập mục chúng tôi sử dụng cấu trúc utility-list đồng thời dựa trên cấu trúc này để tỉa không gian tìm kiếm hiệu quả. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi nhanh hơn các thuật toán hiện tại. Từ khóa Tập mục hữu ích cao Tập mục hữu ích cao hiếm Ngưỡng hỗ trợ cực đại. I. GIỚI THIỆU Các thuật toán khai phá tập phổ biến không đề cập đến vai trò của các mục và xem chúng có vai trò như nhau trong cơ sở dữ liệu CSDL 1 2 . Tuy nhiên trong thực tế nếu các mục được xem xét về tầm quan trọng của chúng sẽ có ý nghĩa hơn. Ví dụ như cơ sở dữ liệu bán hàng của một siêu thị mỗi giao tác không chỉ lưu trữ các mặt hàng của một đơn hàng mà còn có số lượng của mỗi mặt hàng và kèm theo đó là thông tin về giá hoặc lợi nhuận mang lại khi bán các mặt hàng này. Để giải quyết hạn chế này Hong Yao và các cộng sự 3 đã đề xuất một mô hình để khai phá tập mục dựa trên độ hữu ích của chúng gọi là Khai phá tập mục hữu ích cao High Utility Mining . Dựa .