Nâng cao tính hiệu quả trong việc khai thác tập hữu ích cao hiếm trên cơ sở dữ liệu lớn

Bài viết đề xuất và áp dụng cấu trúc dữ liệu phù hợp để xây dựng một thuật toán khai thác tập hữu ích cao hiếm, hiệu quả hơn các thuật toán trước đây về cả không gian tìm kiếm và thời gian thực thi. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI NÂNG CAO TÍNH HIỆU QUẢ TRONG VIỆC KHAI THÁC TẬP HỮU ÍCH CAO HIẾM TRÊN CƠ SỞ DỮ LIỆU LỚN Vũ Văn Vinh Lâm Thị Họa Mi Dương Thị Mộng Thùy Khoa Công nghệ thông tin Trường Đại học Công nghiệp thực phẩm TP. HCM vinhvv@ milth@ thuydtm@ TÓM TẮT Khai thác tập hữu ích cao có ý nghĩa to lớn trong hoạt động sản xuất kinh doanh. Trong nhiều tình huống thực tế các trường hợp hiếm gặp được quan tâm nhiều hơn ví dụ trong y học các triệu chứng hiếm gặp đặt ra thách thức và cung cấp những hiểu biết hữu ích cho các bác sĩ trong chuẩn đoán bệnh . Khai thác tập hữu ích cao hiếm đang là chủ đề được nhiều nhà khoa học quan tâm hiện nay. Một số thuật toán đã được đề xuất để giải quyết vấn đề này nhưng chúng tiêu tốn nhiều thời gian và không gian lưu trữ. Trong bài báo này chúng tôi sẽ đề xuất và áp dụng cấu trúc dữ liệu phù hợp để xây dựng một thuật toán khai thác tập hữu ích cao hiếm hiệu quả hơn các thuật toán trước đây về cả không gian tìm kiếm và thời gian thực thi. Từ khóa Khai phá luật kết hợp tập hữu ích cao tập hữu ích cao hiếm RCUL. I. GIỚI THIỆU Khai thác dữ liệu được nghiên cứu để chuyển đổi dữ liệu thô thành những thông tin có ý nghĩa phục vụ cho nhiều mục đích khác nhau đặc biệt hiện nay lại có ý nghĩa to lớn trong hoạt động sản xuất kinh doanh. Các nhà sản xuất nhận ra rằng mục tiêu đến gần hơn với khách hàng là rất quan trọng đối với sự phát triển của một doanh nghiệp. Khai phá luật kết hợp ARM - Association Rule Mining là một trong những phương pháp được sử dụng rộng rãi nhất trong khai thác dữ liệu và khám phá tri thức. Tuy nhiên ARM truyền thống chủ yếu tập trung vào việc khai thác tập mục phổ biến. Các tập mục này được sinh ra chỉ có thể đóng góp một phần nhỏ trên lợi nhuận tổng thể. Trong khi đó các tập mục mặt hàng hiếm khi xuất hiện trong cơ sở dữ liệu hay còn được gọi là các tập .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.