Thuật toán hiệu quả khai thác tập hiếm tối thiểu

Trong khai thác dữ liệu, khai thác tập hiếm là một kỹ thuật khai thác rất quan trọng với các ứng dụng tiềm năng như phát hiện các cuộc tấn công máy tính, giao dịch gian lận trong các tổ chức tài chính, tin sinh học, y tế. Trong bài viết này, chúng tôi đề xuất thuật toán hiệu quả khai thác tập hiếm tối thiểu. Kết quả thực nghiệm trên bộ dữ liệu thực và giả lập, cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 8 2018 DOI THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP HIẾM TỐI THIỂU Phan Thành Huấn1 2 Lê Hoài Bắc3 1 Bộ môn Tin học Trường Đại học Khoa học Xã hội và Nhân văn Đại học Quốc gia Tp. Hồ Chí Minh 2 Khoa Toán - Tin học Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh 3 Khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh huanphan@ lhbac@ TÓM TẮT Trong khai thác dữ liệu khai thác tập hiếm là một kỹ thuật khai thác rất quan trọng với các ứng dụng tiềm năng như phát hiện các cuộc tấn công máy tính giao dịch gian lận trong các tổ chức tài chính tin sinh học y tế. Trong bài viết này chúng tôi đề xuất thuật toán hiệu quả khai thác tập hiếm tối thiểu. Kết quả thực nghiệm trên bộ dữ liệu thực và giả lập cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành. Từ khóa khai thác dữ liệu tập hiếm tập hiếm tối thiểu. I. GIỚI THIỆU Khai thác luật kết hợp là một kỹ thuật quan trọng trong lĩnh vực khai thác dữ liệu. Mục tiêu khai thác là phát hiện những mối liên hệ giữa các giá trị dữ liệu trong dữ liệu giao dịch. Mô hình đầu tiên của bài toán khai thác luật kết hợp là mô hình nhị phân hay còn gọi là mô hình cơ bản được Agrawal và đồng sự đề xuất vào năm 1993 1 phân tích dữ liệu giao dịch phát hiện các mối liên hệ giữa các tập mục hàng hoá đã bán được tại các siêu thị. Từ đó có kế hoạch bố trí sắp xếp kinh doanh hợp lý đồng thời tổ chức sắp xếp các quầy gần nhau như thế nào để có doanh thu trong các phiên giao dịch là lớn nhất. Bài toán khai thác luật kết hợp là khai phá các luật kết hợp có độ phổ biến support cũng như độ tin cậy confidence lớn hơn hoặc bằng một ngưỡng phổ biến tối thiểu minsup và ngưỡng tin cậy tối thiểu minconf . Các thuật toán được đề xuất để khai thác luật kết hợp chia thành 2 giai đoạn 1-5 Giai đoạn 1 Tìm tất cả các tập mục phổ biến từ

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.