DYN-mRI: Thuật toán khai thác nhanh tập hiếm tối thiểu với ngưỡng phổ biến động

Bài viết này đề xuất thuật toán nhanh khai thác tập hiếm tối thiểu với ngưỡng phổ biến tối thiểu động. Kết quả thực nghiệm trên bộ dữ liệu thực và giả lập, cho thấy thuật toán đề xuất nhanh hơn so với thuật toán hiện hành. | Phan Thành Huấn 191 DYN-mRI Thuật toán khai thác nhanh tập hiếm tối thiểu với ngưỡng phổ biến động Phan Thành Huấn1 2 1 Bộ môn Tin học Đại học Khoa học Xã hội và Nhân văn Đại học Quốc gia Tp. Hồ Chí Minh 2 Khoa Toán -Tin học Đại học Khoa học Tự nhiên Đại học Quốc gia Tp. Hồ Chí Minh huanphan@ Tóm tắt. Trong khai thác dữ liệu khai thác tập hiếm là một kỹ thuật khai thác rất quan trọng với các ứng dụng tiềm năng như phát hiện các cuộc tấn công máy tính giao dịch gian lận trong các tổ chức tài chính tin sinh học y tế. Trong bài viết này chúng tôi đề xuất thuật toán nhanh khai thác tập hiếm tối thiểu với ngưỡng phổ biến tối thiểu động. Kết quả thực nghiệm trên bộ dữ liệu thực và giả lập cho thấy thuật toán đề xuất nhanh hơn so với thuật toán hiện hành. Từ khóa Luật Kết Hợp Tập Hiếm Tối Thiểu Ngưỡng Phổ Biến Động. 1 Giới thiệu Thuật toán khai thác luật kết hợp truyền thống 1-3 chỉ dùng một giá trị ngưỡng phổ biến tối thiểu minsup với ngầm định là các mặt hàng có cùng tính chất và tần số trong dữ liệu điều này không thực tế. Trong kinh doanh bán lẻ thường các mặt hàng thiết yếu hàng tiêu dùng và các sản phẩm giá rẻ được mua nhiều hơn trong khi các mặt hàng xa xỉ và các sản phẩm giá trị cao lại ít được mua tập hiếm . Nếu chọn minsup quá cao thì các mặt hàng được khai thác thông thường có giá thành thấp và mang lại lợi nhuận không cao cho doanh nghiệp. Ngược lại nếu chọn minsup quá thấp thì các mặt hàng được khai thác quá lớn điều này làm cho doanh nghiệp khó khăn khi ra quyết định kinh doanh. Từ đó có nhiều thuật toán khai thác tập hiếm được đề xuất như Apriori-Inverse ARIMA Rarity Walky-G. Các thuật toán này dựa trên Apriori 4- 6 Eclat 7 và có nhiều hạn chế như quét dữ liệu nhiều lần sử dụng nhiều bộ nhớ các chiến lược cắt tỉa không tái sử dụng cho lần khai thác tiếp theo . Thuật toán NOV-mRI 8 được nhóm tác giả đề xuất hiệu quả hơn các thuật toán 5-7 . Tuy nhiên thuật toán này vẫn chưa đáp ứng thực tế - khi cần khai thác tập hiếm thì người dùng có thể yêu

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
2    78    2    29-06-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.