Khai phá hiệu quả tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu

Bài viết trình bày việc xem xét lại mô hình khai phá tập mục thường xuyên với trọng số thích nghi trong cơ sở dữ liệu tĩnh và mô hình khai phá tập mục thường xuyên với trọng số trên dòng dữ liệu bằng cách sử dụng một độ đo mới để tỉa cây SAWFI-tree và các cây điều kiện hiệu quả hơn, và mở rộng việc khai phá TMTX với trọng số thích nghi hơn trên dòng dữ liệu. | Khai phá hiệu quả tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 145-156 This paper is available online at KHAI PHÁ HIỆU QUẢ TẬP MỤC THƯỜNG XUYÊN VỚI TRỌNG SỐ THÍCH NGHI TRÊN DÒNG DỮ LIỆU Nguyễn Hưng Long, Nguyễn Thị Thu Thủy Khoa Hệ thống Thông tin Kinh tế, Trường Đại học Thương mại Tóm tắt. Bài báo đề xuất thuật toán SWFI-miner cho bài toán khai phá tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu. Trong bài báo này, chúng tôi xem xét lại mô hình khai phá tập mục thường xuyên với trọng số thích nghi trong cơ sở dữ liệu tĩnh và mô hình khai phá tập mục thường xuyên với trọng số trên dòng dữ liệu bằng cách sử dụng một độ đo mới để tỉa cây SAWFI-tree và các cây điều kiện hiệu quả hơn, và mở rộng việc khai phá TMTX với trọng số thích nghi hơn trên dòng dữ liệu. Qua phân tích và đánh giá cho thấy thuật toán SWFI-miner thật sự hiệu quả trong khai phá tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu. Từ khóa: Khai phá dữ liệu, tập mục thường xuyên, trọng số, trọng số thích nghi, dòng dữ liệu. 1. Mở đầu Trong những năm gần đây, khai phá dữ liệu ngày càng trở nên cấp thiết cùng với sự xuất hiện của các ứng dụng mới trong thực tiễn. Ở đó các dữ liệu được xử lí không còn là dữ liệu tĩnh, mà là các dữ liệu động, liên tục và có thể coi như là vô hạn (không bị chặn) [1,3,4,6,9-12,14,15]. Các dữ liệu đến như vậy tạo thành dòng dữ liệu (data stream). Một số ứng dụng trên thực tế sử dụng dòng dữ liệu như: phân tích lưu lượng mạng (network traffic analysis), phát hiện xâm nhập mạng (network intrusion detection), hay phân tích giao dịch trực tuyến (on-line transaction analysis),. . . Có ba thách thức trong khai phá dòng dữ liệu: Thứ nhất, để phát hiện ra các tập mục thường xuyên (TMTX) cần phải tìm kiếm trên không gian là một hàm mũ. Thứ hai, dữ liệu

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
8    352    1    16-06-2024
5    89    2    16-06-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.