Bài viết nhằm đề xuất một phương pháp khai phá mẫu dãy trọng số chuẩn hóa với khoảng cách thời gian, chúng tôi không chỉ quan tâm đến số lần xuất hiện của các dãy (độ hỗ trợ) mà còn quan tâm đến khoảng cách thời gian giữa các dãy và mức độ quan trọng khác nhau (trọng số) của chúng. | Thuật toán khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Thuật toán khai phá mẫu dãy thƣờng xuyên trọng số chuẩn hóa với khoảng cách thời gian Mining Normalized Weighted Frequent Sequential Patterns with Time Intervals Algorithm Trần Huy Dƣơng, Vũ Đức Thi Abstract: In this paper, we propose a method for hướng cải tiến nhằm giảm thiểu chi phí thời gian và tài mining normalized weighted frequent sequential nguyên hệ thống. patterns with time intervals, we are not only interested Các thuật toán kể trên khai phá mẫu dãy chỉ quan in the number of occurrences of the sequence (the tâm đến số lần xuất hiện (hay độ hỗ trợ) của các mẫu support), but also concerned about their levels of dãy; thuật toán do Hirate và Yamana [10] đề xuất cho importance (weighted). We use the binding between phép khai phá các mẫu dãy có quan tâm đến giá trị của the support and weight of the set range to candidates khoảng cách thời gian giữa các dãy. Tuy nhiên, các in mining normalized weighted frequent sequential thuật toán này cơ bản chưa quan tâm đến sự ràng buộc patterns with time intervals while maintaining the giữa khoảng cách thời gian giữa các dãy và mức độ downward closure property nature which allows a quan trọng khác nhau của các mục dữ liệu. Vì vậy, bài balance between support and the weight of a báo nhằm đề xuất một phương pháp khai phá mẫu dãy sequence. trọng số chuẩn hóa với khoảng cách thời gian, chúng Keywords: Data mining, frequent sequential tôi không chỉ quan tâm đến số lần xuất hiện của các patterns, time intervals, weighted, sequential patterns. dãy (độ hỗ trợ) mà còn quan tâm đến khoảng cách thời gian giữa các dãy và mức độ quan trọng khác nhau I. GIỚI THIỆU (trọng số) của chúng. Chúng tôi sử dụng tính chất ràng Khai phá mẫu dãy (Mining Sequential Patterns) là buộc giữa độ hỗ trợ, khoảng cách thời gian và