Bài viết Một thuật toán tìm tập thường xuyên trên cơ sở dữ liệu giao tác có trọng số đề xuất thuật toán CABOWD, nhằm rút ngắn thời gian tìm các tập thường xuyên theo hướng phân nhỏ và rút gọn kích thước dữ liệu. | Nguyễn Hữu Trọng Lê Đức An Trần Xuân Việt Nguyễn Anh Hào MỘT THUẬT TOÁN TÌM TẬP THƯỜNG XUYÊN TRÊN CƠ SỞ DỮ LIỆU GIAO TÁC CÓ TRỌNG SỐ A NEW METHOD TO MINE FREQUENT ITEMSETS ON TRANSACTION DATA WEIGHTED Nguyễn Hữu Trọng1 Lê Đức An2 Trần Xuân Việt2 Nguyễn Anh Hào2 1 Trường Đại học Nha Trang Email trongnhntu@ 2 Trường Đại học Quy Nhơn Email cntranxuanviet@ Tóm tắt Tìm tất cả các tập mục dữ liệu thường xuyên là công việc Abstract Find all of the frequent itemsets are basic work in data cơ bản trong khai phá dữ liệu. Trong hơn 20 năm từ ngày Agrawal mining. For more than 20 years from the date of Agrawal and và các cộng sự đưa ra thuật toán AIS các nhà nghiên cứu đã đề colleagues provide AIS algorithm the researchers have proposed xuất nhiều thuật toán cải tiến về tốc độ để phát hiện nhanh những many improved algorithms for detecting fast pace of the frequent tập mục dữ liệu thường xuyên. Những thuật toán này một hướng itemsets. These algorithms an improved focus on navigating the tập trung vào cải tiến cách duyệt qua tập dữ liệu và cách tính độ hỗ data sets and how to calculate the support of each candidate item trợ của từng tập mục dữ liệu ứng viên một hướng khác tập trung set a different direction focusing on the reduced size and split vào việc rút gọn kích thước và phân nhỏ cơ sở dữ liệu được xử lý. the data into several clusters. In this paper we propose algorithms Trong báo cáo này chúng tôi đề xuất thuật toán CABOWD nhằm CABOWD clustering algorithm based on weighted data in order to rút ngắn thời gian tìm các tập thường xuyên theo hướng phân nhỏ shorten the time by the way to split the data and reduce data size. và rút gọn kích thước dữ liệu. Từ khóa cơ sở dữ liệu giao tác luật kết hợp tập thường xuyên Key words database transactions association rules frequent phân cụm trọng số. practice clustering weight. 1. Đặt vấn đề AIS năm 1994 Agrawal và Srikant đưa ra thuật toán Apriori Cho I x1 x2 . . . xn .