Bài viết đưa ra một số nhận xét, đánh giá về các thuật toán khai phá đồ thị con thường xuyên hiện nay đồng thời cũng đề xuất một vài điểm thay đổi trong việc thực hiện khai phá đồ thị con thường xuyên nhằm tăng hiệu quả khai phá đồ thị con thường xuyên nhất là đồ thị con thường xuyên đóng. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ ĐỒ THỊ CON THƯỜNG XUYÊN ĐÓNG Hoàng Minh Quang1 Vũ Đức Thi2 Phạm Quốc Hùng3 1 Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2 Viện Công nghệ thông tin Đại học Quốc gia Hà Nội. 3 Khoa Công nghệ thông tin - Đại học Sư phạm kỹ thuật Hưng Yên. 1 hoangquang@ 2vdthi@ 3quochungvnu@ TÓM TẮT Khai phá các mẫu thường xuyên là bài toán quan trọng có nhiều khả năng ứng dụng vào thực tiễn. Các ứng dụng trong thực tiễn rất đa dạng và phong phú nên phương pháp khai phá tập mục thường xuyên bị giới hạn bởi cấu trúc dữ liệu dạng tập hợp không phản ánh được hết bản chất của dữ liệu chẳng hạn như cấu trúc thành phần hóa học của các viên thuốc tân dược cấu trúc gen tế bào cấu trúc protein động vật và nhiều cấu trúc khác. Các cấu trúc dữ liệu này hầu hết đều có thể biểu diễn dưới một dạng dữ liệu có cấu trúc đã biết như đồ thị cây hoặc lattice. Do vậy các nghiên cứu về khai phá đồ thị con thường xuyên có ý nghĩa rất lớn đặc biệt hữu ích trong lĩnh vực y tế. Trong bài báo này chúng tôi đưa ra một số nhận xét đánh giá về các thuật toán khai phá đồ thị con thường xuyên hiện nay đồng thời cũng đề xuất một vài điểm thay đổi trong việc thực hiện khai phá đồ thị con thường xuyên nhằm tăng hiệu quả khai phá đồ thị con thường xuyên nhất là đồ thị con thường xuyên đóng. Từ khóa Khai phá dữ liệu đồ thị con thường xuyên khai phá đồ thị dữ liệu có cấu trúc đồ thị con thường xuyên đóng độ phức tạp tính toán. I. GIỚI THIỆU Khai phá dữ liệu là lĩnh vực rất quan trọng. Một trong các phương pháp khai phá dữ liệu có nhiều ứng dụng nhất là khai phá các mẫu thường xuyên. Vấn đề khai phá mẫu thường xuyên là từ một tập dữ liệu các đối tượng với một ngưỡng độ hỗ trợ tối thiểu minsup cho trước ta đi tìm các đối tượng có độ hỗ trợ lớn hơn hoặc ít nhất là bằng với độ hỗ trợ tối thiểu