Báo cáo nghiên cứu khoa học: "PHƯƠNG PHÁP ẨN LUẬT KẾT HỢP DỰA TRÊN TIẾP CẬN GIÀN GIAO"

Ẩn các luật kết hợp nhạy cảm là bài toán quan trọng trong khai phá các luật kết hợp. Một trong những vấn đề đặt ra khi giải quyết bài toán này là giảm các hiệu ứng phụ, tức là giảm các luật bị ẩn nhầm và các luật mới được sinh ra, và giảm số lần truy cập dữ liệu. | TẠP CHÍ KHOA HỌC Đại học Huế Số 59 2010 PHƯƠNG PHÁP ẨN LUẬT KẾT HỢP DỰA trên tiếp cận giàn giao Lê Quốc Hải Trường Cao đắng Sư phạm Quảng Trị TÓM TẮT Ẳn các luật kết hợp nhạy cảm là bài toán quan trọng trong khai phá các luật kết hợp. Một trong những vấn đề đặt ra khi giải quyết bài toán này là giảm các hiệu ứng phụ tức là giảm các luật bị ẩn nhầm và các luật mới được sinh ra và giảm số lần truy cập dữ liệu. Bài báo giới thiệu một hướng tiếp cận mới dựa trên lý thuyết giàn giao. Thuật toán HidingRules thu được là có cơ sở toán học chặt chẽ sử dụng heuristic để xác định các mục các giao tác cần phải sửa đổi nhằm ẩn các luật kết hợp nhạy cảm sao cho hiệu ứng phụ là thấp nhất. 1. Đặt vấn đề Khai phá dữ liệu là một lĩnh vực nghiên cứu khá mới của ngành khoa học máy tính. Các nghiên cứu gần đây chủ yếu tập trung vào việc phát triển các thuật toán phục vụ cho quá trình phân tích dữ liệu từ kho dữ liệu. Phân tích các luật kết hợp là một trong những phương pháp của khai phá dữ liệu. Nhiệm vụ của phương pháp này là phân tích dữ liệu trong cơ sở dữ liệu nhằm phát hiện và đưa ra những mối liên hệ về giá trị dữ liệu. Đó chính là các tập luật kết hợp. Thông thường các luật kết hợp được khai thác từ các bảng giao tác mỗi bảng giao tác được xác định gồm các mục cột và các giao tác dòng . Hợp của các mục gọi là tập mục chẳng hạn XY. Mỗi luật kết hợp thu được từ bảng giao tác là quan hệ hai ngôi giữa hai tập mục X và Y ký hiệu X Y được sinh ra từ các tập mục thường xuyên XY có tần suất xuất hiện trên một ngưỡng hỗ trợ tối thiểu ỗ nào đó. Trong khai phá các luật kết hợp người ta chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn hoặc bằng một ngưỡng hỗ trợ tối thiểu minsup và độ tin cậy lớn hơn hoặc bằng một ngưỡng tin cậy tối thiểu cho trước minconf gọi là các luật kết hợp phổ biến. Một vấn đề thường gặp là khi cung cấp dữ liệu cho các trung tâm khai thác tri thức một số cơ sở không muốn công bố các luật vi phạm đến tính riêng tư của cá nhân hoặc của xí nghiệp. Thí dụ nếu Xlà tập mục .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.