Mục đích của bài viết Tăng chất lượng thuật toán phân cụm nửa giám sát bằng phương pháp học tích cực đề xuất một phương pháp học tích cực để thu thập các nhãn cho các điểm dữ liệu nhằm làm tăng chất lượng của các thuật toán phân cụm nửa giám sát. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: TĂNG CHẤT LƯỢNG THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT BẰNG PHƯƠNG PHÁP HỌC TÍCH CỰC Vũ Việt Vũ Khoa Điện tử, Trường Đại học Kỹ thuật Công nghiệp – Đại học Thái Nguyên vuvietvu@ TÓM TẮT - Vấn đề học tích cực cho bài toán phân cụm nửa giám sát là một trong những chủ đề được quan tâm nghiên cứu trong những năm gần đây. Mục đích của bài báo này là đề xuất một phương pháp học tích cực để thu thập các nhãn cho các điểm dữ liệu nhằm làm tăng chất lượng của các thuật toán phân cụm nửa giám sát. Để thực hiện mục tiêu này, chúng tôi sử dụng một đồ thị k-láng giềng gần nhất để biểu diễn dữ liệu đầu vào đồng thời áp dụng một hàm đánh giá mật độ địa phương trên các đỉnh của đồ thị; dựa vào đánh giá mật độ, các điểm nằm trong vùng đậm đặc của dữ liệu sẽ được lựa chọn để đánh nhãn bởi các chuyên gia. Kết quả thực nghiệm cho thấy, thuật toán mới của chúng tôi cho kết quả tốt hơn các thuật toán cùng loại. Từ khóa - Phân cụm, học tích cực, phân cụm nửa giám sát, seed. I. GIỚI THIỆU Trong khoảng mười năm trở lại đây, thuật toán phân cụm nửa giám sát đã thu hút sự quan tâm của nhiều nhà nghiên cứu trên thế giới. Các thuật toán phân cụm nửa giám sát dạng này hoặc (1) sử dụng các dữ liệu đã gán nhãn (labeled data hay còn gọi là seed) (2) hoặc sử dụng các ràng buộc giữa các điểm dữ liệu (must-link, cannot-link) nhằm mục đích tăng chất lượng của quá trình phân cụm dữ liệu [8,9]. Hình 1 mô tả hai dạng của bài toán học nửa giám sát. * + ++ + ++ + + + × * * × × × (a) Seed-based clustering * * * * × (b) Constraint-based clustering Hình 1. (a) Các điểm tương ứng với tập dữ liệu đầu vào, các seed (các dữ liệu đã được gán nhãn) tương ứng là các điểm ký hiệu bởi các dấu cộng, dấu nhân và dấu sao. (b) các ràng buộc (constraint) must-link (ML) và cannot-link (CL) được biểu diễn tương ứng bằng các đoạn thẳng nét liền và nét đứt: .