Bài viết Phát hiện các điểm bất thường dựa trên phân cụm K-Means áp dụng phương pháp phân cụm K-means và khoảng cách Euclid để phát hiện những điểm thi bất thường trong kì thi PTTH 2018 tại Hà Giang. Thực nghiệm cho thấy phương pháp này có thể hỗ trợ khoanh vùng ra các điểm thi bất thường với một tỉ lệ chọn trước. | Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN 978-604-82-2981-8 PHÁT HIỆN CÁC ĐIỂM BẤT THƯỜNG DỰA TRÊN PHÂN CỤM K-MEANS Đinh Phú Hùng Trường Đại học Thủy lợi email hungdp@ 1. GIỚI THIỆU CHUNG Bước 2 Tính khoảng cách Euclid giữa các điểm dữ liệu đến K tâm. Điểm bất thường trong dữ liệu là các điểm Bước 3 Nhóm các đối tượng vào nhóm mà có giá trị khác đáng kể so với các điểm còn gần nhất dựa vào khoảng cách tính ở bước 2. lại. Việc phát hiện các điểm bất thường này Bước 4 Xác định lại tâm mới cho các đóng vai trò quan trọng trong rất nhiều lĩnh nhóm. vực. Ví dụ trong lĩnh vực ngân hàng phát hiện Bước 5 Thực hiện lại bước 2 cho đến các giao dịch bất thường trong lĩnh vực giáo khi không có sự thay đổi nhóm nào của các dục phát hiện các điểm thi gian lận đối tượng. Có rất nhiều các phương pháp tiếp cận để giải quyết vấn đề này. Ví dụ như các phương 3. GIẢI THUẬT XÁC ĐỊNH ĐIỂM BẤT pháp dựa trên mật độ DBSCAN LOF THƯỜNG DỰA TRÊN PHÂN CỤM 1 các phương pháp dựa trên khoảng cách K-NN K-Means 1 các phương pháp Đầu vào Tập dữ liệu D số cụm K. dựa trên mô hình tham số GMM One Class Đầu ra Tập các điểm bất thường n điểm SVM 1 . Ngoài ra cũng có một số hoặc m cho trước . phương pháp khác như kiểm định thống kê Bước 1 Áp dụng giải thuật K-means để Z-score 1 . phân dữ liệu D đã cho vào K cụm tương ứng. Bài báo này sẽ áp dụng phương pháp phân Bước 2 Tính khoảng cách Euclid từ tất cả cụm K-means và khoảng cách Euclid để phát các điểm dữ liệu trong mỗi cụm đến tâm của hiện những điểm thi bất thường trong kì thi mỗi cụm tương ứng. Sau đó sắp xếp các PTTH 2018 tại Hà Giang. Thực nghiệm cho khoảng cách đó theo thứ tự giảm dần. thấy phương pháp này có thể hỗ trợ khoanh Bước 3 Chọn ra n hoặc m các điểm vùng ra các điểm thi bất thường với một tỉ lệ dữ liệu có khoảng cách lớn nhất làm những chọn trước. điểm tình nghi. 2. KIẾN THỨC NỀN TẢNG 4. KẾT QUẢ THỰC NGHIỆM . Giải thuật phân cụm K-Means Dữ liệu thực nghiệm là điểm thi PTTH Giải thuật này được đề xuất bởi năm 2018