Bài viết đề xuất phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu nhằm giải quyết tốt hơn vấn đề này. Kết quả thực nghiệm trên các bộ dữ liệu tổng hợp và dữ liệu chuẩn quốc tế UCI với các mức độ mất cân bằng đã chỉ ra phương pháp đề xuất nâng cao hiệu quả của thuật toán SMOTE và SMOTE-IPF. | KSI - phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu để loại bỏ nhiễu trong dữ liệu mất cân bằng Bùi Dương Hưng, Vũ Văn Thỏa, Đặng Xuân Thọ KSI - PHƯƠNG PHÁP KẾT HỢP PHÂN CỤM VỚI BỘ LỌC TÁI LẤY MẪU ĐỂ LOẠI BỎ NHIỄU TRONG DỮ LIỆU MẤT CÂN BẰNG Bùi Dương Hưng*, Vũ Văn Thỏa+, Đặng Xuân Thọ** * Trường Đại học Công đoàn + Học viện Công nghệ Bưu chính Viễn thông ** Trường Đại học Sư phạm Hà Nội khó khăn do việc học bị lệch sang lớp đa số, dẫn đến Abstract: Dữ liệu phân lớp thường có phân bố số độ chính xác thấp khi dự đoán lớp thiểu số. lượng không đồng đều giữa các nhãn lớp, vấn đề này Một số giải pháp cho vấn đề phân lớp dữ liệu mất được gọi là phân lớp dữ liệu mất cân bằng và xuất cân bằng được đưa ra là dựa trên mức độ dữ liệu và hiện ngày càng nhiều trong các ứng dụng thực tế. Kỹ mức độ thuật toán. Ở cấp độ thuật toán, các giải pháp thuật sinh thêm phần tử nhân tạo (SMOTE) là một cố gắng cải tiến các thuật toán phân lớp truyền thống trong những phương pháp tiền xử lý dữ liệu được biết để tăng cường việc học với các mẫu trong lớp thiểu số. đến nhiều nhất để giải quyết bài toán này. Tuy nhiên, Cụ thể như một số thuật toán học dựa trên chi phí với theo các nghiên cứu gần đây, số lượng phần tử mất việc đặt thêm trọng số cho lớp thiểu số [5], điều chỉnh cân bằng không phải là một vấn đề chính mà hiệu quả xác xuất dự đoán ở lá đối với phương pháp cây quyết phân lớp còn bị giảm do các yếu tố khác như sự phân định [6], bổ sung thêm hằng số phạt khác nhau cho bố dữ liệu với sự xuất hiện của các phần tử nhiễu và mỗi lớp hoặc điều chỉnh ranh giới phân lớp cải tiến các phần tử ở biên. Hạn chế nội tại của SMOTE là thuật toán máy vector hỗ trợ. Ở cấp độ dữ liệu, mục sinh thêm nhiều phần tử nhiễu dạng này. Một số đích là để cân bằng sự phân bố các lớp bởi việc điều nghiên cứu đã chỉ ra bộ lọc nhiễu kết hợp với SMOTE sẽ nâng cao hiệu quả phân lớp (SMOTE-IPF). Ở bài chỉnh mẫu vùng dữ liệu theo hai hướng gồm