Bài viết nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng. | Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng Imbalanced data classification based on DEC-SVM 1 1 2 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: 1 Trường Đại học Sao Đỏ 2 Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận bài sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Trong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng. Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM. Abstract In this article, authors study the DEC-SVM algorithm that modulates data by adding elements to the minority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidence show that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets. Keywords: Clustering; classification; imbalanced data; SVM. 1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân lớp chuẩn thường có xu hướng thiên vị đối với lớp Ngày nay, khi vấn đề khai thác và xử lý thông tin đa số và bỏ qua lớp thiểu số (xử lý chúng như là ngày càng được chú trọng, kỹ thuật phân lớp dữ nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phân liệu đã góp phần hữu hiệu giúp con người khai lớp truyền thống chưa thể xây dựng được một bộ thác một cách có hiệu quả khối dữ liệu mà họ phân lớp tốt. Việc phân loại sai các mẫu thuộc lớp đang nắm giữ. Tuy nhiên, dữ liệu thu thập được thiểu số có thể gây nên những tổn thất lớn đối với trong thực tế ngày càng xuất hiện nhiều các bộ các lĩnh vực thực tế. Để giải quyết vấn đề về phân dữ liệu mất cân bằng, nghĩa là trong tập dữ liệu lớp đối với các bộ dữ liệu mất cân .