KSI - phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu để loại bỏ nhiễu trong dữ liệu mất cân bằng

Bài viết đề xuất phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu nhằm giải quyết tốt hơn vấn đề này. Kết quả thực nghiệm trên các bộ dữ liệu tổng hợp và dữ liệu chuẩn quốc tế UCI với các mức độ mất cân bằng đã chỉ ra phương pháp đề xuất nâng cao hiệu quả của thuật toán SMOTE và SMOTE-IPF. | KSI - phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu để loại bỏ nhiễu trong dữ liệu mất cân bằng Bùi Dương Hưng, Vũ Văn Thỏa, Đặng Xuân Thọ KSI - PHƯƠNG PHÁP KẾT HỢP PHÂN CỤM VỚI BỘ LỌC TÁI LẤY MẪU ĐỂ LOẠI BỎ NHIỄU TRONG DỮ LIỆU MẤT CÂN BẰNG Bùi Dương Hưng*, Vũ Văn Thỏa+, Đặng Xuân Thọ** * Trường Đại học Công đoàn + Học viện Công nghệ Bưu chính Viễn thông ** Trường Đại học Sư phạm Hà Nội khó khăn do việc học bị lệch sang lớp đa số, dẫn đến Abstract: Dữ liệu phân lớp thường có phân bố số độ chính xác thấp khi dự đoán lớp thiểu số. lượng không đồng đều giữa các nhãn lớp, vấn đề này Một số giải pháp cho vấn đề phân lớp dữ liệu mất được gọi là phân lớp dữ liệu mất cân bằng và xuất cân bằng được đưa ra là dựa trên mức độ dữ liệu và hiện ngày càng nhiều trong các ứng dụng thực tế. Kỹ mức độ thuật toán. Ở cấp độ thuật toán, các giải pháp thuật sinh thêm phần tử nhân tạo (SMOTE) là một cố gắng cải tiến các thuật toán phân lớp truyền thống trong những phương pháp tiền xử lý dữ liệu được biết để tăng cường việc học với các mẫu trong lớp thiểu số. đến nhiều nhất để giải quyết bài toán này. Tuy nhiên, Cụ thể như một số thuật toán học dựa trên chi phí với theo các nghiên cứu gần đây, số lượng phần tử mất việc đặt thêm trọng số cho lớp thiểu số [5], điều chỉnh cân bằng không phải là một vấn đề chính mà hiệu quả xác xuất dự đoán ở lá đối với phương pháp cây quyết phân lớp còn bị giảm do các yếu tố khác như sự phân định [6], bổ sung thêm hằng số phạt khác nhau cho bố dữ liệu với sự xuất hiện của các phần tử nhiễu và mỗi lớp hoặc điều chỉnh ranh giới phân lớp cải tiến các phần tử ở biên. Hạn chế nội tại của SMOTE là thuật toán máy vector hỗ trợ. Ở cấp độ dữ liệu, mục sinh thêm nhiều phần tử nhiễu dạng này. Một số đích là để cân bằng sự phân bố các lớp bởi việc điều nghiên cứu đã chỉ ra bộ lọc nhiễu kết hợp với SMOTE sẽ nâng cao hiệu quả phân lớp (SMOTE-IPF). Ở bài chỉnh mẫu vùng dữ liệu theo hai hướng gồm

Bảo Hoàng 113 6 .pdf

Upload

Không thể tạo bản xem trước, hãy bấm tải xuống

Tải xuống

TÀI LIỆU LIÊN QUAN

Báo cáo hóa học: "Research Article A Novel Approach to the Design of Oversampling Low-Delay Complex-Modulated Filter Bank Pairs"

13 48 0

Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

10 111 1

Joint use of over- and under-sampling techniques and cross-validation for the development and assessment of prediction models

10 54 0

Xử lý dữ liệu không cân bằng trong bài toán dự đoán lỗi phần mềm

10 282 4

TÀI LIỆU XEM NHIỀU

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 41122 2418

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 25111 248

31 Câu hỏi ôn tập môn Chủ nghĩa xã hội khoa học

25 24747 4286

Tiểu luận: Vai trò của Nguyễn Ái Quốc đối với việc thành lập Đảng Cộng sản Việt Nam

16 20256 2847

Tiểu luận Tình huống xử lý sai phạm trong thanh toán công tác phí lưu động

20 19667 1549

100 câu hỏi trắc nghiệm Triết học Mác-Lênin kèm đáp án

14 19543 2974

Bảng biến đổi Laplace và biến đổi Z

1 19479 618

Ebook Ôn luyện tiếng Anh 9 có đáp án: Phần 2 - Mai Lan Hương, Hà Thanh Uyên

37 16368 2958

Đề thi và Đáp án môn Tiếng Việt thực hành - ĐH SPKT TP.HCM

3 16261 330

Sự so sánh văn bản văn học và tác phẩm văn học

1 14830 133

TÀI LIỆU MỚI ĐĂNG

Luận văn Thạc sĩ Quản lý kinh tế: Quản lý nhà nước về tiểu thủ công nghiệp trên địa bàn tỉnh Quảng Nam

109 103 6 18-06-2024

Khóa luận tốt nghiệp: Kế toán bán hàng và xác định kết quả hoạt động kinh doanh trong doanh nghiệp

79 139 5 18-06-2024

Luận văn Thạc sĩ Luật học: Thi hành pháp luật cổ phần hóa doanh nghiệp nhà nước tại Tập đoàn Bưu chính Viễn thông Việt Nam

77 61 1 18-06-2024

Nông nghiệp công nghệ cao của Hà Nội: Giải pháp để thu hút đầu tư

4 90 1 18-06-2024

Thực trạng kiến thức, thái độ và thực hành trong phòng chống bệnh sốt xuất huyết Dengue của sinh viên trường Đại học Hòa Bình

6 409 5 18-06-2024

Bài giảng Tổng luận kiểm toán - Chương 2: Khuôn mẫu quốc tế về kiểm toán và dịch vụ đảm bảo

22 420 2 18-06-2024

Bài giảng Ứng dụng của thiết bị hỗ trợ thất trái trong cấp cứu và hồi sức tim mạch - PGS. TS. Đào Xuân Cơ

35 124 1 18-06-2024

Khóa luận tốt nghiệp Kinh tế: Phát triển thị trường tiêu thụ sản phẩm may mặc của Công ty cổ phần may Sông Hồng

68 252 9 18-06-2024

Luận văn Thạc sĩ Tài chính ngân hàng: Mở rộng cho vay tại Ngân hàng thương mại cổ phần Bắc Á - Chi nhánh Kim Liên

97 86 1 18-06-2024

Đề thi học kì môn Truyền số liệu - Trường CĐ Kỹ thuật Cao Thắng (Đề 2)

1 117 1 18-06-2024

Giáo trình Lập trình cơ sở dữ liệu (Nghề: Tin học ứng dụng - Cao đẳng) - Trường Cao đẳng Bách khoa Nam Sài Gòn (2023)

69 19 1 18-06-2024

Combining a variable‐centered and a person-centered analytical approach to caregiving burden – a holistic approach

11 89 1 18-06-2024

“Học thật”: Nhân tố quyết định để có “thi thật”/“tài năng thật”

15 70 1 18-06-2024

Luận văn Thạc sĩ Luật học: Pháp luật bảo vệ quyền lợi Người tiêu dùng của một số nước, vùng lãnh thổ trên thế giới và bài học kinh nghiệm đối với việc xây dựng luật bảo vệ quyền lợi Người tiêu dùng tại Việt Nam

138 126 7 18-06-2024

Giáo án môn Vật lí lớp 9 (Trọn bộ cả năm)

459 538 1 18-06-2024

Một số đặc tính sinh học của các chủng Canine parvo virus type 2 gây bệnh viêm ruột trên chó ở phía Bắc Việt Nam

11 142 1 18-06-2024

Bài giảng Tin học đại cương: Phần 2 - Trường ĐH Tây Nguyên

85 83 2 18-06-2024

Effects of Mn, Cu doping concentration to the properties of magnetic nanoparticles and arsenic adsorption capacity in wastewater

7 258 1 18-06-2024

Giáo trình Đồ họa thiết kế web (Nghề: Tin học ứng dụng - Cao đẳng) - Trường Cao đẳng Bách khoa Nam Sài Gòn (2022)

259 16 5 18-06-2024

Giáo trình Lắp đặt hệ thống cung cấp điện (Nghề: Điện công nghiệp) - Trường TCN Kỹ thuật công nghệ Hùng Vương

104 103 8 18-06-2024

TÀI LIỆU HOT

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 25111 248

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 41122 2418

CẬP NHẬT KINH TẾ VĨ MÔ VIỆT NAM 6 tháng đầu năm 2020

3 2965 81

Sách trắng Doanh nghiệp Việt Nam năm 2020

580 5286 363

Việt Nam 2035 hướng tới thịnh vượng, sáng tạo, công bằng và dân chủ

584 3515 101

BÀI GIẢNG DỰNG HÌNH SKETCHUP 2020 BIÊN SOẠN : GV.KTS PHAN THỨC

62 6856 1

GIÁO TRÌNH TIẾNG ANH ENG BREAKING

171 5886 721

Quản trị khủng hoảng trong quan hệ công chúng

2 3330 78

Báo cáo thực tập chuyên ngành: Nghiên cứu, thiết kế, mô phỏng robot công nghiệp

51 4634 200

Đề tài “ Cân đối ngân sách nhà nước- thực trạng và hướng hoàn thiện”

53 4919 189

Đã phát hiện trình chặn quảng cáo AdBlock

Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.