Phân lớp dữ liệu mất cân bằng với thuật toán HBU

Trong bài viết này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử lớp đa số, đặc biệt là các phần tử ở đường biên, dựa trên Hypothesis margin của các đối tượng thuộc lớp thiểu số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng. | PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG VỚI THUẬT TOÁN HBU NGUYỄN THỊ LAN ANH Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế Tóm tắt: Dữ liệu mất cân bằng là một trong những nguyên nhân làm giảm hiệu suất của bài toán phân lớp. Nhiều phương pháp đã được nghiên cứu để giải quyết vấn đề này. Trong bài báo này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử lớp đa số, đặc biệt là các phần tử ở đường biên, dựa trên Hypothesis margin của các đối tượng thuộc lớp thiểu số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng. Từ khóa: Dữ liệu mất cân bằng, phương pháp làm giảm số lượng phần tử, Hypothesis margin 1. GIỚI THIỆU Khi một tập dữ liệu có số lượng phần tử thuộc một hoặc một số nhãn lớp lớn hơn số lượng phần tử thuộc các nhãn lớp còn lại, tập dữ liệu đó được gọi là mất cân bằng. Đối với bài toán phân lớp hai lớp tập dữ liệu bị mất cân bằng, lớp có số lượng phần tử nhiều hơn gọi là lớp đa số, lớp có số phần tử ít hơn gọi là lớp thiểu số. Đây cũng là loại bài toán chúng tôi đề cập đến trong bài báo này. Nghiên cứu về dữ liệu mất cân bằng, trong những năm gần đây, là một trong những vấn đề quan tâm của nhiều nhà khoa học trong nước cũng như trên thế giới bởi tính thực tế và phổ biến của nó. Bài toán phân lớp dữ liệu mất cân bằng nhằm mục đích phát hiện các đối tượng hiếm nhưng quan trọng, và được ứng dụng trong nhiều lĩnh vực khác nhau như phát hiện gian lận tài chính, dự đoán cấu trúc protein, dự đoán tương tác giữa protein-protein, phân lớp microRNA , hay chẩn đoán bệnh trong y học. Dữ liệu mất cân bằng làm giảm hiệu quả của các thuật toán phân lớp truyền thống vì các bộ phân lớp này có khuynh hướng dự đoán lớp đa số và bỏ qua lớp thiểu số [1]. Hay nói cách khác, hầu hết các phần tử thuộc lớp đa số sẽ được phân lớp đúng và các phần tử thuộc lớp thiểu số cũng sẽ được gán nhãn lớp là nhãn lớp của lớp đa số, kết quả là độ chính xác (Accuracy) của việc phân lớp rất cao trong khi độ nhạy (Sensitivity) lại rất thấp. Nhiều phương pháp nâng cao hiệu quả bài toán .

Minh Khang 152 7 pdf

Upload

Không thể tạo bản xem trước, hãy bấm tải xuống

Tải xuống

TÀI LIỆU LIÊN QUAN

Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

8 57 0

Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp

7 287 2

Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

65 64 4

Tài liệu hướng dẫn thực hành môn Cấu trúc dữ liệu và giải thuật - Bài 5: Cây cân bằng AVL

7 946 17

Bài giảng Cấu trúc dữ liệu và giải thuật: Cây AVL - ĐHKHTN

13 199 6

Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

10 111 1

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

9 86 0

Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông

10 107 0

Tóm tắt Luận văn Thạc sĩ: Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

26 240 4

Thuật toán HMU trong bài toán phân lớp dữ liệu mất cân bằng

8 135 0

TÀI LIỆU XEM NHIỀU

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 41122 2418

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 25111 248

31 Câu hỏi ôn tập môn Chủ nghĩa xã hội khoa học

25 24747 4286

Tiểu luận: Vai trò của Nguyễn Ái Quốc đối với việc thành lập Đảng Cộng sản Việt Nam

16 20256 2847

Tiểu luận Tình huống xử lý sai phạm trong thanh toán công tác phí lưu động

20 19667 1549

100 câu hỏi trắc nghiệm Triết học Mác-Lênin kèm đáp án

14 19543 2974

Bảng biến đổi Laplace và biến đổi Z

1 19479 618

Ebook Ôn luyện tiếng Anh 9 có đáp án: Phần 2 - Mai Lan Hương, Hà Thanh Uyên

37 16368 2958

Đề thi và Đáp án môn Tiếng Việt thực hành - ĐH SPKT TP.HCM

3 16261 330

Sự so sánh văn bản văn học và tác phẩm văn học

1 14830 133

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Thách thức trong thực hiện REDD+ và những vấn đề đặt ra đối với chính sách lâm nghiệp Việt Nam

7 180 2 18-06-2024

Luận văn thạc sĩ Tài chính ngân hàng: Tăng cường công tác quản trị rủi ro tín dụng tại Ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh Trường Sơn

108 87 2 18-06-2024

Đánh giá ảnh hưởng của độ mặn đến các chỉ số sinh trưởng và phát triển của luân trùng (Brachionus plicatilis)

5 16 1 18-06-2024

So sánh tác dụng bảo vệ cơ tim của sevoflurane với propofol trong phẫu thuật tim với tuần hoàn ngoài cơ thể

7 225 1 18-06-2024

Good performance in the management of acute heart failure in cardiogeriatric departments: The ICREX-94 experience

11 71 1 18-06-2024

Lecture Computer Architecture and Assembly Language Programming - Lesson 18: String instructions

9 108 1 18-06-2024

Bài giảng Tinh thể - Khoáng vật: Chương 1 - Võ Viết Văn

45 87 2 18-06-2024

Tóm tắt Luận án Tiến sĩ Ngữ văn: Biểu tượng trong tiểu thuyết Haruki Murakami (Symbols in Haruki Murakami’s novels)

27 177 2 18-06-2024

Lecture Automatic control systems technology - Lesson 3: Operational amplifier circuits in analog control

27 96 3 18-06-2024

Luận văn Thạc sĩ Quản trị kinh doanh: Tạo động lực cho người lao động tại trường Cao đẳng nghề Đà Nẵng

117 73 1 18-06-2024

Phẫu thuật kết xương tam giác cho mất vững cột sống – khung chậu do chấn thương: Báo cáo chùm ca bệnh liên tiếp

9 381 1 18-06-2024

Luận văn Thạc sĩ Quản lý kinh tế: Quản lý nhà nước đối với các chương trình giảm nghèo trên địa bàn huyện Kon Plông, tỉnh Kon Tum

137 72 1 18-06-2024

Đề thi chọn học sinh giỏi THPT môn Toán cấp Quốc gia năm 2021-2022 - Bộ Giáo dục và Đào tạo

2 167 1 18-06-2024

Đánh giá hiện trạng và mô phỏng chất lượng nước sông Cu Đê thành phố Đà Nẵng

5 97 2 18-06-2024

Giáo trình Phay bánh răng trụ răng nghiêng, rãnh xoắn (Nghề: Cắt gọt kim loại - Trung cấp) - Trường TCN Kỹ thuật công nghệ Hùng Vương

22 89 2 18-06-2024

Giáo trình Anh văn chuyên ngành Tài chính ngân hàng (Nghề: Tiếng Anh - Cao đẳng) - Trường Cao đẳng Bách khoa Nam Sài Gòn

53 11 1 18-06-2024

Tóm tắt Luận án Tiến sĩ Khoa học giáo dục: Tổ chức hoạt động khám phá khoa học nhằm phát triển vốn từ cho trẻ mẫu giáo 3 - 4 tuổi

27 112 3 18-06-2024

Lecture The economics of Money, Banking and Financial markets: Chapter 26 - Frederic S. Mishkin, Apostolos Serletis

20 100 1 18-06-2024

Thảo luận nhóm: Nghiên cứu không gian hoạt động văn phòng

40 19 1 18-06-2024

Giáo án môn Địa lí lớp 7 sách Kết nối tri thức: Bài 18

10 183 4 18-06-2024

TÀI LIỆU HOT

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 25111 248

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 41122 2418

CẬP NHẬT KINH TẾ VĨ MÔ VIỆT NAM 6 tháng đầu năm 2020

3 2965 81

Sách trắng Doanh nghiệp Việt Nam năm 2020

580 5286 363

Việt Nam 2035 hướng tới thịnh vượng, sáng tạo, công bằng và dân chủ

584 3515 101

BÀI GIẢNG DỰNG HÌNH SKETCHUP 2020 BIÊN SOẠN : GV.KTS PHAN THỨC

62 6856 1

GIÁO TRÌNH TIẾNG ANH ENG BREAKING

171 5886 721

Quản trị khủng hoảng trong quan hệ công chúng

2 3330 78

Báo cáo thực tập chuyên ngành: Nghiên cứu, thiết kế, mô phỏng robot công nghiệp

51 4634 200

Đề tài “ Cân đối ngân sách nhà nước- thực trạng và hướng hoàn thiện”

53 4919 189