Learning optimal threshold for bayesian posterior probabilities to mitigate the class imbalance problem

In the second method, instead of learning on each classifier separately as in the former, we combine these classifiers by a voting ensemble. The experimental results on 20 benchmark imbalanced datasets collected from the UCI repository show that our methods significantly outperform the baseline NB. These methods also perform as good as the state-of-the-art sampling methods and significantly better in certain cases. | Journal of Science and Technology Volume 48, Issue 4, 2010 pp. 38-50 LEARNING OPTIMAL THRESHOLD FOR BAYESIAN POSTERIOR PROBABILITIES TO MITIGATE THE CLASS IMBALANCE PROBLEM NGUYEN THAI-NGHE, THANH-NGHI DO, AND LARS SCHMIDT-THIEME ABSTRACT Class imbalance is one of the problems which degrade the classifier's performance. Researchers have introduced many methods to tackle this problem including pre-processing, internal classifier processing, and post-processing – which mainly relies on posterior probabilities. Bayesian Network (BN) is known as a classifier which produces good posterior probabilities. This study proposes two methods which utilize Bayesian posterior probabilities to deal with imbalanced data. In the first method, we optimize the threshold on the posterior probabilities produced by BNs to maximize the F1-Measure. Once the optimal threshold is found, we use it for the final classification. We investigate this method on several Bayesian classifiers such as Naive Bayes (NB), BN, TAN, BAN, and Markov Blanket BN. In the second method, instead of learning on each classifier separately as in the former, we combine these classifiers by a voting ensemble. The experimental results on 20 benchmark imbalanced datasets collected from the UCI repository show that our methods significantly outperform the baseline NB. These methods also perform as good as the state-of-the-art sampling methods and significantly better in certain cases. 1. INTRODUCTION In binary classification problems, class imbalance can be described as the majority class outnumbering of the minority one by a large factor. This phenomenon appears in many machine learning applications, such as credit card fraud detection, intrusion detection, oil-spill detection, disease diagnosis, and many other areas [1 - 3]. Most classifiers in supervised machine learning are designed to maximize the accuracy of their models. Thus, when learning from imbalanced data, they are usually overwhelmed by the majority .

Triều Nguyệt 63 13 pdf

Upload

Không thể tạo bản xem trước, hãy bấm tải xuống

Tải xuống

TÀI LIỆU LIÊN QUAN

Journal of Marine science and Technology – No 56, 11/2018

0 132 1

Journal of Marine science and Technology – No 53, 01/2018

0 131 2

Journal of Fisheries science and Technology – No 3/2016

126 139 0

Journal of Fisheries science and Technology – No 4/2018

121 136 0

Some theoretical and practical arguments on the science, technology and innovation system of Vietnam in trend of international integration of science and technology

15 190 1

Methodology of assessing the performing results of science and technology development strategy

18 112 0

Global journal of computer science and technology: Information & technology

75 126 1

Journal of marine science and technology: No 61-01/2020

91 385 0

The journal of Nuclear science and technology - Volume 10/Number 1, 2020

60 71 2

The journal of Nuclear science and technology - Volume 9/Number 2, 2019

56 61 2

TÀI LIỆU XEM NHIỀU

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40928 2412

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24962 248

31 Câu hỏi ôn tập môn Chủ nghĩa xã hội khoa học

25 24530 4282

Tiểu luận: Vai trò của Nguyễn Ái Quốc đối với việc thành lập Đảng Cộng sản Việt Nam

16 20093 2847

Tiểu luận Tình huống xử lý sai phạm trong thanh toán công tác phí lưu động

20 19509 1549

100 câu hỏi trắc nghiệm Triết học Mác-Lênin kèm đáp án

14 19328 2967

Bảng biến đổi Laplace và biến đổi Z

1 19302 618

Ebook Ôn luyện tiếng Anh 9 có đáp án: Phần 2 - Mai Lan Hương, Hà Thanh Uyên

37 16182 2958

Đề thi và Đáp án môn Tiếng Việt thực hành - ĐH SPKT TP.HCM

3 16022 330

Sự so sánh văn bản văn học và tác phẩm văn học

1 14629 133

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Lecture Software engineering: Lesson 9 - Fakhar Lodhi

14 84 1 05-06-2024

Luận án Tiến sĩ Chính sách công: Chính sách đầu tư công từ thực tiễn tỉnh Thái Nguyên

184 113 6 05-06-2024

Bảo đảm trách nhiệm giải trình thông qua công khai thu nhập, tài sản trong việc công, lợi ích tư: Phần 1

108 6 1 05-06-2024

United for health to improve urban food environments across fve underserved communities: A cross-sector coalition approach

9 69 1 05-06-2024

Trò chuyện Triết học (Tập 6): Phần 1

114 90 3 05-06-2024

Luận văn Thạc sĩ Quản lý kinh tế: Phát triển nông thôn mới trên địa bàn xã Trường Đông, thị xã Hòa Thành, tỉnh Tây Ninh hiện nay

100 65 5 05-06-2024

Đề thi kết thúc học phần học kì 2 môn Công tác xã hội với cá nhân năm 2018-2019 có đáp án - Trường ĐH Đồng Tháp

3 147 2 05-06-2024

Luận văn Thạc sĩ Khoa học lâm nghiệp: Bước đầu nghiên cứu một số giải pháp quản lý rừng bền vững tại xã Phong Du, huyện Tiên Yên, tỉnh Quảng Ninh

106 277 3 05-06-2024

Kết quả đình chỉ thai nghén từ tuần 17 đến hết 22 tuần bằng Misoprostol đơn thuần tại Bệnh viện Phụ sản Hà Nội năm 2022

4 5 1 05-06-2024

Luận án Tiến sĩ Luật học: Hoạt động của Hội đồng dân tộc, các Ủy ban của Quốc hội nước Cộng hòa xã hội chủ nghĩa Việt Nam

230 229 4 05-06-2024

Procalcitonin as a marker of Candida species detection by blood culture and polymerase chain reaction in septic patients

9 71 1 05-06-2024

Đề thi tuyển sinh lớp 10 môn Toán năm 2021-2022 có đáp án - Sở GD&ĐT Phú Yên

8 76 1 05-06-2024

Luận văn tốt nghiệp: Giải pháp tăng cường quản lí thuế thu nhập doanh nghiệp đối với Doanh nghiệp có vốn đầu tư nước ngoài tại Cục Thuế Tỉnh Nghệ An

75 5 1 05-06-2024

Đặc điểm lâm sàng, cận lâm sàng và hình ảnh PET/CT ở bệnh nhân ung thư phổi không tế bào nhỏ giai đoạn sớm có chỉ định xạ trị lập thể định vị thân

8 123 1 05-06-2024

Luận văn Thạc sĩ Tài chính ngân hàng: Nâng cao chất lượng sản phẩm huy động vốn tại Agribank Gia Lâm

125 91 2 05-06-2024

Các nhân tố ảnh hưởng đến sự sẵn sàng tham gia của tư nhân vào lĩnh vực cung cấp nước sạch nông thôn trên địa bàn tỉnh Hà Nam

9 72 2 05-06-2024

Giáo trình Khí cụ điện (Nghề: Lắp đặt thiết bị điện - Trung cấp) - Trường Cao Đẳng Dầu Khí

98 251 3 05-06-2024

Association of living arrangements with happiness attributes among older adults

14 84 2 05-06-2024

Bài giảng môn Kế toán xác định kết quả kinh doanh và lập báo cáo tài chỉnh (Nghề: Kế toán doanh nghiệp - Trình độ: Trung cấp) - Trường CĐ Kinh tế - Kỹ thuật Bạc Liêu

85 85 3 05-06-2024

Luận văn tốt nghiệp: Nâng cao chất lượng cho vay khách hàng cá nhân tại Ngân hàng Thương mại Cổ phần Sài Gòn-Hà Nội – chi nhánh Vĩnh Phúc

81 7 1 05-06-2024

TÀI LIỆU HOT

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24962 248

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40928 2412

CẬP NHẬT KINH TẾ VĨ MÔ VIỆT NAM 6 tháng đầu năm 2020

3 2796 81

Sách trắng Doanh nghiệp Việt Nam năm 2020

580 5113 363

Việt Nam 2035 hướng tới thịnh vượng, sáng tạo, công bằng và dân chủ

584 3362 100

BÀI GIẢNG DỰNG HÌNH SKETCHUP 2020 BIÊN SOẠN : GV.KTS PHAN THỨC

62 6678 1

GIÁO TRÌNH TIẾNG ANH ENG BREAKING

171 5723 720

Quản trị khủng hoảng trong quan hệ công chúng

2 3154 78

Báo cáo thực tập chuyên ngành: Nghiên cứu, thiết kế, mô phỏng robot công nghiệp

51 4484 200

Đề tài “ Cân đối ngân sách nhà nước- thực trạng và hướng hoàn thiện”

53 4770 189