Hiệu quả của các phương pháp xử lý dữ liệu mất cân bằng trong chấm điểm tín dụng: Trường hợp tại các Ngân hàng thương mại Việt Nam

Bài viết này nghiên cứu hiệu quả của phương pháp xử lý dữ liệu mất cân bằng trong bài toán phân loại khách hàng tại các ngân hàng thương mại. Đây là một vấn đề phổ biến trong vấn đề phân loại khách hàng, trong đó các quan sát của một lớp nhiều hơn lớp còn lại trong dữ liệu. Mời các bạn cùng tham khảo! | INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS amp BUSINESS 2020 ICYREB 2020 THE EFFECTIVENESS OF METHODS IN DEALING WITH IMBALANCED DATA IN CREDIT SCORING THE CASE OF VIETNAM COMMERCIAL BANKS HIỆU QUẢ CỦA CÁC PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU MẤT CÂN BẰNG TRONG CHẤM ĐIỂM TÍN DỤNG TRƯỜNG HỢP TẠI CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM Nguyen Thi Lien MS Nguyen Thi Thu Trang MS Nguyen Thi Dung National Economics University lientkt@ Abstract This article investigates the effectiveness of imbalanced data processing methods in the problem of customer classification at commercial banks. This is a common issue in a customer classification attempt where observations of one class outnumber the remaining class. We apply the methods widely used in the world including undersampling oversampling bothsamling tech- niques and SMOTE Synthetic Minority Oversampling Technique to deal with imbalances. The logit model is applied to datasets that have been processed by these methods to classify customers. Using 7501 transaction data from individual customers the classification results using data processed with these techniques all improve significantly compared to using untreated data. Be- sides the results also show that the most efficient method is SMOTE technique combined with the logit model using variables transformed by Weight of Evidence WOE . Keywords Bothsampling credit scoring oversampling SMOTE undersampling WOE. Tóm tắt Bài báo này nghiên cứu hiệu quả của phương pháp xử lý dữ liệu mất cân bằng trong bài toán phân loại khách hàng tại các ngân hàng thương mại. Đây là một vấn đề phổ biến trong vấn đề phân loại khách hàng trong đó các quan sát của một lớp nhiều hơn lớp còn lại trong dữ liệu. Chúng tôi áp dụng các phương pháp được sử dụng rộng rãi trên thế giới bao gồm kỹ thuật lấy mẫu dưới Undersampling lấy mẫu quá mức Oversampling kỹ thuật lấy mẫu cả hai booth- sampling và SMOTE Synthetic Minority Oversampling Technique để giải quyết vấn đề mất cân bằng. Mô hình .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.