MASK: Phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính

Bài viết đề xuất một phương pháp mới, Mask, nhằm đổi nhãn các phần tử lớp đa số dựa trên phân phối mật độ của các phần tử lớp thiểu số. Mời các bạn cùng tham khảo bài viết để nắm chi tiết hơn nội dung nghiên cứu. | Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 06-2017 MASK PHƯƠNG PHÁP MỚI NÂNG CAO HIỆU QUẢ PHÁT HIỆN GIAN LẬN TÀI CHÍNH Nghiêm Thị Toàn1 Nghiêm Thị Lịch2 Bùi Dương Hưng3 Đặng Xuân Thọ1 Tóm tắt Hiện nay gian lận tài chính ngày càng phổ biến và gây ra những hậu quả nghiêm trọng. Do đó phát hiện và ngăn chặn gian lận tài chính đã và đang thu hút được sự quan tâm lớn từ các nhà nghiên cứu. Bài toán phát hiện gian lận tài chính có thể được giải quyết với sự hỗ trợ của các kỹ thuật khai phá dữ liệu cụ thể như phân lớp là một phương pháp học có giám sát được áp dụng phổ biến nhất. Tuy nhiên do đặc thù dữ liệu tài chính số lượng các mẫu được xác định là gian lận ít hơn rất nhiều so với các mẫu hợp lệ dẫn đến tình trạng khó khăn trong phân lớp dữ liệu mất cân bằng. Một số phương pháp nổi tiếng giải quyết vấn đề này như SMOTE Borderline-SMOTE và SPY mặc dù đã đạt được những kết quả tích cực nhưng một số trường hợp lại không đạt được kết quả mong đợi. Trong bài báo này chúng tôi đề xuất một phương pháp mới Mask nhằm đổi nhãn các phần tử lớp đa số dựa trên phân phối mật độ của các phần tử lớp thiểu số. Kết quả thực nghiệm trên các bộ dữ liệu chuẩn quốc tế như UCSD-FICO cuộc thi data mining contest 2009 German Credit Australian Credit và Yeast từ kho dữ liệu chuẩn UCI đã chỉ ra phương pháp mới hiệu quả và nâng cao độ chính xác trong phát hiện gian lận tài chính so với các phương pháp ROS RUS SMOTE Borderline- SMOTE và SPY. Nowadays financial fraud is increasingly popular and causes serious consequences. There- fore detecting and preventing financial fraud has attracted great attention from researchers. The problem of financial fraud detection can be solved with the support of data mining techniques such as classification is one of supervised learning methods that is applied most commonly. However in financial data the number of samples defined fraud is much fewer than the valid samples which implies more difficulty of the classification problem. Some well-known .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.