Bài nghiên cứu “Phân loại thư rác bằng phương pháp học máy” với mục đích tìm hiểu, thử nghiệm một số phương pháp tiếp cận cho bài toán phân loại thư, từ đó ngăn chặn thư spam hiệu quả hơn. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết của luận văn này. | ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o- PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o- PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY Chuyên ngành Khoa học máy tính Mã số 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS ĐỖ TRUNG TUẤN Thái nguyên 2015 ii MỤC LỤC MỤC LỤC . ii LỜI CAM KẾT . iv LỜI CẢM ƠN . v DANH MỤC CÁC TỪ VIẾT TẮT . vi DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU . vii MỞ ĐẦU . vii CHƯƠNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC . 3 . Tổng quan về ho ̣c máy . 3 Trí tuê ̣ nhân tạo . 3 . Học máy . 4 . Các kĩ thuật học máy . 5 . Một số ứng dụng của học máy . 7 . Học có giám sát . 7 . Tổng quan về thư rác. 12 . Định nghĩa về thư rác và các đặc trưng của thư rác . 12 . Phân loại thư rác. 15 . Đặc điểm thư rác . 15 . Tác hại của thư rác . 16 . Quy trình và thủ đoạn gửi thư rác . 17 . Biểu diễn phân loại thư rác dựa trên học máy có giám sát . 20 . Nhu cầu phân loại thư rác . 20 . Cách biểu diễn nội dung thư rác . 23 . Kết luận chương . 27 CHƯƠNG 2. PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT . 28 . Thuật toán Naïve Bayes . 28 thiệu Thuật toán Naïve Bayes . 28 . Mô tả thuật toán . 28 . Áp dụng trong phân loại thư rác . 33 iii . Học máy theo phương pháp máy vec tơ tựa SVM . 36 . Giới thiệu SVM . 36 . Mô tả thuật toán . 37 . Huấn luyện SVM. 40 . Ứng dụng trong phân loại thư rác . 40 . Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát . 41 . Lựa chọn mô hình và thuật toán . 41 . Xây dựng hệ thống . 41 . Kết luận chương . 46 CHƯƠNG ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC. 47 . Bài toán phân loại thư rác . 47 . Cài đặt thử nghiệm và kết quả. 50 . Bộ dữ liệu thử nghiệm. 50 . Môi trường