Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác

Bài báo trình bày một giải pháp cho vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp, nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho phép đánh giá “sự thỏa hiệp” (tradeoff) giữa hai tỉ lệ nói trên khi thiết kế bộ lọc thư rác. Mời các bạn cùng tham khảo! | HộiHội Thảo Thảo Quốc Quốc Gia2015 Gia 2015về vềĐiện Điện Tử Tử Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông ECIT 2015 ECIT 2015 Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác Nguyễn Xuân Thắng1 Trần Quang Anh2 Trịnh Bảo Ngọc1 và Nguyễn Thanh Hà2 1 Đại học Hà Nội. Email nxthang ngoctb @ 2 Học Viện Công Nghệ Bưu Chính Viễn Thông. Email tqanh@ thanhha140589@ Abstract Một vấn đề còn tồn tại trong các hệ thống phân loại tự Hiện tại quy trình thiết kế bộ lọc thư rác theo phương pháp động thư rác dựa trên nội dung là làm sao để cân bằng giữa độ học máy gồm các bước như sau chính xác phân loại thư rác và tỉ lệ chặn nhầm thư hợp lệ khi - Sử dụng các tập mẫu để huấn luyện bộ phân loại tự động. thiết kế các bộ lọc thư rác. Bài báo trình bày một giải pháp cho - Chọn một ngưỡng T dùng để xác định xem một thư mới có vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục phải là thư rác hay không. Thư mới được tách thành các tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác đặc trưng và so sánh với các đặc trưng đã được ghi nhận cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng bởi bộ huấn luyện. Nếu tổng trọng số của các đặc trưng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ này lớn hơn giá trị T thì thư mới sẽ được phân loại là thư cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho rác. phép đánh giá sự thỏa hiệp tradeoff giữa hai tỉ lệ nói trên khi - Tính toán các tham số SDR và FAR để đánh giá hiệu quả thiết kế bộ lọc thư rác. của bộ lọc. Theo quy trình trên giá trị của SDR và FAR phụ thuộc vào Keywords- Lọc thư rác tối ưu hóa đa mục tiêu giải thuật di ngưỡng T và trọng số của các đặc trưng. Để tìm ra bộ lọc có truyền SpamAssassin. SDR và FAR phù hợp người dùng phải thử các giá trị T và I. GIỚI THIỆU trọng số khác nhau rồi lặp lại cả quy trình. Lưu ý là quá trình huấn luyện bộ

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.