Bài viết đề xuất một phương pháp phân lớp mã độc hiệu quả dựa trên sự kết hợp giữa kĩ thuật phân lớp dữ liệu với giải thuật di truyền. Quá trình thực nghiệm và phân tích trên cùng một tập dữ liệu huấn luyện đã chỉ ra rằng phương pháp đã đề xuất cho kết quả phân lớp chính xác hơn phương pháp phân lớp khi chưa kết hợp với giải thuật di truyền. | Mô hình kết hợp giữa học máy và giải thuật di truyền trong phát hiện mã độc JOURNAL OF SCIENCE OF HNUE DOI: Educational Sci., 2015, Vol. 60, No. 7A, pp. 189-195 This paper is available online at MÔ HÌNH KẾT HỢP GIỮA HỌC MÁY VÀ GIẢI THUẬT DI TRUYỀN TRONG PHÁT HIỆN MÃ ĐỘC Lương Thế Dũng Khoa An toàn Thông tin, Học viện Kỹ thuật Mật mã Tóm tắt. Bài báo đề xuất một phương pháp phân lớp mã độc hiệu quả dựa trên sự kết hợp giữa kĩ thuật phân lớp dữ liệu với giải thuật di truyền. Quá trình thực nghiệm và phân tích trên cùng một tập dữ liệu huấn luyện đã chỉ ra rằng phương pháp đã đề xuất cho kết quả phân lớp chính xác hơn phương pháp phân lớp khi chưa kết hợp với giải thuật di truyền. Từ khóa: Mã độc, phát hiện mã độc, học máy, giải thuật di truyền, cây quyết định. 1. Mở đầu Mã độc đang là một trong những hiểm họa lớn nhất đối với các hệ thống thông tin trong thời kì hiện nay. Cùng với sự phát triển mạnh mẽ và tinh vi của các loại mã độc, thì phát hiện mã độc đã trở thành một trong những vấn đề quan trọng nhất trong lĩnh vực An toàn thông tin. Các phương pháp phát hiện mã độc truyền thống thường sử dụng kĩ thuật đối sánh mẫu, việc phát hiện được dựa trên một cơ sở dữ liệu các mẫu về mã độc đã định nghĩa trước, vì vậy có độ chính xác cao cũng như ít đưa ra các cảnh bảo nhầm. Tuy nhiên, với sự bùng nổ mạnh mẽ của mã độc, các cơ sở dữ liệu mẫu mã độc ngày càng có kích thước lớn hơn, nên việc sử dụng phương pháp này có các hạn chế là làm giảm hiệu năng của hệ thống và không thể phát hiện được các mã độc mới chưa được định nghĩa trong cơ sở dữ liệu hoặc các mã độc đa hình, siêu đa hình. Để khắc phục các hạn chế trên, nhiều phương pháp phát hiện mã độc mới đã được đề xuất, đặc biệt là phương pháp dựa trên các mô hình học máy và khai phá dữ liệu như: Phương pháp dựa trên Mạng Bayes [10], Máy Vecto hỗ trợ [12] và Cây quyết định [13]. Tuy nhiên các phương pháp này gặp phải