Bài viết nghiên cứu và cải tiến giải thuật trích rút điểm mẫu trong quy trình phân loại mở mã độc dựa trên điểm mẫu được đề xuất bởi Rieck và các cộng sự. | Phân loại mã độc dựa trên các kỹ thuật N-gram và học máy Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các của các hệ thống máy tính. Vì vậy phân loại mã độc để có phần mềm sử dụng kỹ thuật che giấu, mã hóa và đóng gói. những biện pháp đối phó thích hợp là một phần quan Phân tích động tiến hành thực thi các phần mềm độc trọng trong lĩnh vực an toàn thông tin. Trong bài báo này, hại trong môi trường sandbox được giám sát để thu thập chúng tôi cải tiến giải thuật trích rút điểm mẫu trong quy các hành vi của mã độc. Vì vậy sandbox cần phải an toàn. trình phân loại mở mã độc dựa trên điểm mẫu được đề Trong loại phân tích này, có thể thu thập được tất cả các xuất bởi Rieck và các công sự [1]. Chúng tôi áp dụng tư thuộc tính của hành vi, chẳng hạn như các tệp tin đc được tưởng của hai phương pháp phân loại dựa trên điểm đặc mở, tạo mutexes, các hàm chính xác được gọi, các đối số trưng là Dendroid [2] và phương pháp được đề xuất bởi của hàm. Ưu điểm của phân tích động là nó nhanh hơn và các cộng sự [3], trích rút các điểm mẫu trên nhiều phân tích tĩnh. Nhược điểm của phân tích động, từng họ mã độc thay vì dựa trên toàn bộ các họ mã độc. chúng ta chỉ nhìn thấy một kịch bản có liên quan đến hiện Thực nghiệm cho thấy phương pháp của chúng tôi cho tại của hệ thốngvà không phải hành vi nào cũng được kết quả phân loại tốt với khả năng nhận biết mã độc là phân tích (ví dụ như virus chờ đến một thời điểm nào đó và phát hiện mã độc mới là cao hơn mới hoạt động). phiên bản gốc của phương pháp dựa trên điểm mẫu [1].1 Theo [6], phân tích tự động mã độc hướng tới một Từ khóa: Phân loại mã độc, n-gram, điểm mẫu. trong ba mục tiêu