Bài viết trình bày việc sử dụng các thuật toán như Naive Bayes, SVM và K-NN để thực nghiệm phân lớp văn bản tiếng Việt trên 05 bộ dữ liệu thuộc 04 chủ đề khác nhau: Du lịch, giải trí, giáo dục và pháp luật. | Phân lớp văn bản tiếng Việt tự động theo chủ đề Tạp chí Khoa học Công nghệ và Thực phẩm 18 (1) (2019) 129-139 PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ Mạnh Thiên Lý*, Vũ Văn Vinh, Nguyễn Văn Lễ, Lâm Thị Họa Mi, Nguyễn Thị Thanh Thủy, Dƣơng Thị Mộng Thùy Trường Đại học Công nghiệp Thực phẩm *Email: lymt@ Ng y nh n i 16/01 Ng y h p nh n ng 06/3/2019 TÓM TẮT Mạng Internet ng y ng phát triển mạnh mẽ, mang lại nguồn thông tin vô ùng phong phú. Nhu ầu khai thá dữ liệu, phát hiện tri thứ ũng ng y ng gia t ng. Phân lớp v n ản óng vai trò quan trọng trong việ khai thá dữ liệu v phát hiện tri thức. Nhiều kỹ thu t trong họ máy ược ứng dụng ể hu n luyện dữ liệu ho quá trình phân lớp. Hiện nay, ó nhiều thu t toán ược sử dụng ể phân lớp v n ản như Naïve Bayes, K-NN, SVM, Maximum Entropy Trong i áo n y, nhóm tá giả sử dụng á thu t toán như Naïve Bayes, SVM v K-NN ể thực nghiệm phân lớp v n ản tiếng Việt trên 5 ộ dữ liệu thuộc 04 chủ ề khá nhau: Du lịch, Giải trí, Giáo dụ v Pháp lu t. Cá ộ dữ liệu n y ược rút trí h từ Website tin tức . Một số ặ trưng ịnh danh riêng ượ ưa v o quá trình xử lý ể t ng ộ hính xá trong quá trình phân lớp. Kết quả thử nghiệm cho th y thu t toán SVM ho kết quả phân lớp với ộ hính xá ao nh t (trên %) v thời gian thử nghiệm mô hình th p nh t. Từ khóa: Phân lớp v n ản, Naïve Bayes, K-NN, SVM, thu t toán. 1. TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN Phân lớp v n ản (Text lassifi ation) l quá trình gán nh n (tên lớp nh n lớp) cho á v n ản ngôn ngữ tự nhiên một á h tự ộng v o một hoặ nhiều lớp ho trướ . Phân lớp v n ản ượ xu t hiện từ những n m 6 , nhưng h 5 n m sau tr th nh l nh vự nghiên ứu hính trong hệ thống thông tin i sự a dạng ủa á ứng dụng. Phân lớp v n ản ượ sử dụng ể h trợ trong quá trình tìm kiếm thông tin (Information retrieval), hiết lọ thông tin (Information extra tion), lọ v n ản hoặ tự ộng d n ường ho á v n ản ến những hủ ề xá ịnh trướ . Ngo i ra, phân lớp v