Phân lớp văn bản tiếng Việt tự động theo chủ đề

Bài viết trình bày việc sử dụng các thuật toán như Naive Bayes, SVM và K-NN để thực nghiệm phân lớp văn bản tiếng Việt trên 05 bộ dữ liệu thuộc 04 chủ đề khác nhau: Du lịch, giải trí, giáo dục và pháp luật. | Phân lớp văn bản tiếng Việt tự động theo chủ đề Tạp chí Khoa học Công nghệ và Thực phẩm 18 (1) (2019) 129-139 PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ Mạnh Thiên Lý*, Vũ Văn Vinh, Nguyễn Văn Lễ, Lâm Thị Họa Mi, Nguyễn Thị Thanh Thủy, Dƣơng Thị Mộng Thùy Trường Đại học Công nghiệp Thực phẩm *Email: lymt@ Ng y nh n i 16/01 Ng y h p nh n ng 06/3/2019 TÓM TẮT Mạng Internet ng y ng phát triển mạnh mẽ, mang lại nguồn thông tin vô ùng phong phú. Nhu ầu khai thá dữ liệu, phát hiện tri thứ ũng ng y ng gia t ng. Phân lớp v n ản óng vai trò quan trọng trong việ khai thá dữ liệu v phát hiện tri thức. Nhiều kỹ thu t trong họ máy ược ứng dụng ể hu n luyện dữ liệu ho quá trình phân lớp. Hiện nay, ó nhiều thu t toán ược sử dụng ể phân lớp v n ản như Naïve Bayes, K-NN, SVM, Maximum Entropy Trong i áo n y, nhóm tá giả sử dụng á thu t toán như Naïve Bayes, SVM v K-NN ể thực nghiệm phân lớp v n ản tiếng Việt trên 5 ộ dữ liệu thuộc 04 chủ ề khá nhau: Du lịch, Giải trí, Giáo dụ v Pháp lu t. Cá ộ dữ liệu n y ược rút trí h từ Website tin tức . Một số ặ trưng ịnh danh riêng ượ ưa v o quá trình xử lý ể t ng ộ hính xá trong quá trình phân lớp. Kết quả thử nghiệm cho th y thu t toán SVM ho kết quả phân lớp với ộ hính xá ao nh t (trên %) v thời gian thử nghiệm mô hình th p nh t. Từ khóa: Phân lớp v n ản, Naïve Bayes, K-NN, SVM, thu t toán. 1. TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN Phân lớp v n ản (Text lassifi ation) l quá trình gán nh n (tên lớp nh n lớp) cho á v n ản ngôn ngữ tự nhiên một á h tự ộng v o một hoặ nhiều lớp ho trướ . Phân lớp v n ản ượ xu t hiện từ những n m 6 , nhưng h 5 n m sau tr th nh l nh vự nghiên ứu hính trong hệ thống thông tin i sự a dạng ủa á ứng dụng. Phân lớp v n ản ượ sử dụng ể h trợ trong quá trình tìm kiếm thông tin (Information retrieval), hiết lọ thông tin (Information extra tion), lọ v n ản hoặ tự ộng d n ường ho á v n ản ến những hủ ề xá ịnh trướ . Ngo i ra, phân lớp v

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.