Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec

Bài viết trình bày việc sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế. | Nghiên cứu khoa học công nghệ ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC Nguyễn Thị Minh Ánh Nguyễn Hữu Phát Tóm tắt Hiện nay phân loại văn bản là một trong những ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên. Đặc biệt những thành tựu gần đây của các mạng học sâu cho thấy các phương pháp học sâu đang làm rất tốt trong việc phân loại văn bản. Các phương pháp này cho thấy hiệu quả trong việc phân loại văn bản với ngôn ngữ tiếng Anh. Tuy nhiên hiện nay trong phạm vi nghiên cứu của chúng tôi không có nhiều nghiên cứu đối với văn bản tiếng Việt. Do đó trong nghiên cứu này chúng tôi sử dụng mạng Long Short Term Memory LSTM kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC 1 đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế. Từ khóa Phân loại văn bản Xử lý ngôn ngữ tự nhiên Xử lý dữ liệu Long Short Term Memory Word2vec. 1. ĐẶT VẤN ĐỀ Với xu thế bùng nổ dữ liệu như hiện nay lượng dữ liệu văn bản phải xử lý ngày càng nhiều. Vấn đề đặt ra là làm thế nào để khai thác thông tin từ nguồn dữ liệu này. Rõ ràng ta phải hiểu rõ bản chất của dữ liệu văn bản hiểu rõ đặc trưng của các dữ liệu này để có thể có được những phương pháp luận cần thiết. Việc phân loại văn bản tự động sẽ giúp tiết kiệm thời gian và công sức. Các mô hình mạng nơ-ron nhân tạo học sâu Deep Neural Network - DNN đã đạt nhiều thành công trong việc xử lý ngôn ngữ tự nhiên. Những ứng dụng của Deep Learning trong xử lý ngôn ngữ tự nhiên có thể kể đến như thuật toán phân cụm từ 12 rút trích nội dung chính của văn bản tiếng Việt 13 Đối với phân loại văn bản đã có nhiều nghiên cứu và mô hình được sử dụng. Với ngôn ngữ tiếng Anh các bài toán phân loại văn bản cũng đã được nghiên cứu dựa trên các mạng nơ-ron nhân tạo học sâu 14 19 . Trong 14 tác giả sử dụng LSTM LSTM Word2vec. Việc sử dụng mô hình LSTM Word2Vec được đào tạo trước có thể giải quyết tốt vấn đề xử lý dữ liệu nhiều chiều do các .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
15    16    4    27-11-2024
476    17    1    27-11-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.