Bài viết này trình bày nghiên cứu về xác định đặc điểm tác giả văn bản tiếng Việt bằng phương pháp học sâu dựa trên mạng nơ ron tích chập (Convolutional Neural Network – CNN). | Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu Dương Trần Đức XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU Dương Trần Đức Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Xác định đặc điểm tác giả văn bản là việc chỉ [15, 16], Random Forest [29], Multi-Class Real Winnow ra các đặc điểm của tác giả như giới tính, độ tuổi, . chỉ [4]. Các tập đặc trưng được thử nghiệm được chia thành dựa trên phân tích văn bản của tác giả đó. Bài báo này hai loại là đặc trưng dựa theo phong cách và dựa theo nội trình bày nghiên cứu về xác định đặc điểm tác giả văn dung. Phong cách viết được xem như là một phương pháp bản tiếng Việt bằng phương pháp học sâu dựa trên mạng độc lập miền và được sử dụng trong nhiều nghiên cứu nơ ron tích chập (Convolutional Neural Network – trước đây về xác định đặc điểm tác giả. Hầu hết các thành CNN). Các thực nghiệm được thực hiện trên tập dữ liệu phần có tính độc lập nội dung của ngôn ngữ đã được sử dụng làm đặc trưng phong cách như các ký tự, tính chất là các bài viết diễn đàn tiếng Việt đã được sử dụng trong từ, từ loại [4, 5, 14, 27], từ công cụ (từ chức năng) [2, 6, các nghiên cứu trước đây về nhận diện đặc điểm tác giả 11], các cấu trúc ngữ pháp [5, 6, 23] .. Các đặc trưng văn bản tiếng Việt [8]. Kết quả thực nghiệm cho thấy này thường được tạo ra từ các quy tắc của ngôn ngữ và phương pháp mới có kết quả nhận diện tốt hơn so với các không phụ thuộc vào tập dữ liệu hay lĩnh vực cụ thể nào. phương pháp học máy truyền thống như Máy véc tơ hỗ Ngược lại, các từ nội dung thường được lựa chọn từ chính trợ (Support Vector Machine) và Rừng ngẫu nhiên các tập dữ liệu được sử dụng trong nghiên cứu hoặc được (Random Forest).1 lựa chọn từ các từ ngữ có ngữ nghĩa liên quan đến lĩnh Từ khóa: học sâu, mạng nơ ron tích chập, nhận diện vực cụ thể [2, 10, 12]. Do đó, các từ nội dung được xem là đặc điểm tác giả. có tính phụ thuộc miền hoặc phụ thuộc dữ liệu ở mức độ nào đó. I. MỞ .