Luận án tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector; nghiên cứu một số mô hình, phương pháp biểu diễn văn bản, chuyển dữ liệu văn bản thô thành kho dữ liệu dựa trên mô hình vector. Đề xuất giải pháp tính độ tương tự văn bản tiếng Việt và triển khai thử nghiệm tại Đại học Đà Nẵng. | Luận án Tiến sĩ Kỹ thuật Đánh giá mức độ giống nhau của văn bản tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG --- --- HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng 10 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG --- --- HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT Chuyên ngành KHOA HỌC MÁY TÍNH Mã số 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học 1. . Võ Trung Hùng 2. TS. Nguyễn Thị Ngọc Anh Đà Nẵng 10 2019 LỜI CAM ĐOAN Tôi tên là Hồ Phan Hiếu. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và mọi tham khảo đều được trích dẫn chỉ rõ nguồn tham khảo theo đúng quy định. Tác giả NCS. Hồ Phan Hiếu -i- MỤC LỤC LỜI CAM ĐOAN MỤC LỤC .i DANH MỤC CÁC TỪ VIẾT TẮT .iv DANH MỤC BẢNG BIỂU . v DANH MỤC HÌNH VẼ . vi DANH MỤC THUẬT TOÁN . viii LỜI MỞ ĐẦU . 1 1. Đặt vấn đề . 1 2. Mục tiêu nghiên cứu . 3 3. Đối tượng và phạm vi nghiên cứu . 4 4. Phương pháp nghiên cứu . 4 5. Nhiệm vụ nghiên cứu và kết quả đạt được . 5 6. Bố cục của luận án . 5 7. Đóng góp chính của luận án . 6 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU . 8 Một số khái niệm sử dụng trong luận án . 8 Một số đặc điểm của ngôn ngữ tiếng Việt . 12 Khái quát . 12 Một số khó khăn và nhập nhằng trong xử lý văn bản tiếng Việt . 13 Mô hình biểu diễn văn bản . 15 Giới thiệu . 15 Mô hình biểu diễn văn bản . 16 Nhận xét và đánh giá . 25 Các phương pháp tính độ tương tự văn bản . 27 Hướng tiếp cận . 27 Bài toán so khớp chuỗi . 28 So sánh văn bản và ứng dụng trong phát hiện sao chép. 33 Giới thiệu . 33 Các vấn đề liên quan về sao chép . 34 Phát hiện sao chép tại PAN . 38 Kết luận Chương 1 . 41 SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VECTOR. 42 Giới thiệu . 42 - ii - Tính độ tương tự văn bản trong mô hình vector . 43 Biểu diễn văn bản theo mô hình vector . 43 Phương pháp tính trọng số từ chỉ mục . 45 Phương pháp tính độ tương tự . 49 Nhận xét . 51 Một số phương .