Luận án Tiến sĩ Kỹ thuật: Đánh giá mức độ giống nhau của văn bản tiếng Việt

Luận án tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector; nghiên cứu một số mô hình, phương pháp biểu diễn văn bản, chuyển dữ liệu văn bản thô thành kho dữ liệu dựa trên mô hình vector. Đề xuất giải pháp tính độ tương tự văn bản tiếng Việt và triển khai thử nghiệm tại Đại học Đà Nẵng. | Luận án Tiến sĩ Kỹ thuật Đánh giá mức độ giống nhau của văn bản tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG --- --- HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng 10 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG --- --- HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT Chuyên ngành KHOA HỌC MÁY TÍNH Mã số 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học 1. . Võ Trung Hùng 2. TS. Nguyễn Thị Ngọc Anh Đà Nẵng 10 2019 LỜI CAM ĐOAN Tôi tên là Hồ Phan Hiếu. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và mọi tham khảo đều được trích dẫn chỉ rõ nguồn tham khảo theo đúng quy định. Tác giả NCS. Hồ Phan Hiếu -i- MỤC LỤC LỜI CAM ĐOAN MỤC LỤC .i DANH MỤC CÁC TỪ VIẾT TẮT .iv DANH MỤC BẢNG BIỂU . v DANH MỤC HÌNH VẼ . vi DANH MỤC THUẬT TOÁN . viii LỜI MỞ ĐẦU . 1 1. Đặt vấn đề . 1 2. Mục tiêu nghiên cứu . 3 3. Đối tượng và phạm vi nghiên cứu . 4 4. Phương pháp nghiên cứu . 4 5. Nhiệm vụ nghiên cứu và kết quả đạt được . 5 6. Bố cục của luận án . 5 7. Đóng góp chính của luận án . 6 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU . 8 Một số khái niệm sử dụng trong luận án . 8 Một số đặc điểm của ngôn ngữ tiếng Việt . 12 Khái quát . 12 Một số khó khăn và nhập nhằng trong xử lý văn bản tiếng Việt . 13 Mô hình biểu diễn văn bản . 15 Giới thiệu . 15 Mô hình biểu diễn văn bản . 16 Nhận xét và đánh giá . 25 Các phương pháp tính độ tương tự văn bản . 27 Hướng tiếp cận . 27 Bài toán so khớp chuỗi . 28 So sánh văn bản và ứng dụng trong phát hiện sao chép. 33 Giới thiệu . 33 Các vấn đề liên quan về sao chép . 34 Phát hiện sao chép tại PAN . 38 Kết luận Chương 1 . 41 SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VECTOR. 42 Giới thiệu . 42 - ii - Tính độ tương tự văn bản trong mô hình vector . 43 Biểu diễn văn bản theo mô hình vector . 43 Phương pháp tính trọng số từ chỉ mục . 45 Phương pháp tính độ tương tự . 49 Nhận xét . 51 Một số phương .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
476    16    1    24-11-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.