Mục tiêu của luận án là tìm ra các giải pháp hiệu quả để biểu diễn, đánh giá mức độ giống nhau của các đơn vị văn bản và áp dụng cho việc phát hiện sao chép. | Tóm tắt luận án Tiến sĩ Kỹ thuật Đánh giá mức độ giống nhau của văn bản tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HỒ PHAN HIẾU ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT Chuyên ngành KHOA HỌC MÁY TÍNH Mã số 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học 1. . Võ Trung Hùng 2. TS. Nguyễn Thị Ngọc Anh Phản biện 1 . Phản biện 2 . Phản biện 3 . Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng Vào hồi giờ ngày tháng năm 2019 Có thể tìm hiểu luận án tại - Thư viện quốc gia Việt Nam. - Trung tâm Thông tin - Học liệu amp Truyền thông Đại học Đà Nẵng. 1 MỞ ĐẦU 1. Đặt vấn đề Ngày nay cùng với sự phát triển của Internet hoạt động trao đổi chia sẻ tài liệu diễn ra rất phổ biến. Các tài liệu như bài báo sách luận văn tốt nghiệp báo cáo được số hóa và phổ biến trên mạng Internet ngày càng nhiều. Tuy nhiên bên cạnh ưu điểm là cung cấp một nguồn tài liệu tham khảo phong phú thì tình trạng sao chép cũng đang trở thành một vấn nạn. Vấn đề đặt ra là làm thế nào để đánh giá được mức độ giống nhau của văn bản và chỉ ra được những nội dung sao chép trên một văn bản đặc biệt đối với tiếng Việt. Để phát triển hệ thống phát hiện sao chép cần giải quyết các vấn đề chính như 1 Xây dựng kho dữ liệu đủ lớn có độ bao phủ cao 2 Có phương pháp biểu diễn văn bản phù hợp và hiệu quả cho quá trình so sánh 3 Các giải thuật để tính độ tương tự giữa các đơn vị văn bản và chỉ ra các nội dung sao chép 4 Xử lý cho khối lượng văn bản cực lớn. Nhằm góp phần giải quyết các vấn đề trên tôi đã chọn đề tài Đánh giá mức độ giống nhau của văn bản tiếng Việt làm nội dung nghiên cứu cho luận án Tiến sĩ kỹ thuật của mình với mục tiêu phát hiện các nội dung sao chép trên một văn bản hiệu quả nhất có thể. Ý tưởng nổi bật của luận án này là nghiên cứu ứng dụng những thành tựu đã đạt được trong lĩnh vực sinh học xử lý tín hiệu số vào lĩnh vực xử lý ngôn ngữ tự nhiên. Điểm chung của các lĩnh .