Đề tài nghiên cứu khoa học cấp trường: Nghiên cứu kĩ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản Tiếng Việt

Mục tiêu của đề tài là nghiên cứu mô hình biểu diễn văn bản tiếng Việt, các kỹ thuật tính độ tương đồng nhằm cải tiến các phép đo tương đồng và ứng dụng vào thiết kế, xây dựng thử nghiệm một số phần chức năng của hệ thống so sánh trên văn bản tiếng Việt. | TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài NGUYỄN KIM ANH Thành viên tham gia TRỊNH THỊ NGỌC HƯƠNG Hải Phòng tháng 05 2016 MỤC LỤC MỤC LỤC . 2 DANH SÁCH HÌNH ẢNH . 4 DANH SÁCH BẢNG BIỂU . 5 MỞ ĐẦU . 6 CHƯƠNG I TỔNG QUAN VỀ ĐỀ TÀI . 7 . Lý do chọn đề tài . 7 . Mục đích nghiên cứu . 7 . Đối tượng nghiên cứu . 7 . Phương pháp nghiên cứu . 7 CHƯƠNG II BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT . 9 . Bài toán so sánh văn bản . 9 . Đặc điểm ngôn ngữ tiếng Việt . 10 . Cấu tạo từ tiếng Việt .10 . Biến hình từ tiếng Việt .11 . Từ đồng nghĩa .11 . Đặc điểm chính tả .12 . Bảng mã tiếng Việt trên máy tính .12 . Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt . 13 . Tiền xử lý văn bản tiếng Việt .13 . Phương pháp tính độ tương đồng giữa các văn bản .14 . Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt .16 CHƯƠNG III MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT . 18 . Mô hình biểu diễn văn bản truyền thống . 18 . Mô hình logic .18 . Mô hình vector .19 . Mô hình đồ thị biểu diễn văn bản . 22 . Mô hình đồ thị khái . Mô hình đồ thị hình sao .23 . Mô hình đồ thị vô hướng sử dụng tần số xuất hiện .23 . Mô hình đồ thị có hướng cạnh không gán nhãn .24 . Mô hình đồ thị có hướng cạnh không gán nhãn cạnh là khoảng cách n giữa hai từ trong văn bản .24 CHƯƠNG IV PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN . 26 . Khái niệm độ tương đồng . 26 . Độ tương đồng văn bản dựa trên tập từ chung . 26 . Khoảng cách Jaro .26 . Mô hình tương phản Contrast model .27 . Hệ số Jaccard .27 . Độ tương đồng văn bản dựa trên vector biểu diễn . 27 . Độ tương đồng Cosine .27 . Độ tương đồng dựa vào khoảng cách Euclide .28 . Độ tương đồng dựa vào khoảng cách Manhattan .28 . Độ tương đồng văn bản

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.