Đo độ tương tự ngữ nghĩa của cặp ngôn ngữ Anh-Việt theo mô hình phân phối ngữ nghĩa song ngữ

Bài viết trình bày một số kỹ thuật đo độ tương tự ngữ nghĩa song ngữ theo tiếp cận nhúng từ song ngữ; Đề xuất một mô hình mạng nơron xây dựng không gian vector biểu diễn ngữ nghĩa song ngữ; xây dựng bộ dữ liệu chuẩn cho bài toán đo độ tương tự ngữ nghĩa song ngữ Việt-Anh. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 8 2018 DOI ĐO ĐỘ TƯƠNG TỰ NGỮ NGHĨA CỦA CẶP NGÔN NGỮ ANH-VIỆT THEO MÔ HÌNH PHÂN PHỐI NGỮ NGHĨA SONG NGỮ Bùi Văn Tân1 Nguyễn Phương Thái2 Đinh Khắc Quý2 1 Trường Đại học Kinh tế Kỹ thuật Công nghiệp 2 Trường Đại học Công nghệ Đại học Quốc gia Hà Nội TÓM TẮT Đo lường độ tương tự ngữ nghĩa giữa các từ là một bài toán nghiên cứu cốt lõi và có nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên. Những nghiên cứu được công bố gần đây thường giải quyết bài toán này cho đơn ngữ. Gần đây chứng kiến sự gia tăng không ngừng số lượng những ứng dụng xử lý tự nhiên đa ngôn ngữ đặt ra yêu cầu cần có các kỹ thuật đo lường độ tương tự ngữ nghĩa song ngữ một cách hiệu quả. Trong bài viết này chúng tôi trình bày một số kỹ thuật đo độ tương tự ngữ nghĩa song ngữ theo tiếp cận nhúng từ song ngữ đề xuất một mô hình mạng nơron xây dựng không gian vector biểu diễn ngữ nghĩa song ngữ xây dựng bộ dữ liệu chuẩn cho bài toán đo độ tương tự ngữ nghĩa song ngữ Việt-Anh. Cuối cùng chúng tôi thực nghiệm và đánh giá các kỹ thuật trên bộ dữ liệu đã xây dựng. Từ khóa Xử lý ngôn ngữ tự nhiên độ tương tự ngữ nghĩa song ngữ nhúng từ song ngữ. I. GIỚI THIỆU Sự tương đồng về ngữ nghĩa giữa các từ word similarity đóng vai trò trung tâm trong cách thức con người xử lý tri thức và là tiêu chí để phân loại các đối tượng xây dựng các khái niệm biểu diễn sự tổng quát và trừu tượng. Do đó word similarity đóng vai trò then chốt trong nhiều tác vụ xử lý ngôn ngữ tự nhiên NLP như truy vấn thông tin infomation retrieval mô hình ngôn ngữ language modeling phân cụm văn bản document clustering phát hiện kế thừa văn bản recognizing textual entailment Đo lường độ tương tự ngữ nghĩa một cách hiệu quả là một thách thức cốt lõi trong xử lý các tài liệu văn bản phi cấu trúc của lĩnh vực xử lý dữ liệu lớn Big Data . Phần lớn các kỹ thuật được đề xuất cho bài toán word similarity là cho đơn .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.