Bài viết này trình bày việc xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một công cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của chúng tôi. | Xây dựng kho ngữ liệu du lịch song ngữ Việt-Anh gióng hàng mức câu cho dịch máy Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy Nguyễn Tiến Hà1 , Nguyễn Thị Minh Huyền2 , Nguyễn Minh Hải2 1 Trung tâm Giáo dục Thường xuyên tỉnh Phú Thọ 2 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tác giả liên hệ: Nguyễn Tiến Hà, tienhapt@ Ngày nhận bài: 11/08/2017, ngày sửa chữa: 03/05/2018, ngày duyệt đăng: 25/07/2018 Xem sớm trực tuyến: 08/11/2018, định danh DOI: Biên tập lĩnh vực điều phối phản biện và quyết định nhận đăng: PGS. TS. Nguyễn Lê Minh Tóm tắt: Kho ngữ liệu song ngữ được gióng hàng mức câu là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, như: nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, xây dựng từ điển song ngữ. Đặc biệt trong lĩnh vực dịch máy, chất lượng và độ lớn của kho ngữ liệu song ngữ có vai trò quyết định đến chất lượng dịch. Các hệ thống dịch máy hiện nay vẫn cần được cải tiến để xử lý nhiều hiện tượng ngôn ngữ. Các hệ thống dịch máy huấn luyện trên miền tổng quát thường có chất lượng kém khi ứng dụng vào văn bản trên miền hạn chế. Một giải pháp cho vấn đề này là kết hợp mô hình dịch trên miền tổng quát và miền hạn chế. Để làm được điều đó, việc xây dựng được kho ngữ liệu trên miền hạn chế là rất cần thiết. Bài báo này trình bày việc xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một công cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của chúng tôi. Với sự trợ giúp của công cụ này, chúng tôi đã xây dựng được kho ngữ liệu song ngữ Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mô hình dịch máy Việt–Anh tăng được khoảng 8, 79 điểm BLEU so với các mô hình được huấn luyện .