Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu

Bài viết Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu tập trung đề xuất nhiều giải pháp hiệu quả nhằm cho phép xây dựng được các kho ngữ liệu không chỉ lớn về kích thước, đa dạng về ngôn ngữ mà còn tốt về chất lượng. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG BẰNG GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình Đại học Đà Nẵng hcphap@, , binhsht@ TÓM TẮT - Chất lượng dịch tự động, nhất là đối với các ngôn ngữ ít được đầu tư và ít phổ biến (under resourced languages) như là tiếng Việt và tiếng các dân tộc thiểu số là vấn đề rất được quan tâm hiện nay. Bên cạnh nhiều giải pháp như cải tiến các thuật toán và phương pháp dịch tự động, thì giải pháp nâng cao chất lượng dịch bằng cách mở rộng kho ngữ liệu luôn là một hướng giải quyết rất hiệu quả đã được chứng minh [7]. Do đó, trong bài báo này chúng tôi tập trung đề xuất nhiều giải pháp hiệu quả nhằm cho phép xây dựng được các kho ngữ liệu không chỉ lớn về kích thước, đa dạng về ngôn ngữ mà còn tốt về chất lượng. Tất cả các giải pháp đã được nhóm tác giả tiến hành triển khai thực hiện rất công phu và đã thu được những kết quả đáng kể. Từ khóa - Dịch tự động, kho ngữ liệu, chất lượng dịch, mở rộng kho ngữ liệu, cải tiến chất lượng dữ liệu. I. ĐẶT VẤN ĐỀ Nhằm đáp ứng nhu cầu giao tiếp của con người, hiện nay các hệ thống dịch tự động đang được phát triển đáng kể cả về số lượng và chất lượng. Mặc dù vậy, chất lượng dịch tự động vẫn còn khá thấp so với mong muốn, đặc biệt là các ngôn ngữ ít được đầu tư và ít phổ biến (under resourced languages) như tiếng Việt, các tiếng dân tộc thiểu số. Ngay cả các ngôn ngữ phổ biến và có sự đầu tư rất lớn như tiếng Anh, tiếng Pháp, tiếng Trung Quốc, tiếng Nhật, chất lượng dịch tự động qua lại giữa các ngôn ngữ này cũng còn nhiều vấn đề cần phải cải tiến. Một trong những nguyên nhân quan trọng ảnh hưởng đến chất lượng dịch tự động chính là chất lượng các kho ngữ liệu được sử dụng cho các hệ thống dịch. Thật vậy, các chiến dịch đánh giá chất lượng dịch tự động (evaluation campanges) như CSTAR, NESPOLE, IWSLT [1] đã được tổ

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.