Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet

Ngữ liệu song ngữ đóng một vai trò rất quan trọng trong nhiều ứng dụng về xử lý ngôn ngữ tự nhiên, đặc biệt là trong các ứng dụng về dịch máy. Có nhiều phương pháp khác nhau để xây dựng ngữ liệu song ngữ, đa ngữ. Trong bài viết này, chúng tôi đề xuất phương pháp thu thập, xác thực và tiền xử lý một tập lớn các câu song ngữ Anh - Việt từ các nguồn tài nguyên trên internet. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI MỘT PHƯƠNG PHÁP XÂY DỰNG NGỮ LIỆU SONG NGỮ ANH-VIỆT TỪ NGUỒN TÀI NGUYÊN INTERNET Dƣơng Minh Hùng1 Lê Mạnh Thạnh2 Lê Trung Hiếu3 1 Trƣờng Đại học Ngoại ngữ Đại học Huế 57 Nguyễn Khoa Chiêm Tp Huế 2 Khoa CNTT Trƣờng Đại học Khoa học Đại học Huế 77 Nguyễn Huệ Tp Huế 3 Trung tâm CNTT Đại học Huế 02 Lê Lợi Tp Huế dmhung1980@ lmthanh1953@ hieukien82@ TÓM TẮT Ngữ liệu song ngữ đóng một vai trò rất quan trọng trong nhiều ứng dụng về xử lý ngôn ngữ tự nhiên đặc biệt là trong các ứng dụng về dịch máy. Có nhiều phương pháp khác nhau để xây dựng ngữ liệu song ngữ đa ngữ. Trong bài báo này chúng tôi đề xuất phương pháp thu thập xác thực và tiền xử lý một tập lớn các câu song ngữ Anh - Việt từ các nguồn tài nguyên trên internet. Ngoài ra chúng tôi sử dụng các bộ lọc chiều dài câu bộ lọc bao phủ từ và bộ phân lớp Entropy cực đại để rút trích các cặp câu thực sự song song. Từ khóa Ngữ liệu song ngữ Entropy cực đại. I. GIỚI THIỆU Ngữ liệu đa ngữ nói chung và song ngữ nói riêng đóng một vai trò rất quan trọng đối với lĩnh vực xử lý ngôn ngữ tự nhiên đặc biệt là trong lĩnh vực dịch máy Machine Translation - MT nói chung và dịch máy thống kê dịch máy mạng neural nói riêng. Độ chính xác của hệ thống dịch máy phụ thuộc rất lớn vào chất lƣợng của ngữ liệu song ngữ. Vì vậy có rất công trình khoa học nghiên cứu các phƣơng pháp nhằm tạo ra các kho ngữ liệu song ngữ có chất lƣợng tốt làm tài nguyên để phát triển các hệ thống dịch tự động. Trên thế giới ngƣời ta đã xây dựng đƣợc khá nhiều các kho ngữ liệu song ngữ lớn chẳng hạn kho ngữ liệu song ngữ HKUST và PKU863 của cặp Anh - Hoa kho ngữ liệu Europarl đƣợc trích từ văn bản Nghị Viện Châu Âu và văn bản chính phủ của một số nƣớc kho ngữ liệu song ngữ JENAAD cho cặp ngôn ngữ Anh - Nhật Đối với tiếng Việt số lƣợng các bộ ngữ liệu chƣa đƣợc quan tâm nghiên cứu nhiều. .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.