Bài viết trình bày nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI DỊCH MÁY MẠNG NEURAL ANH - VIỆT THEO CHỦ ĐỀ Hoàng Trung Chính1 Nguyễn Hồng Bửu Long1 Lương An Vinh2 Khoa Công nghệ Thông tin Đại học Khoa học Tự nhiên Đại học Quốc gia Thành phố Hồ Chí Minh 1 2 Khoa Công nghệ Thông tin Đại học Công nghệ Sài Gòn petruschinh@ nhblong@ TÓM TẮT Trong những năm gần đây dịch máy mạng neural đã và đang được áp dụng vào nhiều lĩnh vực khác nhau và đạt được nhiều thành tựu đáng kể. Trong lĩnh vực dịch máy theo chủ đề mặc dù dịch máy mạng neural đã đạt được nhiều kết quả cao tuy nhiên mô hình vẫn cần được huấn luyện bởi nguồn dữ liệu được dịch bởi con người vốn tốn nhiều chi phí và thời gian. Trong bài báo này chúng tôi nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. Cụ thể hơn chúng tôi thử nghiệm phương pháp chọn lọc mới và đạt được kết quả tốt hơn từ 0 47 đến 2 31 điểm BLEU trong các bộ ngữ liệu Anh - Việt khác nhau. Từ khóa Dịch máy dịch máy mạng neural dịch máy theo chủ đề. I. GIỚI THIỆU Dịch máy mạng neural Neural Machine Translation - NMT là một phương pháp dịch máy rất phổ biến trong những năm gần đây phương pháp này để đạt được kết quả cao đòi hỏi mô hình cần được huấn luyện trên một lượng dữ liệu song ngữ rất lớn. Chất lượng của bản dịch phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu huấn luyện thông thường được dịch bởi con người. Việc tìm nguồn dữ liệu song ngữ vốn đã khó với các chủ đề mang tính phổ thông như tin tức báo chí nhưng trong nhiều chủ đề chuyên môn khác nguồn dữ liệu lại càng khan hiếm đòi hỏi chi phí rất lớn cho việc xây dựng bộ ngữ liệu chất lượng cao. .