Bài viết đề xuất phương pháp dịch máy mạng neural đa ngữ cho bài toán chuyển tự tự động chữ Nôm sang chữ Quốc Ngữ. Với phương pháp được đề xuất, hệ thống chuyển tự có thể tận dụng các đặc trưng tương đồng giữa tiếng Việt và các ngôn ngữ khác có nhiều ngữ liệu, từ đó giúp cải thiện chất lượng chuyển tự. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI CHUYỂN TỰ CHỮ NÔM BẰNG TIẾP CẬN DỊCH MÁY MẠNG NEURAL ĐA NGỮ Nguyễn Hồng Bửu Long1 Trang Minh Chiến1 Nguyễn Thế Hữu2 Đinh Điền1 1 Khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên Đại học Quốc gia Thành phố Hồ Chí Minh 2 Khoa công nghệ thông tin Trường Đại học Công nghiệp thực phẩm Thành phố Hồ Chí Minh nhblong@ chientrangminh@ huunt@ ddien@ TÓM TẮT Chữ Nôm là chữ viết được sử dụng trong gần một thế kỷ để ghi chép nhiều tác phẩm văn học lịch sử y học của dân tộc ta. Để khai thác các nguồn tư liệu trên nhiều phương pháp đã được sử dụng để xây dựng hệ thống chuyển tự tự động từ chữ Nôm sang chữ Quốc Ngữ trong đó nổi bật nhất là phương pháp dịch máy mạng neural. Tuy nhiên việc áp dụng các phương pháp dịch máy mạng neural được sử dụng còn gặp nhiều khó khăn bởi số lượng hạn chế của ngữ liệu song ngữ Nôm - Quốc Ngữ. Trong bài báo này chúng tôi đề xuất phương pháp dịch máy mạng neural đa ngữ cho bài toán chuyển tự tự động chữ Nôm sang chữ Quốc Ngữ. Với phương pháp được đề xuất hệ thống chuyển tự có thể tận dụng các đặc trưng tương đồng giữa tiếng Việt và các ngôn ngữ khác có nhiều ngữ liệu từ đó giúp cải thiện chất lượng chuyển tự. Mô hình dịch máy mạng neural đa ngữ của chúng tôi gồm các bộ mã hóa giải mã cho từng ngôn ngữ được kết nối với nhau bằng một bộ liên kết ngôn ngữ với chức năng tận dụng các đặc trưng riêng của từng ngôn ngữ để phát triển thành đặc trưng độc lập với các ngôn ngữ. Kết quả thực nghiệm cho thấy mô hình đạt được sự cải thiện về chất lượng chuyển tự so với mô hình dịch máy mạng neural song ngữ. Từ khóa Chuyển tự tự động chữ Nôm chữ Quốc Ngữ học sâu dịch máy mạng neural đa ngữ. I. GIỚI THIỆU Chuyển tự là bài toán thay thế các đơn vị của một hệ thống chữ viết bằng các đơn vị tương ứng của một hệ thống chữ viết khác trong cùng một ngôn ngữ. .