Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu

Nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh cặp cậu được dóng hàng thủ công. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI DÓNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Lê Hoài Bảo1 Trịnh Vũ Minh Hùng1 Hoàng Khuê1 Lê Thanh Tùng2 1 Khoa Công nghệ thông tin Đại học Khoa học Tự nhiên Đại học Quốc gia Thành phố Hồ Chí Minh 2 Công an tỉnh Quảng Bình 1712049@ 17l2005@ hkhue@ tungleqb@ TÓM TẮT Ngày nay với lượng dữ liệu ngôn ngữ text voice khổng lồ từ internet đặt ra nhiều bài toán về Xử lý ngôn ngữ tự nhiên. Trong đó Dóng hàng tự động ở mức từ cho cặp song ngữ. Nó là một trong những bài toán cơ bản ảnh hưởng trực tiếp đến độ chính xác cũng như hiệu quả là đầu vào cho các bài toán còn lại như Dịch máy tự động tóm tắt văn bản gán nhãn từ loại của các bài toán khác. Tuy nhiên các hướng nghiên cứu Dóng hàng tự động ở mức từ cho cặp song ngữ Việt - Anh hầu như không có đột phá nào ngoài sử dụng các thành tựu của máy học thống kê mô hình IBM model 1-5 và mô hình HMM có nhiều hạn chế khi áp dụng trong nghiên cứu ngôn ngữ học. Do đó nhóm nghiên cứu đề suất hướng tiếp cận học sâu cho bài Dóng hàng tự động ở mức từ ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh cặp cậu được dóng hàng thủ công. Chúng tôi hi vọng với mô hình đề xuất sẽ giúp ích cho những nhà ngôn ngữ học cũng có thể dễ dàng sử dụng học sâu khi nghiên cứu các đề tài liên quan đến ngôn ngữ học đối chiếu. Từ khóa Deep learning Word alignment Parallel corpus Web application. I. GIỚI THIỆU Bài toán Dóng hàng mức từ cho các cặp song ngữ đang được rất nhiều nhóm nghiên cứu trên thế giới thực hiện. Tuy nhiên hầu hết các nhóm đều dựa trên cách tiếp cận thống kê với nền tảng là mô hình IBM1-5 và HMM. Gần đây Deep Learning đã được áp dụng rất nhiều vào các bài toán Xử lý ngôn ngữ tự nhiên và cho ra kết quả rất cao ví dụ như áp .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
18    86    2    26-04-2024
15    68    1    26-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.