Bài báo này đề xuất ứng dụng giải pháp tách từ sử dụng trí tuệ nhân tạo để chuẩn hóa các kho ngữ liệu, từ đó giúp cải tiến chất lượng của các hệ thống dịch tự động. | 274 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt Nguyễn Văn Bình1 Huỳnh Công Pháp1 Huỳnh Thị Tâm Thương2 1 Khoa Công nghệ Thông tin và Truyền thông Đại học Đà Nẵng 2 Ban Khoa học Công nghệ và Môi trường Đại học Đà Nẵng nvbinh@ hcphap@ thuonght2008@ Abstract. Chất lượng của các hệ thống dịch máy tiếng Việt hiện nay vẫn còn khiêm tốn 8 vì vậy cần tiếp tục nghiên cứu các giải pháp nhằm nâng cao chất lượng của các bản dịch máy. Trong đó cải tiến kho ngữ liệu là một giải pháp hiệu quả để giúp quá trình huấn luyện đạt hiệu quả và đưa ra các bản dịch tốt hơn. Đã có nhiều nghiên cứu nhằm nâng cao chất lượng và mở rộng số lượng của kho ngữ liệu. Trong bài báo này tác giả đề xuất ứng dụng giải pháp tách từ sử dụng trí tuệ nhân tạo để chuẩn hóa các kho ngữ liệu từ đó giúp cải tiến chất lượng của các hệ thống dịch tự động. Keywords tách từ kho ngữ liệu dịch máy trí tuệ nhân tạo mạng nơ ron CBOW skip-gram. 1 Đặt vấn đề Kết quả của quá trình xử lý ngôn ngữ tự nhiên được ứng dụng trong nhiều lĩnh vực đời sống và phục vụ cho các nghiên cứu liên quan đến xử lý văn bản phân loại văn bản tóm tắt văn bản sửa lỗi chính tả dịch máy Đặc biệt tiếng Việt là một ngôn ngữ phức tạp có nhiều sự nhập nhằng trong ngữ pháp và từ loại vì vậy các nghiên cứu về xử lý tiếng Việt có vai trò quan trọng giúp nâng cao hiệu quả của các hệ thống nói trên. Trong lĩnh vực dịch máy tiếng Việt phần lớn các nghiên cứu về cải tiến kho ngữ liệu tập trung giải quyết các vấn đề về tổng hợp và trích rút dữ liệu để xây dựng kho ngữ liệu hợp nhất và làm giàu kho ngữ liệu 9 chú thích từ loại 4 Do đặc điểm của tiếng Việt mỗi từ chứa một hoặc nhiều âm tiết vì vậy nếu phân biệt rõ ranh giới giữa các từ thì sẽ giảm bớt tính nhập nhằng của ngữ nghĩa xác định từ loại sẽ chính xác hơn từ đó giúp quá trình xử lý và huấn luyện dữ liệu đạt hiệu quả tốt. Đối với bất kỳ mô hình .