Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa, ). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng. | Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113 MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ VÀO HỆ DỊCH MÁY THỐNG KÊ Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3 2 1 Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên 3 Trường Đại học Dân lập Hải Phòng TÓM TẮT Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa, ). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục. Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2]. Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ. ĐẶT VẤN ĐỀ* Những năm gần đây, sự bùng nổ của cách tiếp cận dịch máy thống kê dựa vào cụm đã tạo ra các sản phẩm thương mại được sử dụng rộng rãi trên thế giới (hệ dịch của google, microsoft, ) [14][15]. Một trong những vấn đề quan trọng của dịch máy thống kê dựa vào cụm liên quan đến việc là làm thế nào để sinh ra thứ tự các từ (cụm) chính xác trong ngôn ngữ đích. Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch Anh-Việt Để giải quyết vấn đề trên, gần đây, trong [4][5], mô hình đảo trật tự từ vựng (LRMs) đã phát triển để dự đoán hướng của cặp cụm dựa vào cụm đích liền kề. Những mô hình này phân biệt ba hướng của .