Bài viết này trình bày phương pháp làm tăng số lượng entry trong từ điển sẵn có và xây dựng một từ điển mới Dict(A,C) bằng phương pháp ánh xạ trung gian từ 2 từ điển sẵn có Dict(A,B) và Dict(B,C) với B là một ngôn ngữ phổ biến. Sử dụng tiếng Anh như một ngôn ngữ trung gian để thực hiện việc ánh xạ ngữ nghĩa các từ vựng ở ngôn ngữ A sang ngôn ngữ C. Để loại bỏ các mục dịch không chính xác, chúng tôi sử dụng phương pháp tính trọng số. Nếu một mục dịch có trọng lượng lớn hơn một ngưỡng δ, nó được xem như là mục dịch tốt và sẽ được thêm vào từ điển mới Dict(A,C). Nghiên cứu này không chỉ giúp giảm đáng kể chi phí xây dựng các tự điển mới, mà nó còn góp phần hỗ trợ các cộng đồng sử dụng ngôn ngữ không có nhiều nguồn tài nguyên từ vựng. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƯƠNG PHÁP ÁNH XẠ TRUNG GIAN Khang Nhứt Lâm Khoa Công nghệ thông tin và Truyền thông Trƣờng Đại học Cần Thơ lnkhang@ TÓM TẮT Để xây dựng một từ điển mới từ một ngôn ngữ nguồn A sang một ngôn ngữ đích C ký hiệu là Dict A C các phương pháp hiện tại cần nhiều nguồn tài nguyên có sẵn như các tự điển trung gian hoặc một lượng lớn tài liệu văn bản ở ngôn ngữ A C và ở một hoặc nhiều ngôn ngữ trung gian B. Tuy nhiên không phải ngôn ngữ nào cũng có các nguồn tài nguyên sẵn có như vậy đặc biệt là các ngôn ngữ ít tài nguyên hoặc ngôn ngữ nguy cấp được UNESCO thống kê. Bài báo này trình bày phương pháp làm tăng số lượng entry trong từ điển sẵn có và xây dựng một từ điển mới Dict A C bằng phương pháp ánh xạ trung gian từ 2 tự điển sẵn có Dict A B và Dict B C với B là một ngôn ngữ phổ biến. Cụ thể hơn chúng tôi sử dụng tiếng Anh như một ngôn ngữ trung gian để thực hiện việc ánh xạ ngữ nghĩa các từ vựng ở ngôn ngữ A sang ngôn ngữ C. Để loại bỏ các mục dịch không chính xác chúng tôi sử dụng phương pháp tính trọng số. Nếu một mục dịch có trọng lượng lớn hơn một ngưỡng δ nó được xem như là mục dịch tốt và sẽ được thêm vào tự điển mới Dict A C . Nghiên cứu của chúng tôi không chỉ giúp giảm đáng kể chi phí xây dựng các tự điển mới mà nó còn góp phần hỗ trợ các cộng đồng sử dụng ngôn ngữ không có nhiều nguồn tài nguyên từ vựng. Từ khóa Tự điển ánh xạ trung gian mục dịch ngôn ngữ nguy cấp I. GIỚI THIỆU 1 Tổ chức Ethnologue thống kê có hơn 7 106 ngôn ngữ đang tồn tại trên thế giới. Phần lớn các ngôn ngữ không có nhiều nguồn tài nguyên từ vựng nhƣ từ điển thesauri cơ sở dữ liệu từ vựng Wordnet và tập các văn bản corpora . Các từ điển chúng ta đang có đa phần là giữa các ngôn ngữ phổ biến ví dụ từ điển giữa các ngôn ngữ nhƣ Anh Tây Ban Nha và Đức hoặc giữa một ngôn ngữ phổ biến và một ngôn ngữ ít