Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy

Bài viết này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec. | ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG SỐ 05 114 .2017-Quyển 2 31 BIỂU DIỄN NGỮ CẢNH TRONG KHAI TRIỂN CHỮ VIẾT TẮT DÙNG TIẾP CẬN HỌC MÁY REPRESENTING CONTEXT IN ABBREVIATION EXPANSION USING MACHINE LEARNING APPROACH Ninh Khánh Duy Nguyễn Văn Quý Trường Đại học Bách khoa Đại học Đà Nẵng nkduy@ quynguyen3490@ Tóm tắt - Chuẩn hóa văn bản là bài toán rất cần thiết trong các Abstract - Text normalization is an essential problem in ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu applications involving natural language processing since the input vào thường chứa nhiều từ không chuẩn như chữ viết tắt chữ số text often contains non-standard words such as abbreviations và từ ngữ nước ngoài. Bài báo này giải quyết vấn đề chuẩn hóa numbers and foreign words. This paper deals with the problem of chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai normalizing abbreviations in Vietnamese text when there are triển. Để khử nhập nhằng trong khai triển chữ viết tắt tiếp cận học several possible expansions of an abbreviation. To disambiguate máy được sử dụng trong đó thông tin ngữ cảnh của chữ viết tắt the abbreviation expansions the machine learning approach is được biểu diễn bởi một trong hai mô hình Bag-of-words hoặc used in which contextual information of abbreviations is Doc2vec. Các thử nghiệm với bộ phân lớp Naïve Bayes trên một represented by either of the two models Bag-of-words or Doc2vec. bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai Experiments with Naïve Bayes classifier on a dataset of triển đúng trung bình của hai mô hình Bag-of-words và Doc2vec abbreviations collected by us show that the average ratios of lần lượt là 86 0 và 79 7 . Kết quả thực nghiệm cũng cho thấy expanding correctly for Bag-of-words and Doc2vec are and thông tin ngữ cảnh đóng vai trò quan trọng trong việc lựa chọn khai respectively. Experimental results also show that triển đúng cho một chữ viết .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.