Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. | TẠP CHÍ KHOA HỌC SỐ 2 2016 117 TRÍCH CHỌN COLLOCATION TIẾNG VIỆT TỪ KHO NGỮ LIỆU VĂN BẢN Đỗ Thị Ngọc Quỳnh1 Trường Đại học Thủ đô Hà Nội Tóm tắt Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên ở Việt Nam hiện nay nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng như frequency t-test chi-square mutual information đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô chưa qua xử lý dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau so sánh độ chính xác của các phương pháp chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ. Từ khóa collocation t-test chi-square mutual information độ đo ngôn ngữ cụm từ cố định. 1. GIỚI THIỆU Collocations được hiểu là một thể hiện của hai hoặc nhiều từ tương ứng với một cách nói thông thường. Chúng cũng được biết đến như là một lớp của các nhóm từ nằm giữa thành ngữ và sự kết hợp từ tự do 4 . Tuy nhiên rất khó để có thể phân địch rạch ròi giữa một cụm từ và một collocation. Thành ngữ và cụm từ thể hiện trong ngôn ngữ không chỉ về mặt ngữ pháp đặc biệt nghĩa của chúng không phải là sự kết hợp nghĩa của từng thành phần không thể đoán ý nghĩa của một thành ngữ từ nó chứa. Hơn nữa nghĩa của thành ngữ thường mạnh hơn nghĩa của cụm từ không phải là thành ngữ. 1 Nhận bài ngày gửi phản biện và duyệt đăng ngày . Liên hệ tác giả Đỗ Thị Ngọc

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.