Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 3 - Viện Công nghệ Thông tin và Truyền thông

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 3 cung cấp cho học viên những nội dung về: tách từ tiếng Việt; qui tắc cấu tạo từ tiếng Việt; các hướng tiếp cận; thuật toán so khớp từ dài nhất; tách từ sử dụng biểu thức chính qui; phân giải nhập nhằng; . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | Tách từ tiếng Việt Viện Công nghệ Thông tin và Truyền thông Tách từ Mục đích xác định ranh giới của các từ trong câu. Là bước xử lý quan trọng đối với các hệ thống XLNNTN đặc biệt là đối với các ngôn ngữ đơn lập ví dụ âm tiết Trung Quốc âm tiết Nhật âm tiết Thái và tiếng Việt. Với các ngôn ngữ đơn lập một từ có thể có một hoặc nhiều âm tiết. Vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. 2 Từ vựng Tiếng Việt là ngôn ngữ không biến hình Từ điển từ tiếng Việt Vietlex gt từ trong đó âm tiết là từ từ đơn các từ trong từ điển là từ đơn từ ghép có 2 âm tiết từ ghép 3 âm tiết từ ghép 4 âm tiết 3 Từ vựng Tiếng Việt là ngôn ngữ không biến hình Từ điển từ tiếng Việt Vietlex gt từ Độ dài từ 1 6 303 2 28 416 3 2 259 4 2 784 5 419 Tổng 40 181 100 Bảng 1. Độ dài của từ tính theo âm tiết 4 Qui tắc cấu tạo từ tiếng Việt Từ đơn dùng một âm tiết làm một từ. Ví dụ tôi bác người cây hoa đi chạy vì đã à nhỉ nhé. Từ ghép tổ hợp ghép các âm tiết lại giữa các âm tiết đó có quan hệ về nghĩa với nhau. Từ ghép đẳng lập. các thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa. Ví dụ chợ búa bếp núc Từ ghép chính phụ. các thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia. Thành tố phụ có vai trò phân loại chuyên biệt hoá và sắc thái hoá cho thành tố chính. Ví dụ tàu hoả đường sắt xấu bụng tốt mã ngay đơ thằng tắp sưng vù. 5 Qui tắc cấu tạo từ tiếng Việt Từ láy các yếu tố cấu tạo có thành phần ngữ âm được lặp lại nhưng vừa lặp vừa biến đổi. Một từ được lặp lại cũng cho ta từ láy. Biến thể của từ được coi là dạng lâm thời biến động hoặc dạng quot lời nói quot của từ. Rút gọn một từ dài thành từ ngắn hơn ki-lô-gam ki lô kí lô Lâm thời phá vỡ cấu trúc của từ phân bố lại yếu tố tạo từ với những yếu tố khác ngoài từ chen vào. Ví dụ khổ sở lo khổ lo sở ngặt nghẽo cười ngặt cười nghẽo danh lợi ham chuộng ham danh chuộng lợi 6 Qui tắc cấu tạo từ tiếng Việt Các diễn tả gồm nhiều từ vd bởi vì cũng

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.