Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 2 - Viện Công nghệ Thông tin và Truyền thông

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 2 cung cấp cho học viên những nội dung về: mô hình ngôn ngữ; tính xác suất bigram; mô hình ngôn ngữ Google Book N-grams; mô hình ngôn ngữ KenLM; đánh giá các mô hình ngôn ngữ; hiện tượng quá khớp dữ liệu (overfitting); . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | 2. Mô hình ngôn ngữ Viện Công nghệ Thông tin và Truyền thông Mô hình ngôn ngữ Là phân bố xác suất trên các tập văn bản Cho biết xác suất của 1 câu hoặc 1 cụm từ thuộc 1 ngôn ngữ là bao nhiêu Mô hình ngôn ngữ tốt sẽ đánh giá đúng các câu đúng ngữ pháp trôi chảy hơn các từ có thứ tự ngẫu nhiên. vd P hôm nay trời đẹp gt P trời đẹp nay hôm Mô hình ngôn ngữ N-gram Mục tiêu tính xác suất của 1 câu hoặc một cụm từ P W P w1 w2 w3 w4 w5 wm Theo công thức Bayes P AB P B A P A Ta có P w1 w2 w3 w4 w5 wm P 1 P 2 1 P 3 1 2 P 1 2 3 1 P hôm nay trời đẹp 1 P hôm P nay hôm P trời hôm nay P đẹp hôm nay trời Mô hình ngôn ngữ N-gram Cách tính xác suất không thể lưu hết các xác suất trên đặc biệt với m là độ dài văn bản ngôn ngữ tự nhiên sử dụng chuỗi Markov bậc n với giả thiết 1 từ chỉ phụ thuộc n-1 từ đứng trước nó mô hình n-gram P 1 2 3 1 P 1 2 3 1 P w m w m-nw m-n 1w m-n 2 w m-1 Các mô hình n gram Mô hình unigram Mô hình bigram Mô hình trigram Tính xác suất bigram ví dụ Berkeley Restaurant Project sentences can you tell me about any good cantonese restaurants close by mid priced thai food is what i m looking for tell me about chez panisse can you give me a listing of the kinds of food that are available i m looking for a good place to eat breakfast when is caffe venezia open during the day Đếm các bigram Trên tổng số 9222 câu Tính xác suất bigram Chuẩn hóa theo unigrams Kết quả Tính xác suất câu dựa trên các bigram P I want english food P I P want I P english want P food english P food .000031 Các xác suất đã tính được P english want .0011 P chinese want .0065 P to want .66 P eat to .28 P food to 0 P want spend 0 P i .25 Các mô hình ngôn ngữ có sẵn Google Book N-grams http KenLM https code kenlm Google 4-Gram Release serve as the incoming 92 serve as the incubator 99 serve as the independent 794 serve as the index 223 serve as the indication 72 serve as the indicator 120 serve as the indicators 45 serve as the indispensable 111 serve as the .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
6    61    2    23-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.