Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. nội dung chi tiết. | Chương 4 Phân lớp văn bản Tf-idf Naive Bayes LibSVM IT4772 Xử lý ngôn ngữ tự nhiên Viện CNTT-TT, ĐHBKHN 2 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý INFORMATION EXTRACTION ● NATURAL LANGUAGE UNDERSTANDING END-TO-END APPLICATIONS NATURAL LANGUAGE GENERATION Tại sao cần tiền xử lý? – Loại bỏ nhiễu – Giảm độ lớn từ vựng – Tăng độ chính xác – Tăng tốc độ DATA + LINGUISTICS + MACHINE LEARNING 3 4 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý 1/ Tách từ 2/ Loại bỏ dấu câu 3/ Chuyển về viết thường 4/ Loại bỏ từ dừng 5/ Loại bỏ từ hiếm túi từ 5 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý 6 Chương 4 Phân lớp văn bản Tf-idf Biểu diễn nhị phân Biểu diễn n-gram boolean(w,d) = 1 nếu w xuất hiện trong văn b ản d học sinh học sinh học Từ: {học_sinh, học, sinh_học} Unigram: {học, sinh, học, sinh, học} Bigram: {học-sinh, sinh-học, học-sinh, sinh-học} = 0 nếu w không xuất hiện trong d ● 7 Đơn giản, không phân biệt tần xu ất xu ất hi ện 8 Chương 4 Phân lớp văn bản Tf-idf Tf Chương 4 Phân lớp văn bản Tf-idf Df tf(w,d): số lần xuất hiện của từ w trong văn bản d ● ● ● Số lần xuất hiện càng cao thì từ càng có vai trò quan trọng trong văn bản df(w): số văn bản từ w xuất hiện ● Từ xuất hiện trong rất nhiều văn b ản thì ít quan trọng Từ dừng có tần xuất xuất hiện cao trong h ầu h ết văn bản nhưng đã bị loại bỏ trong b ước ti ền x ử lý Chưa thể hiện vai trò của từ trong c ả tập văn bản 9 Chương 4 Phân lớp văn bản Tf-idf Tf-idf 10 Chương 4 Phân lớp văn bản Naive Bayes Bayes rule tf-idf(w,d) = tf(w,d) x log N / df(w) ● trong đó N là số lượng văn bản ● 11 Pr(A): xác suất xảy ra sự kiện A Pr(A|B): xác suất điều kiện x ảy ra A bi ết B đã xảy ra 12 T2 T3 T4 T5 T6 T7 CN Trời mưa nắng râm mưa râm mưa ? Chuồn chuồn thấp cao vừa thấp cao vừa thấp Pr(mưa) = 3/6 Pr(nắng) = 1/6 Pr(râm) = 2/6 Pr(thấp|mưa) = 2/3 Pr(cao|mưa) = 0/3 Pr(vừa|mưa) = 1/3 Pr(thấp) = 2/6 Pr(cao) = .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.