Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. nội dung chi tiết. | Chương 4 Phân lớp văn bản Tf-idf Naive Bayes LibSVM IT4772 Xử lý ngôn ngữ tự nhiên Viện CNTT-TT, ĐHBKHN 2 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý INFORMATION EXTRACTION ● NATURAL LANGUAGE UNDERSTANDING END-TO-END APPLICATIONS NATURAL LANGUAGE GENERATION Tại sao cần tiền xử lý? – Loại bỏ nhiễu – Giảm độ lớn từ vựng – Tăng độ chính xác – Tăng tốc độ DATA + LINGUISTICS + MACHINE LEARNING 3 4 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý 1/ Tách từ 2/ Loại bỏ dấu câu 3/ Chuyển về viết thường 4/ Loại bỏ từ dừng 5/ Loại bỏ từ hiếm túi từ 5 Chương 4 Phân lớp văn bản Tf-idf Tiền xử lý 6 Chương 4 Phân lớp văn bản Tf-idf Biểu diễn nhị phân Biểu diễn n-gram boolean(w,d) = 1 nếu w xuất hiện trong văn b ản d học sinh học sinh học Từ: {học_sinh, học, sinh_học} Unigram: {học, sinh, học, sinh, học} Bigram: {học-sinh, sinh-học, học-sinh, sinh-học} = 0 nếu w không xuất hiện trong d ● 7 Đơn giản, không phân biệt tần xu ất xu ất hi ện 8 Chương 4 Phân lớp văn bản Tf-idf Tf Chương 4 Phân lớp văn bản Tf-idf Df tf(w,d): số lần xuất hiện của từ w trong văn bản d ● ● ● Số lần xuất hiện càng cao thì từ càng có vai trò quan trọng trong văn bản df(w): số văn bản từ w xuất hiện ● Từ xuất hiện trong rất nhiều văn b ản thì ít quan trọng Từ dừng có tần xuất xuất hiện cao trong h ầu h ết văn bản nhưng đã bị loại bỏ trong b ước ti ền x ử lý Chưa thể hiện vai trò của từ trong c ả tập văn bản 9 Chương 4 Phân lớp văn bản Tf-idf Tf-idf 10 Chương 4 Phân lớp văn bản Naive Bayes Bayes rule tf-idf(w,d) = tf(w,d) x log N / df(w) ● trong đó N là số lượng văn bản ● 11 Pr(A): xác suất xảy ra sự kiện A Pr(A|B): xác suất điều kiện x ảy ra A bi ết B đã xảy ra 12 T2 T3 T4 T5 T6 T7 CN Trời mưa nắng râm mưa râm mưa ? Chuồn chuồn thấp cao vừa thấp cao vừa thấp Pr(mưa) = 3/6 Pr(nắng) = 1/6 Pr(râm) = 2/6 Pr(thấp|mưa) = 2/3 Pr(cao|mưa) = 0/3 Pr(vừa|mưa) = 1/3 Pr(thấp) = 2/6 Pr(cao) = .