Bài giảng "Xử lý ngôn ngữ tự nhiên: Phân loại văn bản" cung cấp cho người học các kiến thức: Phân loại văn bản, phân nhóm văn bản, cách phân loại, mô hình vector, danh sách quyết định, các đặc trưng ngoài Unigrams,. . | Bài giảng Xử lý ngôn ngữ tự nhiên: Phân loại văn bản - Lê Thanh Hương Phân loại văn bản z Phân loại: (Text Categorization) Phân loại văn bản Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn, sẵn cho một văn bản Lê Thanh Hương mới vào, ứng dụng phải chỉ ra văn bản đó thuộc chủ đề Bộ môn Hệ thống thông tin nào trong các chủ để ban đầu. Viện CNTT&TT 1 2 Phân nhóm văn bản Tại sao cần PLVB? z Là tiếng Việt? z Phân nhóm: (Text Clustering) Là bài toán cho một tập văn z Lọc tin bản chưa được phân lớp gì z Chuyển hướng cuộc gọi cả ứng dụng phải chia tập cả, văn bản này thành các nhóm z Phân loại thư (cuộc hẹn, công việc, khẩn, dựa trên độ tương đồng giữa bạn bè, thư rác, ) chúng. 4 Đo độ chính xác Đo độ chính xác Precision vs. Recall of Good (non-spam) Email z Precision = Precision vs. Recall of OK for search các thư được giữ (đúng) Good (non-spam) Email engines (maybe) 100% tất cả các thư giữ high threshold: would prefer cision 75% 100% all we keep is good, to be here! Precision n 50% but we don don’tt keep much Prec zR Recallll = 75% 25% các thư được giữ (đúng) 0% 0% 25% 50% 75% 100% các thư đúng 50% point where low threshold: Recall precision=recall keep all the good stuff, 25% (often reported) but a lot of the bad too OK for spam 0% filtering and 0% 25% 50% 75% 100% legal search 5 Recall 6 1 Các trường hợp đo độ chính xác phức Cách phân loại tạp hơn z Phân lớp nhiều lớp Subject: would you like to . . . . {Độ chính xác trung bình ( hoặc precision hoặc recall) . . drive a new vehicle for free ? ? ? this is not hype or a hoax , there are hundreds of people driving brand new cars , của các phân lớp 2 lớp: thể thao hoặc không, tin tức suvs , minivans , trucks , or rvs . it does not matter to us hoặc không what type of vehicle you choose . if you qualify for our {Tốt hơn,