Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn cho một văn bản 2 lớp sẵn, cho một văn bản mới vào, ứng dụng phải chỉ ra văn bản đó thuộc chủ đề nào trong các chủ để ban đầu. Bài này sẽ trình bày về phân loại văn bản, thông qua bài giảng người học sẽ cùng tìm hiểu tại sao phải phân loại văn bản, đo độ chính xác, cách phân loại,. . | Phân loại văn bản z Phân loại: (Text Categorization) Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn, sẵn cho một văn bản mới vào, ứng dụng phải chỉ ra văn bản đó thuộc chủ đề nào trong các chủ để ban đầu. Phân loại văn bản Lê Thanh Hương Bộ môn Hệ thống thông tin Viện CNTT&TT 2 1 Tại sao cần PLVB? Phân nhóm văn bản z Là tiếng Việt? z Lọc tin z Chuyển hướng cuộc gọi z Phân loại thư (cuộc hẹn, công việc, khẩn, bạn bè, thư rác, ) z Phân nhóm: (Text Clustering) Là bài toán cho một tập văn bản chưa được phân lớp gì cả ứng dụng phải chia tập cả, văn bản này thành các nhóm dựa trên độ tương đồng giữa chúng. 4 Đo độ chính xác Precision vs. Recall of Good (non-spam) Email Precision vs. Recall of Good (non-spam) Email z Precision = các thư được giữ (đúng) tất cả các thư giữ 100% 100% 75% 50% 25% 0% 0% 25% 50% 75% 100% Precision n Prec cision Đo độ chính xác zR Recallll = các thư được giữ (đúng) các thư đúng Recall 75% 50% 25% OK for search engines (maybe) high threshold: all we keep is good, but we don don’tt keep much point where precision=recall (often reported) would prefer to be here! low threshold: keep all the good stuff, but a lot of the bad too 0% 0% 5 25% 50% Recall 75% 100% OK for spam filtering and legal search 6 1 Các trường hợp đo độ chính xác phức tạp hơn Cách phân loại z Phân lớp nhiều lớp Subject: would you like to . . . . {Độ chính xác trung bình ( hoặc precision hoặc recall) của các phân lớp 2 lớp: thể thao hoặc không, tin tức hoặc không {Tốt hơn, đánh giá chi phí của các lớp lỗi z vd, đánh giá ảnh hưởng của các vấn ấ đề ề sau: • đặt các bài về Thể thao vào mục Tin tức • đặt các bài về Mốt vào mục Tin tức • đặt các bài về Tin tức vào mục Mốt z điều chỉnh hệ thống để giảm thiểu tổng chi phí z Với các hệ thống xếp hạng: {Mức độ liên quan đến xếp hạng của con người {Lấy các phản hồi tích cực từ người dùng Cách phân loại? 1. 2. 7 . . drive a new vehicle for free ? ? ? this is not hype or a hoax , .