Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain trình bày tổng quan về bài toán tổng quan về bài toán phân lớp văn bản, tiếp cận bài toán phân lớp tiếp cận bài toán phân lớp văn bản tiếng Việt theo hướng lexical chain. . | Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương 4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản Mô hình tần số kết hợp TF x IDF Mô hình vector Xét: Văn bản = 1 vector n chiều + trọng số cho mỗi giá trị của nó Tập dữ liệu gồm m văn bản: D = {d1, d2, dm}. Mô hình vector thưa Mỗi văn bản biểu diễn dưới dạng ạ g mộtộ vector ggồm n thuậtậ sốố từ với ới ttrọng số ố khác khá 0 nhỏ hỏ hơn h rất ất nhiều hiề so với ới số ố từ có ó ngữ T = {t1, t2, tn}. trong Cơ sở dữ liệu fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj m là số lượng văn bản hi là số văn bản mà thuật ngữ ti xuất hiện Gọi W = {wij } là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti trong văn bản dj Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản (tt) Mô hình Lexical Chain: Ma trận trọng số TFxIDF được tính như sau: “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa các từ trong văn bản có mối liên quan với nhau về mặt ngữ nghĩa g ⎧ ⎛m⎞ Một số loại quan hệ về ngữ nghĩa giữa các từ: ⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ 1 Lặp lại (Repeatation) wij = ⎨ ⎝ hi ⎠ Đồng nghĩa (synonyms ) ⎪ Trái nghĩa () ⎩0 nÕu ng−îc l¹i Bộ phận-Toàn thể (hypernyms, hyponyms ) Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} 1 4/21/2011 Các thuật toán giải quyết bài toán Phân lớp văn bản Thuật toán Cây quyết định Thuật toán cây quyết định. Cây quyết định gồm các nút quyết định, các nhánh và lá : Mỗi lá gắn với một nhãn lớp, Thuật toán k-NN. Mỗi nút quyết định mô tả một phép thử X nào đó, Thuật toán Lexical Chain. Mỗi nhánh của nút .