Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt

Bài viết này trình bày một hướng tiếp cận phân lớp các bản tin tiếng Việt không dựa trên nội dung toàn văn của bản tin đó. Qua đó đề xuất sử dụng một trong hai thông tin: 1-tóm tắt; 2-từ khóa đại diện, trong đó tóm tắt và từ khóa đại diện được tạo tự động từ nội dung của văn bản, để phân lớp văn bản. | Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt Trương Quốc Định Trần Thị Thúy Trần Thị Cẩm Tú Huỳnh Kim Quýt Khoa CNTT&TT Khoa Kỹ thuật Công nghệ Khoa Kỹ thuật Công nghệ Khoa CNTT Trường Đại học Cần Thơ Trường Đại học Cửu Long Trường Đại học Cửu Long Trường Đại học Tiền Giang Cần Thơ, Việt Nam Vĩnh Long, Việt Nam Vĩnh Long, Việt Nam Tiền Giang, Việt Nam tqdinh@ tranthithuy@ tranthicamtu@ huynkimquyt@ Tóm tắt—Trong bài báo này chúng tôi trình bày một hướng tiếp cận phân lớp các bản tin tiếng Việt mà không dựa trên nội dung toàn văn của bản tin đó. Chúng tôi đề xuất sử dụng một trong hai thông tin: 1tóm tắt; 2- từ khóa đại diện, trong đó tóm tắt và từ khóa đại diện được tạo tự động từ nội dung của văn bản, để phân lớp văn bản. Chúng tôi sử dụng tổng cộng 2000 bản tin được tải về từ các trang báo điện tử như , để kiểm thử giải pháp đề xuất. Kết quả thực nghiệm cho thấy hướng tiếp cận không toàn văn cho bài toán phân lớp văn bản là khả thi và có thể cải tiến để ứng dụng thực tế. Từ khóa: phân loại văn bản; tóm tắt tự động; mô hình chủ đề; cây quyết định. I. GIỚI THIỆU Bài toán phân loại văn bản (text classification) là bài toán cơ bản của lĩnh vực khai phá văn bản (text mining). Phân loại văn bản chính là gán nhãn (lớp/chủ đề) một cách tự động dựa vào nội dung của văn bản. Phân loại văn bản được ứng dụng trong nhiều lĩnh vực như tìm kiếm thông tin, lọc văn bản, tổng hợp tin tức tự động, thư viện điện tử. Hình 1. Phân lớp văn bản Bài toán phân loại văn bản có thể được định nghĩa như sau. Từ một tập các văn bản D = {d1, d2, , dn}, được gọi là tập huấn luyện, trong đó các tài liệu di được gán nhãn chủ đề ci với ci thuộc tập các chủ đề C = {c1, c2, , cn} để xây dựng bộ phân lớp. Nhiệm vụ của bộ phân lớp là gán đúng nhãn chủ đề ck cho một tài

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.