Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt

Bài viết so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI SỰ ẢNH HƯỞNG CỦA PHƯƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT Phạm Nguyên Khang Trần Nguyễn Minh Thƣ Phạm Thế Phi Đỗ Thanh Nghị Khoa Công nghệ thông tin amp Truyền thông Trƣờng Đại học Cần Thơ pnkhang tnmthu ptphi dtnghi @ TÓM TẮT Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt ngoài từ đơn một âm tiết còn có từ ghép đa âm tiết . Điều này gây khó khăn cho việc tách từ tự động một cách chính xác ảnh hưởng đến kết quả của các bài toán phân tích dữ liệu văn bản như gom nhóm phân lớp văn bản. Hai tiếp cận chính để tách từ là dựa trên từ điển và thống kê hoặc kết hợp hai tiếp cận . Trong bài toán phân lớp văn bản tách từ mới chỉ là bước tiền xử lý và biểu diễn dữ liệu. Bước kế tiếp là sử dụng một mô hình máy học để huấn luyện bộ phân lớp. Đối với một số mô hình máy học như máy học véc-tơ hỗ trợ SVM phân tích thành phần chính phân tích tương ứng các từ ghép có thể được phát hiện dựa vào sự đồng xuất hiện của các âm tiết mà không cần đến một bước tách từ chính xác. Trong bài báo này chúng tôi nghiên cứu so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6 000 văn bản thuộc 10 chủ đề và tập dữ liệu 105 293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt. Từ khóa Tách từ phương pháp tách từ tiếng Việt xử lý ngôn ngữ tự nhiên phân lớp văn bản. I. GIỚI THIỆU Với sự phát triển nhanh chóng của công nghệ thông tin nguồn thông tin trực tuyến online dƣới dạng văn bản xuất hiện càng ngày càng nhiều. Nguồn thông tin này đến

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.