Xây dựng quy trình và thuật toán để phân loại tài liệu TBT

Trong bài viết này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán. | KHOA HỌC - ỨNG DỤNG XÂY DỰNG QUY TRÌNH VÀ THUẬT TOÁN ĐỂ PHÂN LOẠI TÀI LIỆU TBT ThS. NGUYỄN MINH ĐẾ TÓM TẮT Trong bài báo này trình bày bài toán Phân loại Tài liệu TBT mà có hai công việc chính quy trình phân loại và thuật toán thực hiện được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán. Bài báo đưa ra hai phương pháp để phân loại tài liệu TBT gồm có hai hướng chính theo mô hình phân loại tài liệu TBT và theo nội dung tài liệu TBT. Mô hình của phân loại tài liệu sẽ được xây dựng theo mô hình Taxonomy phân cấp và trong việc phân cấp sẽ sử dụng các bảng khung phân loại cho trước. Phương pháp phân loại tài liệu TBT theo nội dung thì thực hiện theo một quy trình xử lý thống nhất và có sử dụng hai kỹ thuật mô hình N-Gram và tính trọng số TF-IDF. Từ khóa Chỉ số phân loại CSPL mô hình Taxonomy phân loại tài liệu theo mô hình phân loại tài liệu theo nội dung mô hình N-Gram trọng số TF-IDF. SUMMARY In this paper we present the problem of TBT Document Classification which has two major tasks classification process and executive algorithm which is considered as one of essential components in developing a Smart System. This classification process has steps in a unified process and it has characteristics as an algorithm. This paper proposes two methods for TBT Document Classification these two methods consist of two main directions according to the model of TBT Document Classification and according to the content of TBT documents. The model of Document Classification will be constructed in hierarchical Taxonomy model and this hierarchy will be based on given classification tables frames. The method of content-based TBT Document Classification is performed in a unified treatment process with two techniques N-Gram model and TF-IDF weighting. Key words Categorical Indicator CI Taxonomy Model Document .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.