Bài viết Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản đề xuất cải tiến đánh giá độ tương tự giữa hai văn bản tiếng Việt và ứng dụng trong hệ thống tra cứu văn bản. | Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN 978-604-82-2981-8 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ VÀ ỨNG DỤNG TRONG TRA CỨU VĂN BẢN Nguyễn Tu Trung Trường Đại học Thủy lợi email trungnt@ 1. GIỚI THIỆU CHUNG hiện kiểm tra một bài báo điện tử được thu thập về xem có giống gần giống với các bài Trùng lặp nội dung văn bản là hiện tượng phổ biến trong đời sống. Vì nhiều nguyên đã được thu thập trước đó hay không. nhân các văn bản thường bị sao chép trích . Độ đo tương tự dẫn. Đối với các hệ thống lưu trữ tài liệu việc lưu các văn bản có độ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm khi thu thập dữ liệu từ Internet nếu đánh giá tốt độ trùng lặp của dữ liệu mới so với các tài liệu có trong kho dữ liệu sẽ tránh được việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vào kho dữ liệu. Phát hiện trùng lặp là bài toán phức tạp vì các văn bản thường không bị sao chép toàn Hình 1. Mô hình không gian vector phần mà chỉ một phần có thể ít có thể nhiều. cho văn bản 4 . Các phần bị sao chép có thể bị thay đổi và Văn bản thường được biểu diễn dưới dạng nằm ở vị trí khác nhau trong văn sao chép. vector dựa theo mô hình tần suất 4 mà tiêu Trong 1 Muneer và cộng sự đã đề xuất biểu là các phương pháp dựa trên tần số TF và thuật toán cho việc thiết lập các cụm trang nghịch đảo tần số IDF . Hình 2 là ví dụ trong web trùng lặp. Ngoài ra Fresno và cộng sự trường hợp biểu diễn văn bản với số Token là đã đề xuất hàm trọng số FCC là hệ mờ cho 2. Về mặt tổng quát số Token rất nhiều ví dụ việc gán các trọng số đặc trưng và sự kết hợp Tổng số âm tiết nếu dùng đặc trưng âm tiết của chúng 2 . Hiện nay trong nước cũng đã Tổng số từ nếu dùng đặc trưng từ . có một số công trình nghiên cứu về việc phát Có một số độ đo được sử dụng như hiện nội dung trùng lặp trong kho văn bản độ tương tự cosine cosine similarity hệ tiếng Việt 3 5 các nghiên cứu cho thấy số Jaccard Jaccard coeficient khoảng cách việc kết hợp các tiêu