Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ

Trùng lặp nội dung văn bản là vấn đề phổ biến từ các trang báo, trang tin đến các tác phẩm. Bài viết này trình bày việc đề xuất một cải tiến độ đo tương tự dựa trên logic mờ và ứng dụng trong vấn đề phát hiện trùng lặp nội dung bài báo. | TẠP CHÍ KHOA HỌC SỐ 8 2016 105 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ 1 Đỗ Nam Tiến1 Khiếu Văn Bằng1 Nguyễn Tu Trung1 Trần Thành Trung2 Nguyễn Huy Đức3 1 Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam 2 Trường Đại học Sư phạm Hà nội 2 3 Trường Cao ñẳng Sư phạm Trung Ương Tóm tắ tắt Trùng lặp nội dung văn bản là vấn ñề phổ biến từ các trang báo trang tin ñến các tác phẩm. Việc phát hiện trùng lặp là rất cần thiết. Bản chất là kiểm tra sự tương tự giữa các tài liệu. Tuy nhiên ñây là bài toán phức tạp và ñang ñược quan tâm nghiên cứu. Hiện nay có nhiều phương pháp ñược nghiên cứu ñể giải quyết vấn ñề này. Trong bài báo này chúng tôi ñề xuất một cải tiến ñộ ño tương tự dựa trên logic mờ và ứng dụng trong vấn ñề phát hiện trùng lặp nội dung bài báo. Từ khoá khoá Văn bản phát hiện trùng lặp ñộ tương tự. 1. ĐẶT VẤN ĐỀ Trùng lặp nội dung văn bản là hiện tượng phổ biến trong ñời sống. Vì nhiều nguyên nhân các văn bản thường bị sao chép trích dẫn. Đây là lí do mà các văn bản có thể tìm ñược từ nhiều nguồn khác nhau như các trang báo ñiện tử. Vì những lí do khác nhau nhiều khi chúng ta muốn tìm và phát hiện sự trùng lặp giữa các văn bản. Ví dụ liên quan ñến vấn ñề tác quyền tác giả muốn kiểm tra xem nội dung tác phẩm của họ có bị sử dụng dụng lại một cách trái phép hay không. Vấn ñề ñạo nhạc ñạo bài hát tác phẩm văn học. hiện ñang khiến giới chuyên môn bức xúc. Đối với các hệ thống lưu trữ tài liệu việc lưu các văn bản có ñộ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm khi thu thập dữ liệu từ Internet nếu ñánh giá tốt ñộ trùng lặp của dữ liệu mới so với các tài liệu có trong kho dữ liệu sẽ tránh ñược việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vào kho dữ liệu. Vì vậy vấn ñề phát hiện trùng lặp hiện ñang ñược quan tâm. 1 Nhận bài ngày gửi phản biện và duyệt ñăng ngày Liên hệ tác giả Đỗ Nam Tiến Email tiendonam@ 106 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI Phát hiện trùng .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.