Ứng dụng giải thuật Singular Value Decomposition trên nền hệ thống phân tán vào bài toán phát hiện sao chép

Bài viết tiến hành đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính, nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI ỨNG DỤNG GIẢI THUẬT SINGULAR VALUE DECOMPOSITION TRÊN NỀN HỆ THỐNG PHÂN TÁN VÀO BÀI TOÁN PHÁT HIỆN SAO CHÉP Nguyễn Võ Thông Thái 1 Bùi Võ Quốc Bảo2 Huỳnh Phụng Toàn2 Trần Cao Đệ2 1 Trung tâm Công nghệ phần mềm Đại học Cần Thơ 2 Khoa Công nghệ thông tin amp Truyền thông Đại học Cần Thơ nvtthai@ bvqbao@ hptoan@ tcde@ TÓM TẮT Ngày nay có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo văn nói chung và sao chép luận văn đồ án nói riêng có thể nói là những mặt tiêu cực phổ biến hiện nay cần được phát hiện và ngăn chặn. Các phương phát phát hiện sao chép tài liệu mới nhất được công bố trong các Hội thảo PAN Workshop vừa qua thường dựa trên lập chỉ mục nghịch đảo cho cụm 4 từ 4-gram . Việc xác định một tập hợp con các tài liệu tiềm năng có thể bị sao chép dựa trên ngưỡng số 4-gram chung cho thấy một số hạn chế như tập tiềm năng có thể rất lớn và không thể xếp độ ưu tiên theo số lượng 4-gram chung nên có thể dẫn đến việc tìm kiếm sao chép lâu. Trong bài báo này chúng tôi đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp ranking chúng từ đó có thể hạn chế số lượng tập tin cần phân tích so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ. Từ khóa Đạo văn tách giá trị đơn xử lý phân tán tính toán song song. I. GIỚI THIỆU Vấn đề hay vấn nạn sao chép tài liệu đạo văn ngày nay đang là một vấn đề .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
6    300    1    27-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.