Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớn

Bài viết này đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF (Term Frequency-Inverse Document Frequency), biểu diễn văn bản thành dạng không gian vectơ, tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài liệu có độ tương đồng cao nhất. | Trần Thanh Điện Nguyễn Ngọc Tuấn Nguyễn Thanh Hải Nguyễn Thái Nghe 171 Tăng Tốc Tìm Kiếm Tài Nguyên Học Tập Theo Nội Dung Bằng Kỹ Thuật Xử Lý Dữ Liệu Lớn Trần Thanh Điện1 Nguyễn Ngọc Tuấn2 Nguyễn Thanh Hải1 Nguyễn Thái Nghe1 1 Khoa Công nghệ Thông tin và Truyền thông Trường Đại học Cần Thơ thanhdien ntnghe @ 2 Ban Phát triển Hệ thống Công nghệ Thông tin Trường Đại học Trà Vinh ngoctuan@ Tóm tắt. Học tập trực tuyến là một giải pháp khá hữu hiệu trong môi trường giáo dục đào tạo. Tuy nhiên người học còn gặp nhiều khó khăn trong tìm kiếm tài nguyên học tập do tên các tài nguyên khi được lưu trữ chưa phản ánh được từ khóa người dùng mong đợi. Vì vậy làm cách nào để tìm chính xác các từ khóa trong nội dung tài nguyên học tập thay vì tìm kiếm thông thường từ các meta-data là rất cần thiết để hỗ trợ người học tiết kiệm thời gian công sức. Hiện có nhiều nghiên cứu về tìm kiếm tài nguyên học tập theo nội dung đã cho kết quả khá chính xác tuy nhiên khi khối lượng tài nguyên ngày càng tăng thì việc tìm kiếm vận hành khá chậm. Bài viết này đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt loại bỏ từ dừng tính trọng số TF-IDF Term Frequency-Inverse Document Frequency biểu diễn văn bản thành dạng không gian vectơ tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài liệu có độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song song rút ngắn thời gian tìm kiếm hơn rất nhiều so với tìm kiếm truyền thống trong khi độ chính xác không thay đổi. Từ khóa Tài nguyên học tập tìm kiếm dựa trên nội dung dữ liệu lớn Hadoop MapReduce độ tương đồng. Abstract. Online learning is a quite effective solution in education and training environment. Howev- er learners still face many difficulties in searching learning resources because .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
18    53    0
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
427    245    2    19-05-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.