Tìm kiếm tương đồng trên mạng dữ liệu không đồng nhất

Bài viết này trình bày cách tiếp cận xây dựng mô hình khai phá mạng dữ liệu không đồng nhất phục vụ cho công tác nghiên cứu khoa học. Cụ thể chú trọng đến việc tìm kiếm sự tương đồng giữa các thực thể trong mạng học thuật không đồng nhất, bao gồm: Hỗ trợ tìm kiếm các đối tượng như là: Tác giả, đồng tác giả, hội nghị tính toán top-k vùng lân cận giữa các đối tượng nhằm hỗ trợ tìm kiếm và biểu diễn trực quan giúp cho người dùng có cái nhìn tổng quan hơn về sự phân bố, độ tương đồng của nhóm tác giả, nhóm hội nghị. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI TÌM KIẾM TƯƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT Nguyễn Văn Gia1 Đỗ Phúc2 1 Công ty CP. Thực phẩm Dinh dƣỡng NutiFood 1 2 Trƣờng ĐH Công nghệ thông tin ĐHQG gianvdba@ phucdo@ TÓM TẮT Khai phá mạng dữ liệu không đồng nhất đang là một xu thế và hướng đi mới trong lĩnh vực khoa học dữ liệu Data Science . Đa số các công bố hiện nay còn dừng ở mức độ giải thuật mô hình hơn là áp dụng thực tế cho việc xây dựng một hệ thống hỗ trợ các nhu cầu thiết thực hiện nay. Bài báo này trình bày cách tiếp cận xây dựng mô hình khai phá mạng dữ liệu không đồng nhất phục vụ cho công tác nghiên cứu khoa học. Cụ thể chú trọng đến việc tìm kiếm sự tương đồng giữa các thực thể trong mạng học thuật không đồng nhất bao gồm Hỗ trợ tìm kiếm các đối tượng như là Tác giả đồng tác giả hội nghị tính toán top-k vùng lân cận giữa các đối tượng nhằm hỗ trợ tìm kiếm và biểu diễn trực quan giúp cho người dùng có cái nhìn tổng quan hơn về sự phân bố độ tương đồng của nhóm tác giả nhóm hội nghị. Nguồn dữ liệu được trích từ DBLP ngày 22 05 2019 với 1 408 606 tác giả 1 965 362 bài báo và 1 746 địa điểm hội nghị Từ khóa Heterogeneous Information Networks Similarity Heterogeneous Representation Learning Metapath2vec Metapath2vec Network Embedding word2vec node2vec. I. GIỚI THIỆU Trong những năm qua cùng với sự phát triển nhanh chóng của công nghệ làm cho kho dữ liệu ngày càng trở nên đồ sộ và lớn dần. Chính điều đó đã đặt ra một thử thách rất lớn trong vấn đề khái thác và biểu diễn trực quan. Xã hội và mạng dữ liệu cùng chứa lƣợng thông tin phong phú và phức tạp có thể hiểu rằng mạng dữ liệu là một ánh xạ của xã hội trong đó có các loại tƣơng tác của con ngƣời. Những tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên NLP 1 có thể đƣợc áp dụng một cách tự nhiên nhƣ word2vec 3 4 . Một số bài báo nghiên cứu gần đây đã đề xuất sử dụng các

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.