Bài viết này trình bày một số kỹ thuật liên quan như: thu thập dữ liệu, các phương pháp xử lý và phân tích dữ liệu MXH Twitter. Các dữ liệu thu thập từ mạng xã hội Twitter bao gồm: Thông tin người dùng, thông tin mạng, thông tin người theo dõi và bạn bè, các nội dung Tweets | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Nha Trang ngày 8-9 10 2020 DOI THU THẬP XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI TWITTER BẰNG PHƯƠNG PHÁP NHÚNG THÔNG TIN NÚT Phan Đăng Khoa Vũ Đức Thi Viện Công nghệ Thông tin Đại học Quốc gia Hà Nội khoapd@ vdthi@ TÓM TẮT Twitter là một mạng xã hội trực tuyến lớn và miễn phí. Việc thu thập xử lý và phân tích dữ liệu Mạng xã hội MXH nói chung và Twitter nói riêng là một lĩnh vực nghiên cứu có ứng dụng rất phong phú có thể áp dụng vào rất nhiều lĩnh vực trong đời sống xã hội như thương mại điện tử marketing quảng cáo trực tuyến văn hóa chính trị . Bài báo này trình bày một số kỹ thuật liên quan như thu thập dữ liệu các phương pháp xử lý và phân tích dữ liệu MXH Twitter. Các dữ liệu thu thập từ mạng xã hội Twitter bao gồm thông tin người dùng thông tin mạng thông tin người theo dõi và bạn bè các nội dung Tweets. Sau đó chúng tôi thực hiện một số thử nghiệm bằng các kỹ thuật như node2vec K-means để xử lý và phân tích dữ liệu thu thập được. Từ khóa Social Network analysis network embeddings node embeddings Twitter. I. GIỚI THIỆU Twitter là một dịch vụ mạng xã hội trực tuyến miễn phí nó là một dạng micro-blog cho phép ngƣời sử dụng đọc nhắn và cập nhật các mẩu tin nhỏ gọi là Tweet. Các Tweet có giới hạn tối đa 280 ký tự đƣợc lan truyền nhanh chóng trong phạm vi nhóm bạn của ngƣời nhắn hoặc có thể đƣợc đăng rộng rãi cho mọi ngƣời. Không giống nhƣ các nền tảng MXH khác hầu hết các Tweets của ngƣời dùng trên Twitter cũng nhƣ thông tin khác liên quan đến ngƣời dùng đều hoàn toàn công khai và có thể thu thập đƣợc. Đây là một đặc điểm thuận thợi để chúng ta có thể thu thập một lƣợng lớn dữ liệu và thực hiện các phân tích với chúng. Twitter API cho phép thực hiện từ các truy vấn đơn giản nhƣ lấy thông tin và Tweets của một ngƣời dùng đến các truy vấn phức tạp hơn nhƣ lấy tất cả các Tweets về một chủ đề nào đó có chứa một từ khóa nào .