Bài viết này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ nóng” của các chủ đề được phân cụm. | Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến Nghiên cứu khoa học công nghệ MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NÓNG TRÊN CÁC TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN PHÂN CỤM DBSCAN CẢI TIẾN Nguyễn Nhật An*, Cao Đăng Huy Tóm tắt: Hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, số lượng thông tin được chuyển tải trên các trang thông tin điện tử (báo điện tử, mạng xã hội, blog.) càng lớn. Việc theo dõi thông tin nhằm phát hiện ra các vấn đề mới, nóng (chủ đề nóng) được dư luận quan tâm, theo dõi chiều hướng phát triển của chúng để dự báo các nguy cơ được xem là rất quan trọng đối với nhiều lĩnh vực, đặc biệt đối với lĩnh vực an ninh quốc phòng. Bài báo này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ nóng” của các chủ đề được phân cụm. Từ khoá: Chủ đề nóng tiếng Việt; Thuật toán phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề. 1. ĐẶT VẤN ĐỀ . Giới thiệu Với sự phát triển nhanh chóng của công nghệ thông tin, thông tin các sự kiện xảy ra được đăng tải trên các trang thông tin điện tử trên Internet đã trở thành một trong những nguồn thông tin quan trọng. Theo báo cáo thống kê của Bộ Thông tin và Truyền thông, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internet lớn, đạt tỷ lệ khoảnglà 62,76% dân số [1]. Số báo điện tử là 135, chủ yếu là báo điện tử của các cơ quan báo chí in; Số trang thông tin điện tử của các cơ quan báo chí được cấp phép là 258 [2], ngoài ra, còn hàng trăm trang tin không chính thống cũng tham gia tổng hợp, truyền tải thông tin trên mạng. Khi có một sự kiện xảy ra, lập tức các phóng viên viết bài và đăng trên trang thông tin điện tử của mình với các quan điểm khác nhau, số lượng thông tin tăng lên nhanh chóng. Do vậy, việc phát hiện, phân cụm chủ .