Bài báo trình bày cách sử dụng mạng Kohonen để gom cụm các đồ thị đặc trưng văn bản và rút trích các ý chính từ khối văn bản hỗ trợ tạo trích lược thông tin chính trong khối văn bản. Mạng Kohonen do T. Kohonen phát triển vào những năm 1980 và đã được ứng dụng vào bài toán gom cụm phẳng. Mạng Kohonen có thể gom cụm dữ liệu mà không cần chỉ định trước số cụm, ngoài ra mạng Kohonen có khả năng biểu diễn trực quan khối văn bản trên màn hình máy tính thông qua lớp ra Kohonen 2D. | TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 11, SOÁ 05- 2008 GOM CỤM ĐỒ THỊ VÀ ỨNG DỤNG VÀO VIỆC RÚT TRÍCH NỘI DUNG CHÍNH CỦA KHỐI THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng Trường Đại học Công nghệ Thông tin, 1. GIỚI THIỆU Trong các hệ thống trực tuyến, diễn đàn thảo luận là phương tiện hữu hiệu để trao đổi thảo luận. Khối lượng thông tin trao đổi trên diễn đàn thảo luận là rất lớn, hàng tháng có thể lên đến hàng ngàn thông điệp. Với số lượng này, người quản lý diễn đàn sẽ rất khó khăn khi cần nắm bắt các nội dung chính của thông tin trao đổi trên diễn đàn trong một giai đoạn [4]. Bài báo trình bày kết quả nghiên cứu xây dựng một hệ thống gom cụm các thông điệp trên diễn đàn thảo luận, hỗ trợ rút trích nội dung chính trong khối thông điệp. Các thông điệp trên diễn đàn là một dạng văn bản. Để gom cụm thông điệp, cần tìm kiếm mô hình đặc trưng cho văn bản. Các tiếp cận trước đây đã sử dụng mô hình tập hợp từ hay vector từ để đặc trưng cho văn bản. Các mô hình này đã bỏ sót các thông tin quan trọng trong văn bản như vị trí của từ trong văn bản, quan hệ ngữ nghĩa giữa các từ, các liên kết của các văn bản web. Gần đây đã có các công trình nghiên cứu sử dụng đồ thị để đặc trưng văn bản và đã chứng minh được tính vượt trội khi biểu diễn văn bản theo mô hình đồ thị [1],[3],[6]. Sau khi đặc trưng văn bản bằng đồ thị cần phát triển hệ thống gom cụm đồ thị. Bài báo trình bày cách sử dụng mạng Kohonen để gom cụm các đồ thị đặc trưng văn bản và rút trích các ý chính từ khối văn bản hỗ trợ tạo trích lược thông tin chính trong khối văn bản. Mạng Kohonen do T. Kohonen phát triển vào những năm 1980 và đã được ứng dụng vào bài toán gom cụm phẳng. Mạng Kohonen có thể gom cụm dữ liệu mà không cần chỉ định trước số cụm, ngoài ra mạng Kohonen có khả năng biểu diễn trực quan khối văn bản trên màn hình máy tính thông qua lớp ra Kohonen 2D. Chúng tôi đã sử dụng mạng Kohonen để gom cụm đồ thị và tiến hành các nghiên cứu đề xuất cách tính khoảng cách .