Mạng nơron SOM được ứng dụng chủ yếu trong các bài toán phân cụm dữ liệu. Tuy nhiên, tập dữ liệu vào cho những bài toán này thường rất lớn ảnh hứớng tới thời gian tính toán. Bài báo này trình bày hai giải pháp để cải thiện thời gian tính toán của mạng gồm: thu hẹp phạm vi tìm kiếm nơron chiến thắng và xử lý dữ liệu song song dựa trên kiến trúc mạng phân tầng. Đồng thời trình bày kết quả cài đặt thử nghiệm và đánh giá hiệu quả của mỗi giải pháp. | Lê Anh Tú và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 116 (02): 79 - 84 MỘT SỐ GIẢI PHÁP CẢI TIẾN NHẰM TĂNG TỐC ĐỘ THUẬT TOÁN MẠNG NƠRON SOM Lê Anh Tú1*, Lê Sơn Thái1, Nguyễn Quang Hoan2 1 Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên, 2 Học viện Công nghệ Bưu chính Viễn thông TÓM TẮT Mạng nơron SOM đƣợc ứng dụng chủ yếu trong các bài toán phân cụm dữ liệu. Tuy nhiên, tập dữ liệu vào cho những bài toán này thƣờng rất lớn ảnh hƣớng tới thời gian tính toán. Bài báo này trình bày hai giải pháp để cải thiện thời gian tính toán của mạng gồm: thu hẹp phạm vi tìm kiếm nơron chiến thắng và xử lý dữ liệu song song dựa trên kiến trúc mạng phân tầng. Đồng thời trình bày kết quả cài đặt thử nghiệm và đánh giá hiệu quả của mỗi giải pháp. Từ khóa: SOM, Kohonen, BMU, phân tầng, phân cụm dữ liệu GIỚI THIỆU* Mạng nơron SOM đƣợc Teuvo Kohonen phát triển vào những năm 80 [1]. Đây là một công cụ thích hợp để giải bài toán phân cụm dữ liệu, một bƣớc tiền xử lý quan trọng trong khai phá dữ liệu [2]. Khi áp dụng mạng nơron SOM để phân cụm dữ liệu, cần thực hiện theo 3 giai đoạn: Giai đoạn 1: Huấn luyện mạng bằng tập dữ liệu mẫu. Trong trƣờng hợp tập dữ liệu huấn luyện chƣa đủ lớn thì quá trình huấn luyện có thể đƣợc lặp lại nhiều lần với cùng một tập mẫu cho tới khi mạng đạt trạng thái cân bằng. Giai đoạn 2: Phân cụm nơron (thƣờng sử dụng thuật toán tích tụ [10]) hoặc trực quan mạng để quan sát [11]. Giai đoạn 3: Áp dụng mạng đã huấn luyện để phân cụm (với mỗi phần tử trong tập dữ liệu cần phân cụm, tìm trên ma trận Kohonen nơron có đặc trƣng khớp nhất và gán nhãn phần tử vào nơron này). Tuy nhiên, thuật toán SOM đòi hỏi thời gian tính toán lớn (cả thời gian huấn luyện và áp dụng mạng đã huấn luyện) vì một số lý do sau: Thứ nhất, tập dữ liệu huấn luyện hoặc số lần huấn luyện phải đủ lớn để mạng đạt đƣợc trạng thái cân bằng. Thứ hai, dữ liệu đƣợc đƣa vào mạng một cách tuần tự, sau đó với mỗi phần tử dữ liệu đƣợc * Tel: 0989 199088, Email: latu@ đƣa vào .