Bài viết Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Kết quả cho thấy phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung Khoa CNTT-TT, Trường ĐHCT dtnghi@ TÓM TẮT - Trong bài viết này, chúng tôi đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Giải thuật rừng ngẫu nhiên của Breiman đề xuất là giải thuật phân lớp chính xác khi so sánh với các giải thuật học có giám sát hiện nay. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên giảm hiệu quả. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ, k láng giềng. Kết quả thử nghiệm trên các tập dữ liệu gen từ website cho thấy rằng giải thuật rừng ngẫu nhiên sử dụng luật gán nhãn cục bộ do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy. Từ khóa - Rừng ngẫu nhiên, cây quyết định, luật gán nhãn, luật cục bộ, k láng giềng, phân lớp dữ liệu nhiều chiều. I. GIỚI THIỆU Phân lớp dữ liệu hay học có giám sát là một trong bốn nhóm bài toán quan trọng của khám phá tri thức và khai mỏ dữ liệu [Han et al., 2011]. Phân lớp dữ liệu xây dựng mô hình phân lớp từ tập dữ liệu có nhãn (lớp) đã được định nghĩa trước, để thực hiện gán nhãn tự động cho từng phần tử dữ liệu mới đến. Phân lớp dữ liệu có số chiều lớn được biết là một trong 10 vấn đề khó của cộng đồng khai mỏ dữ liệu [Yang & Wu, 2006]. Mô hình học phân lớp thường cho kết quả tốt trong khi học nhưng lại cho kết quả rất thấp trong tập kiểm tra. Vấn đề khó khăn thường gặp chính là số chiều quá lớn và dữ liệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phân lớp tốt có