Bài viết này nghiên cứu phương pháp phân lớp dữ liệu dựa vào kỹ thuật lựa chọn đặc trưng với phụ thuộc hàm xấp xỉ và độ đo lỗi g3. Một số thử nghiệm phân lớp trên các tập dữ liệu thực tế cho thấy sự phù hợp của hướng nghiên cứu. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Nha Trang ngày 8-9 10 2020 DOI PHÂN LỚP DỮ LIỆU DỰA VÀO PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ Phan Anh Phong Lê Văn Thành Nguyễn Hải Yến Viện Kỹ thuật và Công nghệ Trƣờng Đại học Vinh phongpa@ nguyenhaiyen1632@ TÓM TẮT Lựa ch n ặc trưng là kỹ thuật ch n ra một tập con các ặc trưng phù hợp liên quan từ tập dữ liệu gốc bằng cách loại bỏ các ặc trưng nhiễu dư thừa không liên quan nhằm tăng hiệu năng cũng như giảm chi phí trong quá trình khai phá dữ liệu hay h c máy. Bài báo này nghiên cứu phương pháp phân lớp dữ liệu dựa vào kỹ thuật lựa ch n ặc trưng với phụ thuộc hàm xấp xỉ và ộ o lỗi g3. Một số thử nghiệm phân lớp trên các tập dữ liệu thực tế cho thấy sự phù hợp của hướng nghiên cứu. Từ khóa Phân lớp dữ liệu lựa ch n ặc trưng phụ thuộc hàm xấp xỉ. I. GIỚI THIỆU Lựa chọn đặc trƣng là một trong những vấn đề quan trọng trong lĩnh vực khai phá dữ liệu và học máy. Mục đích chính của lựa chọn đặc trƣng là tìm ra các đặc trƣng hữu ích để mô hình hóa hệ thống theo đó làm tăng hiệu năng và giảm thời gian thực hiện cho hệ thống. Về bản chất lựa chọn đặc trƣng là quá trình tính toán mức độ quan trọng của từng đặc trƣng hoặc từng nhóm đặc trƣng và sau đó chọn tập con hữu ích nhất trong không gian đặc trƣng đó để xây dựng hệ thống 2 5 6 . Phân lớp dữ liệu là một bài toán tiêu biểu của khai phá dữ liệu phần lớn dữ liệu trong bài toán phân lớp khi thu thập đƣợc đều có số đặc trƣng thuộc tính rất nhiều có thể lên tới hàng chục hàng trăm thậm chí là hàng nghìn đặc trƣng chẳng hạn nhƣ các bộ dữ liệu trong y tế trong sinh học . Ngoài ra các đặc trƣng này có thể có những đặc trƣng dƣ thừa và ít hữu ích cho khai phá dữ liệu và học máy. Việc xây dựng mô hình phân lớp từ dữ liệu nhƣ vậy có thể dẫn đến hiệu năng phân lớp thấp cả về tốc độ và khả năng dự báo vì trong dữ liệu có những đặc trƣng nhiễu .