Luận án tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng vào phân lớp văn bản tiếng Việt. | ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy . Phan Xuân Hiếu Phản biện: PGS. TS Lương Chi Mai. Viện CNTT, Viện Hàn lâm KH&CNVN Phản biện: Đỗ Văn Thành . Bộ Kế hoạch và Đầu tư . Phản biện: TS. Nguyễn Thị Minh Huyền . Trường Đại học Khoa học Tự nhiên, ĐHQGHN Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN vào hồi 09 giờ ngày 12 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà MỞ ĐẦU Tính cấp thiết của luận án Phân lớp là một trong những bài toán điển hình trong khai phá dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng với nhiều nhãn. Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa nhãn như vấn đề mối quan hệ giữa các