Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển. | TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ Trường Đại học Khoa học ĐH Huế Tập 14 Số 1 2019 MỘT PHƢƠNG PHÁP ĐỊNH LƢỢNG GIÁ TRỊ NGÔN NGỮ CHO TẬP MẪU HUẤN LUYỆN TRONG ĐIỀU KIỆN HẠN CHẾ Lê Văn Tƣờng Lân Khoa Công nghệ Thông tin Trường Đại học Khoa học Đại học Huế Email lvtlan@ Ngày nhận bài 01 7 2019 ngày hoàn thành phản biện 02 7 2019 ngày duyệt đăng 02 7 2019 TÓM TẮT Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển. Trong quá trình thuần nhất cần phải biết các giá trị min max của miền trị kinh điển tuy vậy trong thực tế nhiều lúc ta chưa biết cụ thể giá trị min max của thuộc tính đang xét. Trong bài báo này chúng ta xây dựng một cách thức để có thể định lượng các giá trị ngôn ngữ khi không biết miền giá trị min max mà chỉ biết đoạn con 1 2 của chúng. Từ khoá Tập mẫu huấn luyện Giá trị ngôn ngữ Cây quyết định mờ. I. ĐẶT VẤN ĐỀ Cho một tập huấn luyện tất cả các mẫu của tập đều có chung một cấu trúc gồm những cặp một trong những thuộc tính này đại diện cho lớp và ta gọi là thuộc tính dự đoán hay thuộc tính phân lớp. Bài toán phân lớp là bài toán tìm quy tắc xếp các đối tượng vào một trong các lớp đã cho dựa trên tập mẫu huấn luyện. Có nhiều phương pháp tiếp cận bài toán phân lớp Hàm phân biệt tuyến tính Fisher Naïve Bayes Logistic Mạng nơ-ron Cây quyết định trong đó phương pháp cây quyết định là phương pháp phổ biến do tính trực quan dễ hiểu và hiệu quả của nó 2 18 . Trong thế giới thực dữ liệu nghiệp vụ rất đa dạng vì chúng được lưu trữ để phục vụ nhiều công việc khác nhau nhiều thuộc tính đã được thuần nhất miền giá trị trước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính có miền trị chưa thuần nhất 5 7 8