Bài viết Thuật toán lựa chọn phương pháp tỉ lệ dữ liệu đề xuất phương pháp sử dụng giải thuật di truyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Với các bạn chuyên ngành Sinh học thì đây là tài liệu hữu ích. | T¹p chÝ KTKT Má - §Þa chÊt, sè 43/7-2013, tr. 100-103 THUẬT TOÁN LỰA CHỌN PHƯƠNG PHÁP TỈ LỆ DỮ LIỆU ĐẶNG HỮU NGHỊ, HOÀNG KIM BẢNG, BÙI THỊ VÂN ANH Trường Đại học Mỏ - Địa chất Tóm tắt: Máy tựa vector (Support Vector Machine – SVM) là một kỹ thuật hữu ích cho việc phân loại dữ liệu. Việc tỉ lệ giá trị của các thuộc tính trong tập dữ liệu huấn luyện cũng như tập dữ liệu kiểm thử về cùng một phạm vi (gọi tắt là tỉ lệ dữ liệu) trước khi áp dụng SVM là một bước rất quan trọng. Khi thiếu thông tin người ta thường tỉ lệ giá trị của các thuộc tính về cùng một phạm vi với cùng một phương pháp. Có 3 phương pháp tỉ lệ dữ liệu thường được sử dụng là: trung bình 0 và độ lệch chuẩn 1, tầm trung 0 và phạm vi 2, hoặc khi ý nghĩa về độ lớn là phi tuyến giá trị của các thuộc tính có thể được tỉ lệ bằng cách lấy logarit (hoặc lấy căn bậc 3) sau đó tiếp tục tỉ lệ kết quả nhận được bằng phương pháp tầm trung 0 và phạm vi 2. Trong bài báo này chúng tôi đề xuất phương pháp sử dụng giải thuật di truyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Kết quả thực nghiệm cho thấy trong nhiều trường hợp phương pháp mà chúng tôi đề xuất tốt hơn phương pháp vẫn thường được sử dụng đó là tỉ lệ giá trị của tất cả các thuộc tính theo cùng một phương pháp. 1. Mở đầu SVM là một kỹ thuật mới được sử dụng cho việc phân tích hồi quy và phân loại dữ liệu. Nhằm giảm độ phức tạp tính toán (vì các giá trị kernel được tính bởi tính vô hướng của các vector đặc trưng) cũng như tăng độ chính xác, khi áp dụng SVM dữ liệu cần phải được tỉ lệ về khoảng [-1,1] hoặc [0,1]. Trong [4] các tác giả giải thích tại sao chúng ta phải tỉ lệ dữ liệu khi sử dụng mạng Nơron, điều này cũng tương tự như khi chúng ta sử dụng SVM. Một phương pháp tiêu chuẩn để điều chỉnh giá trị của các thuộc tính là lấy giá trị của mỗi thuộc tính trừ đi giá trị trung bình của nó sau đó tiếp tục chia giá trị của các thuộc tính cho giá trị độ lệch chuẩn của thuộc tính đó. Kết quả của phương pháp này là hầu hết các .