Bài giảng Vector hỗ trợ trong máy học (SVM) cung cấp cho người học những kiến thức như: Trực quan hóa kết quả mô hình; Support Vector Regression; Huấn luyện mô hình; Trực quan hóa dữ liệu; .Mời các bạn cùng tham khảo! | SUPPORT VECTOR REGRESSION 1. Hồ Thái Ngọc 2. Lê Ngọc Huy 3. ThS. Võ Duy Nguyên 4. TS. Nguyễn Tấn Trần Minh Khang DATASET Dataset Tên tập dữ liệu Position Salaries. Nguồn https pages machine- learning. Tập dữ liệu gồm 10 điểm dữ liệu mỗi điểm dữ liệu gồm 3 thuộc tính gồm Vị trí công việc Position mô tả tên một công việc. Cấp bậc Level là một số nguyên trong khoảng 1 10 tương ứng với vị trí cao hay thấp trong một công ty. Mức lương Salary là một số thực dương. Dataset Position Level Salary Position Level Salary Business Analyst Region Manager Junior Consultant Partner Senior Consultant Senior Partner Manager C-level Country Manager CEO Dataset Bài toán Dự đoán mức lương của một người khi biết được cấp độ vị trí công việc của người đó. Ta sẽ sử dụng mô hình Support Vector Regression để giải quyết bài toán này. TRỰC QUAN HÓA DỮ LIỆU Trực quan hóa dữ liệu Trực quan hóa dữ liệu Đọc dữ liệu từ file csv và phân tách các giá trị Giá trị đầu vào ký hiệu là X Giá trị đầu ra ký hiệu là Y. 1. import pandas as pd 2. dataset quot quot 3. X 1 -1 .values 4. Y -1 . -1 1 Trực quan hóa dữ liệu Ta vẽ các điểm level salary lên mặt phẳng tọa độ để xem xét sự tương quan giữa cấp độ công việc và mức lương. 5. import as plt 6. X Y color quot red quot 7. quot Position Level vs Salary quot 8. quot Position Level quot 9. quot Salary dollars year quot Trực quan hóa dữ liệu Tập dữ liệu này không có dạng một đường thẳng. Do đó Linear Regression sẽ không hoạt động tốt trên tập dữ liệu này. TIỀN XỬ LÝ DỮ LIỆU Tiền xử lý dữ liệu Trong thuật toán SVR dữ liệu nên thỏa mãn 2 điều kiện sau Kỳ vọng bằng 0. Phương sai bằng 1. Do đó ta cần chuẩn hóa dữ liệu trước khi huấn luyện mô hình. Tiền xử lý dữ liệu Lớp StandardScaler trong module đã được xây dựng sẵn để chuẩn hóa dữ liệu về dạng trên. .