Bài giảng "Học máy - Bài 2: Học có giám sát" cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,. . | Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@ Website môn học: Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2 K-Nearest Neighbor classifier (KNN) • Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3 K-Nearest Neighbor classifier (KNN) • Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định • Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4 K-Nearest Neighbor classifier (KNN) • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5 K-Nearest Neighbor classifier (KNN) Figure , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Lựa chọn K (bộ phân lớp KNN) • K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit • K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit • Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Lựa chọn K (bộ phân lớp KNN) Figure , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác? Figure , ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Lựa .