Bài giảng Khai phá web - Bài 2: Học máy (Phần 1). Bài này cung cấp cho học viên những nội dung về: các khái niệm cơ bản; học có giám sát; phương pháp đánh giá; cây quyết định; thuật toán Naive Bayes; thuật toán SVM; thuật toán kNN; . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | BÀI 2 HỌC MÁY Nội dung 1. Các khái niệm cơ bản 2. Phương pháp đánh giá 3. Cây quyết định 4. Thuật toán Naive Bayes 5. Thuật toán SVM 6. Thuật toán kNN 7. Mạng nơ-ron tiến 8. Mạng nơ-ron tích chập 9. Mạng nơ-ron hồi quy 10. Kết hợp các bộ phân loại 1. Các khái niệm cơ bản Dữ liệu được miêu tả bởi các thuộc tính nằm trong tập A A1 A2 . A A Thuộc tính lớp C c1 c2 . c C C 2 ci là một nhãn lớp Mỗi tập DL dùng để học bao gồm các ví dụ chứa thông tin về kinh nghiệm quá khứ Cho một tập DL D mục tiêu của việc học là xây dựng một hàm phân loại dự đoán liên kết các giá trị thuộc tính trong A với các lớp trong C. Hàm có thể được sử dụng để phân loại dự đoán dữ liệu tương lai Hàm còn được gọi là mô hình phân loại dự đoán hoặc bộ phân loại VD về mẫu DL Bảng 1 ID Tuổi Đi làm Có nhà Tín dụng Lớp 1 trẻ FALSE FALSE bình thường No 2 trẻ FALSE FALSE tốt No 3 trẻ TRUE FALSE tốt Yes 4 trẻ TRUE TRUE bình thường Yes 5 trẻ FALSE FALSE bình thường No 6 trung niên FALSE FALSE bình thường No 7 trung niên FALSE FALSE tốt No 8 trung niên TRUE TRUE tốt Yes 9 trung niên FALSE TRUE xuất sắc Yes 10 trung niên FALSE TRUE xuất sắc Yes 11 già FALSE TRUE xuất sắc Yes 12 già FALSE TRUE tốt Yes 13 già TRUE FALSE tốt Yes 14 già TRUE FALSE xuất sắc Yes 15 già FALSE FALSE bình thường No Học có giám sát Học có giám sát Nhãn lớp được cung cấp trong tập DL DL dùng để học gọi là DL huấn luyện Sau khi mô hình được học thông qua một thuật toán học nó được đánh giá trên một tập DL kiểm thử để đo đạc mức độ chính xác Không được dùng DL kiểm thử để học mô hình Tập DL có nhãn thường được chia làm hai tập độc lập dùng để học và kiểm thử độ chính xác số phân loại đúng tổng số DL kiểm thử Học máy là gì Cho một tập DL biểu diễn kinh nghiệm quá khứ một tác vụ T và một độ đo hiệu năng M. Một hệ thống máy tính có khả năng học từ DL để thực hiện tác vụ T nếu sau khi học hiệu năng của máy trên tác vụ T được đo bởi M được cải thiện. Mô hình học được hoặc tri thức giúp cho hệ thống thực hiện tác vụ tốt hơn so với không học gì.