Bài giảng "Học máy - Bài 7: Học máy không giám sát" cung cấp cho người học các kiến thức: Phân tích cụm, phương pháp phân cấp, thuật toán K-means, khởi tạo tâm cụm, phân đoạn, nén ảnh,. nội dung chi tiết. | Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@ Website môn học: Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Học máy không giám sát • Học không giám sát: tập các công cụ thống kê xử lý dữ liệu chỉ có biến đầu vào, không có biến đích – Ta chỉ có X’s mà không có các nhãn Y – Mục tiêu: phát hiện các mẫu/các đặc tính của dữ liệu • vd. trực quan hóa hoặc diễn giải dữ liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 2 Học có giám sát vs. không giám sát Học máy có giám sát: cả X và Y đều đã biết Học máy không giám sát: chỉ biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 3 Học không giám sát • Ví dụ ứng dụng: – Biết các mô ung thư của n bệnh nhân bị ung thư vú, cần xác định các nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm về biểu diễn Gen chứa hàng ngàn biến , ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 4 Học không giám sát • Ví dụ ứng dụng: – Cho một tập các tài liệu văn bản, cần xác định tập các tài liệu có chung chủ đề như thể thao, chính trị, ca nhạc, – Cho các ảnh khuôn mặt có số chiều cao, tìm một biểu diễn đơn giản/thu gọn của các ảnh này để đưa vào bộ phân lớp nhận dạng khuôn mặt (AT&T Laboratories Cambridge) CSE 445: Học máy | Học kỳ 1, 2016-2017 5 Học không giám sát • Tại sao học không giám sát luôn thách thức lớn? – Phân tích khám phá dữ liệu (Exploratory data analysis) – mục tiêu không được định nghĩa rõ ràng – Khó đánh giá hiệu năng – không biết được đáp án đúng (“right answer” unknown) – Xử lý dữ liệu với số .