Chương 4 - Các phương pháp học không giám sát. Chương này trình bày những nội dung chính sau: Giới thiệu HAC, khoảng cách giữa hai cụm, phân tích đơn, liên kết hoàn toàn, liên kết trung bình, liên kết trung tâm, các hàm khoảng cách,. nội dung chi tiết. | Học Máy (IT 4862) Nguyễn ễ Nhật hậ Quang quangnn-fit@ Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2011-2012 Nội dung d môn ô học: h Giới thiệu chung g Đánh giá hiệu năng hệ thống học máy Các phương pháp học dựa trên xác suất Các phương pháp học có giám sát Cá phương Các h pháp há học h không khô giám iá sát át Phân cụm dựa trên tích tụ phân cấp: HAC (Hierarchical agglomerative clustering) Lọc cộng tác Học tăng cường Học Máy (IT 4862) 2 HAC (1) Sinh ra một chuỗi lồng nhau của các cụm, được gọi là dendrogram g • Cũng được gọi là một phân loại (taxonomy)/phân cấp (hierarchy)/cây (tree) của các ví dụ [Liu, 2006] Học Máy (IT 4862) 3 HAC (2) Phân cụm dựa trên tích tụ phân cấp (Hierarchical Agglomerative Clustering – HAC) sẽ xây dựng dendrogram từ mức đáy (cuối) dần lên (bottom-up) Giải thuật HAC • Bắt đầu, mỗi ví dụ chính là một cụm (là một nút trong dendrogram) • Hợp ợp nhất 2 cụm ụ có mức độ ộ tương g tự ự (g (gần)) nhau nhất Cặp gồm 2 cụm có khoảng cách nhỏ nhất trong số các cặp cụm • Tiếp tục quá trình hợp nhất • Giải thuật kết thúc khi tất cả các ví dụ được hợp nhất thành một cụm duy nhất (là nút gốc trong dendrogram) Học Máy (IT 4862) 4 HAC – Ví dụ ụ (Venn diagram) [Liu, 2006] Học Máy (IT .