Bài giảng Nhập môn khai phá dữ liệu (PGS.TS. Hà Quang Thụy) - Chương 6. Phân cụm dữ liệu

Hướng dẫn phân cụm các dữ liệu thuộc D thành các cụm,Các dữ liệu trong một cụm: “tương tự” nhau , Dữ liệu hai cụm: “không tương tự” nhau .Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ cũng lựa chọn các đối tượng cùng cụm . Với các cách sau đây bạn dễ dàng phân cụm theo các chức năng khác nhau, chúc các bạn thành công! | BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 6. PHÂN CỤM DỮ LiỆU PGS. TS. HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu phân cụm Thuật toán phân cụm k-min Thuật toán phân cụm phân cấp Gán nhãn cụm Đánh giá phân cụm 1. Bài toán phân cụm Web Bài toán Tập dữ liệu D = {di} Phân các dữ liệu thuộc D thành các cụm Các dữ liệu trong một cụm: “tương tự” nhau (gần nhau) Dữ liệu hai cụm: “không tương tự” nhau (xa nhau) Đo “tương tự” (gần) nhau ? Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ cũng lựa chọn các đối tượng cùng cụm với d Khai thác “cách chọn lựa” của người dùng Đưa ra một số độ đo “tương tự” theo biểu diễn dữ liệu Một số nội dung liên quan Xây dựng độ đo tương tự Khai thác thông tin bổ sung Số lượng cụm cho trước, số lượng cụm không cho trước Sơ bộ tiếp cận phân cụm Phân cụm mô hình và phân cụm phân vùng Mô hình: Kết quả là mô hình biểu diễn các cụm tài liệu Vùng: Danh sách cụm và vùng tài liệu thuộc | BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 6. PHÂN CỤM DỮ LiỆU PGS. TS. HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu phân cụm Thuật toán phân cụm k-min Thuật toán phân cụm phân cấp Gán nhãn cụm Đánh giá phân cụm 1. Bài toán phân cụm Web Bài toán Tập dữ liệu D = {di} Phân các dữ liệu thuộc D thành các cụm Các dữ liệu trong một cụm: “tương tự” nhau (gần nhau) Dữ liệu hai cụm: “không tương tự” nhau (xa nhau) Đo “tương tự” (gần) nhau ? Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ cũng lựa chọn các đối tượng cùng cụm với d Khai thác “cách chọn lựa” của người dùng Đưa ra một số độ đo “tương tự” theo biểu diễn dữ liệu Một số nội dung liên quan Xây dựng độ đo tương tự Khai thác thông tin bổ sung Số lượng cụm cho trước, số lượng cụm không cho trước Sơ bộ tiếp cận phân cụm Phân cụm mô hình và phân cụm phân vùng Mô hình: Kết quả là mô hình biểu diễn các cụm tài liệu Vùng: Danh sách cụm và vùng tài liệu thuộc cụm Phân cụm đơn định và phân cụm xác suất Đơn định: Mỗi tài liệu thuộc duy nhất một cụm Xác suất: Danh sách cụm và xác suất một tài liệu thuộc vào các cụm Phân cụm phẳng và phân cụm phân cấp Phẳng: Các cụm tài liệu không giao nhau Phân cấp: Các cụm tài liệu có quan hệ phân cấp cha- con Phân cụm theo lô và phân cụm tăng Lô: Tại thời điểm phân cụm, toàn bộ tài liệu đã có Tăng: Tài liệu tiếp tục được bổ sung trong quá trình phân cụm Các phương pháp phân cụm Các phương pháp phổ biến Phân vùng, phân cấp, dựa theo mật độ, dựa theo lưới, dựa theo mô hình, và mờ Phân cụm phân vùng Xây dựng từng bước phân hoạch các cụm và đánh giá chúng theo các tiêu chí tương ứng Độ đo tương tự / khoảng cách K-mean, k-mediod CLARANS, Phân cụm phân cấp Xây dựng hợp (tách) dần các cụm tạo cấu trúc phân cấp và đánh giá theo các tiêu chí tương ứng Độ đo tương tự / khoảng cách HAC: Hierarchical agglomerative clustering CHAMELEON, BIRRCH và CURE, Các phương pháp phân cụm Phân cụm dựa theo mật độ Hàm .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
11    59    2    29-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.