Bài giảng Máy học nâng cao: Clustering - Trịnh Tấn Đạt

Bài giảng "Máy học nâng cao: Clustering" cung cấp cho người học các kiến thức: Giới thiệu - clustering, phân loại, thuật toán kmeans, hierarchical clustering, density based clustering. Cuối bài giảng có phần bài tập để người học ôn tập và củng cố kiến thức. | Bài giảng Máy học nâng cao Clustering - Trịnh Tấn Đạt Trịnh Tấn Đạt Khoa CNTT Đại Học Sài Gòn Email trinhtandat@ Website https site ttdat88 1 Nội dung Giới thiệu Clustering Phân loại Thuật toán Kmeans Hierarchical Clustering Density-Based Clustering Bài tập 2 Clustering Học không giám sát Unsupervised learning Tập học training data bao gồm các quan sát mà mỗi quan sát không có thông tin về label hoặc giá trị đầu ra mong muốn. Mục đích là tìm ra học các cụm các cấu trúc các quan hệ tồn tại ẩn trong tập dữ liệu hiện có. 3 Clustering Phân cụm Phân nhóm clustering Phát hiện các nhóm dữ liệu nhóm tính chất 4 Clustering Ví dụ Nhận diện phần tử biên outliers và giảm thiểu nhiễu noisy data 5 Clustering Ví dụ Phân cụm ảnh 6 Clustering Ví dụ Community detection Phát hiện các cộng đồng trong mạng xã hội 7 Clustering Ví dụ Image segmentation 8 Clustering Clustering là quá trình phân nhóm cụm dữ liệu đối tượng vào các nhóm cụm Các đối tượng trong cùng một nhóm tương tự tương đồng với nhau hơn so với đối tượng ở các nhóm khác. 9 Clustering Input một tập dữ liệu x1 xM không có nhãn hoặc giá trị đầu ra mong muốn Output các cụm nhóm của các quan sát Một cụm cluster là một tập các quan sát Tương tự với nhau theo một ý nghĩa đánh giá nào đó Khác biệt với các quan sát thuộc các cụm khác 10 Clustering Mỗi cụm nhóm nên có bao nhiêu phần tử Các phân tử nên được phân vào bao nhiêu cụm nhóm Bao nhiêu cụm nhóm nên được tạo ra 11 Clustering Các yêu cầu khi thiết kế thuật toán phân cụm dữ liệu Có thể tương thích hiệu quả với dữ liệu lớn số chiều lớn Có khả năng xử lý các dữ liệu khác nhau Có khả năng khám phá các cụm với các dạng bất kỳ Khả năng thích nghi với dữ liệu nhiễu Ít nhạy cảm với thứ tự của các dữ liệu vào Phân cụm rằng buộc Dễ hiểu và dễ sử dụng 12 Clustering Phân loại các phương pháp clustering Phân hoạch partitioning phân hoạch tập dữ liệu n phần tử thành k cụm Kmeans Fuzzy C-mean Phân cấp hierarchical xây dựng phân cấp các cụm trên cơ sở các đối .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.