Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên. | Gom cụm dữ liệu Data Clustering Chương 5 5/14/2020 12:35:24 AM Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên clustering lại toàn bộ dữ liệu? Giới thiệu 5/14/2020 12:35:24 AM Gom cụm (clustering) là quá trình nhóm tập đối tượng thành các cụm (cluster) có các đối tượng giống nhau. Cho CSDL D={t1,t2, ,tn} và số nguyên k, gom cụm là bài toán xác định ánh xạ f: Dg{1, ,k} sao cho mỗi ti được gán vào một cụm (lớp) Kj, 1 Dựa trên khoảng cách Giới thiệu Cách biểu diễn các cụm Phân chia bằng các đường ranh giới Các khối cầu Theo xác suất Hình cây 1 2 3 I1 I2 In Giới thiệu Mở đầu Gom cụm dữ liệu là hình thức học không giám sát, trong đó các mẫu học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoăc gom cụm tương tự nhau (theo một tiêu chuẩn nào đó) thành các cụm Định nghĩa: Gom cụm là quá trình xây dựng một tập hợp từ một tập dữ liệu mẫu, các phần tử trong tập đã gom cụm tương tự nhau về một vài thuộc tính chọn trước. What Is Clustering? Group data into clusters Similar to one another within the same cluster Dissimilar to the objects in other clusters Unsupervised learning: no predefined classes Cluster 1 Cluster 2 Outliers Application Examples A stand-alone tool: explore data distribution A preprocessing step for other algorithms Pattern recognition, spatial data analysis, image processing, market research, WWW, Cluster documents Cluster web log data to . | Gom cụm dữ liệu Data Clustering Chương 5 5/14/2020 2:45:19 AM Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên clustering lại toàn bộ dữ liệu? Giới thiệu 5/14/2020 2:45:19 AM Gom cụm (clustering) là quá trình nhóm tập đối tượng thành các cụm (cluster) có các đối tượng giống nhau. Cho CSDL D={t1,t2, ,tn} và số nguyên k, gom cụm là bài toán xác định ánh xạ f: Dg{1, ,k} sao cho mỗi ti được gán vào một cụm (lớp) Kj, 1 Dựa trên khoảng