Bài giảng "Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu" cung cấp cho người học các kiến thức về lý thuyết phân nhóm, phân nhóm dựa trên 1 biến, phân nhóm dựa trên 2 biến, sự tương tự,. nội dung chi tiết. | TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM PHÂN TÍCH DỮ LIỆU PHÂN TÍCH DỮ LIỆU Chương 5:KTXD nhóm dữ liệu (Cluster) Khoa Phân - Bộ môn KTTNN Chương 5: Phân nhóm dữ liệu (Cluster) NỘI DUNG MÔN HỌC Giảng viên: PGS. TS. NGUYỄN THỐNG E-mail: nguyenthong@ or nthong56@ Web: PGS. TS. Nguyễn Thống 1 Tél. (08) 38 691 592- 098 99 66 719 Chương 1. Thống kê mô tả (ôn). Chương 1bis. Xác suất & phân phối thống kê (ôn) Chương 2. Khoảng tin cậy. Chương 3. Kiểm định thống kê. Chương 4. Phân khúc dữ liệu (Segmentation). Chương 5. Phân nhóm dữ liệu (Cluster). Chương 6. Phân tích thành phần chính (PCA). Chương 7. Phân tích chuỗi thời gian. Chương 8. Hồi quy tuyến tính. Chương 9. Xử lý số liệu thực nghiệm. Chương 10. Giới thiệu phần mềm SPSS or R PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) Chương 5: Phân nhóm dữ liệu (Cluster) GIỚI THIỆU VÀ ĐẶT VẤN ĐỀ • Phân nhóm (cluster, groupe) là môt kỹ thuật được ứng dụng trong nhiều lĩnh vực. Ví dụ : Sinh học : phân nhóm các loại cây, các động vật theo một số đặc tính nào đó (định lượng hoặc định tính). Y học : phân loại các loại bệnh nhân theo một số chỉ tiêu y học. Marketing và nghiên cứu thị trường • Phân loại khách hàng – nhận biết các thành phần có cung cách tiêu thụ hàng hóa giống nhau. • Phân loại sản phẩm – nghiên cứu nhiều nhãn hiệu khác nhau của 1 sản phẩm theo các thuộc tính của chúng bởi người tiêu dùng. Các nhãn hiệu xuất hiện trong cùng một nhóm sẽ có các thuộc tính « gần guĩ » nhau nhất, trên cơ sở các thuộc tính khảo sát. PGS. TS. Nguyễn Thống PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) Chương 5: Phân nhóm dữ liệu (Cluster) • Nghiên cứu một tập thể cá nhân theo các yếu tố : hoạt động, thu nhập, quan điểm. Các cá nhân xuất hiện, trong cùng một nhóm, thể hiện đó là các cá nhân có tổng hợp các yếu tố là gần nhau nhất. Nó cho phép chúng ta hiểu được các