Bài giảng Khai phá dữ liệu (Data mining) - Chương 4 trình bày về phân loại dữ liệu. Các nội dung chính trong chương gồm: Tổng quan về phân loại dữ liệu, phân loại dữ liệu với cây quyết định, phân loại dữ liệu với mạng Bayesian, phân loại dữ liệu với mạng Neural, các phương pháp phân loại dữ liệu khác. . | Chương 4: Phân loại dữ liệu Khai phá dữ liệu (Data mining) Nội dung . Tổng quan về phân loại dữ liệu . Phân loại dữ liệu với cây quyết định . Phân loại dữ liệu với mạng Bayesian . Phân loại dữ liệu với mạng Neural . Các phương pháp phân loại dữ liệu khác . Tóm tắt . Tình huống 1 Ông A (Tid = 100) có khả năng trốn thuế??? . Tình huống 2 Với thông tin của một applicant A, xác định liệu ngân hàng có cho A vay không? . Tình huống 3 Khóa MãSV MônHọc1 MônHọc2 TốtNghiệp 2004 1 Có 2004 2 Có 2004 3 Không 2004 8 Không 2004 14 Có 2005 90 Có 2006 24 Có 2007 82 Không 2008 47 Không Làm sao xác định liệu sinh viên A sẽ tốt nghiệp? . Tình huống Cho trước tập huấn luyện (training set), dẫn ra mô tả về class A và class B? Cho trước mẫu/đối tượng mới, làm sao xác định class cho mẫu/đối tượng đó? Liệu class đó có thực sự phù hợp/đúng cho mẫu/đối tượng đó? . Tổng quan về phân loại dữ liệu Phân loại dữ liệu (classification) Dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu Quá trình gồm hai bước: Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/học tập huấn luyện Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable) y = f (X) với y là nhãn (phần mô tả) của một lớp (class) và X là dữ liệu/đối tượng - Bước học: X trong tập huấn luyện, một trị y được cho trước với X xác định f - Bước phân loại: đánh giá f với (X’, y’) và X’ mọi X trong tập huấn luyện; nếu acceptable thì dùng f để xác định y’’ cho X’’ (mới) . Tổng quan về phân loại dữ liệu Bước học/huấn luyện Bước phân loại (đánh giá và áp dụng) . Tổng quan về phân loại dữ liệu Phân loại dữ liệu Dạng học có giám sát (supervised learning) Environment . | Chương 4: Phân loại dữ liệu Khai phá dữ liệu (Data mining) Nội dung . Tổng quan về phân loại dữ liệu . Phân loại dữ liệu với cây quyết định . Phân loại dữ liệu với mạng Bayesian . Phân loại dữ liệu với mạng Neural . Các phương pháp phân loại dữ liệu khác . Tóm tắt . Tình huống 1 Ông A (Tid = 100) có khả năng trốn thuế??? . Tình huống 2 Với thông tin của một applicant A, xác định liệu ngân hàng có cho A vay không? . Tình huống 3 Khóa MãSV MônHọc1 MônHọc2 TốtNghiệp 2004 1 Có 2004 2 Có 2004 3 Không 2004 8 Không 2004 14 Có 2005 90 Có 2006 24 Có 2007 82 Không 2008 47 Không Làm sao xác định liệu sinh viên A sẽ tốt nghiệp? . Tình huống Cho trước tập huấn luyện (training set), dẫn ra mô tả về class A và class B? Cho trước mẫu/đối tượng mới, làm sao xác định class cho mẫu/đối tượng đó? Liệu class đó có thực sự phù .