Tiếp tục chương 3, chương 4 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về tiền xử lí dữ liệu, phương pháp khai phá bằng luật kết hợp, phương pháp cây quyết định, các phương pháp phân cụm, phương pháp khai phá dữ liệu phức tạp. Mời các bạn tham khảo. | Chương 4 Khai phá dữ liệu 1 1 Nội dung 1. Tiền xử lý dữ liệu. 2. Phương pháp khai phá bằng luật kết hợp. 3. Phương pháp cây quyết định. 4. Các phương pháp phân cụm. 5. Các phương pháp khai phá dữ liệu phức tạp. 2 Tiền xử lý dữ liệu Dữ liệu phát sinh trong quá trình tác nghiệp gọi là dữ liệu thô raw original data Dữ liệu thô Từ các nguồn file cơ sở dữ liệu database Không hoàn chỉnh thiếu thuộc tính giá trị cần. Chứa giá trị nhiễu có lỗi hoặc có giá trị lệch Không nhất quán. Để có thể khai phá các khía cạnh khác của chúng cần phải biến đổi về dạng thích hợp 3 Tiền xử lý dữ liệu Chất lượng dữ liệu Tính chính xác accuracy giá trị được ghi nhận đúng với giá trị thực Tính hiện hành currency timeliness giá trị được ghi nhận không bị lỗi thời. Tính toàn vẹn completeness tất cả các giá trị dành cho một biến thuộc tính đều được ghi nhận. Tính nhất quán consistency tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp. 4 Tiền xử lý dữ liệu Các kỹ thuật tiền xử lý Tích hợp dữ liệu Data integration Làm tăng lượng thông tin. Tuy nhiên có thể làm dư thừa và không nhất quán. Làm sạch dữ liệu Data cleaning Bổ sung giá trị thiếu Loại dữ liệu nhiễu Loại giá trị lệch Nhất quá hóa dữ liệu. 5 Tiền xử lý dữ liệu Các kỹ thuật tiền xử lý tt Chuyển dạng dữ liệu Data transformation Chuẩn hóa normalization Gộp nhóm aggregation . Rút gọn dữ liệu Data reduction Giảm số chiều Giảm biểu diễn số lớn Lựa chọn tập thuộc tính 6 Tiền xử lý dữ liệu Tóm tắt mô tả về dữ liệu Xác định các thuộc tính properties tiêu biểu của dữ liệu về xu hướng chính central tendency và sự phân tán dispersion của dữ liệu. Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu noise hoặc phần tử biên outliers cung cấp cái nhìn tổng quan về dữ liệu. 7 Tiền xử lý dữ liệu Các yếu tố cần quan tâm khi nghiên cứu khai phá dữ liệu Xu hướng tập trung central tendency đặc trưng bởi các đại lượng thống kê trung bình Mean trung vị Median mode khoảng trung bình midrange Sự phân ly dispersion tứ nhân vị .