Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy

Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy cung cấp cho người học những kiến thức như: Phân cụm dữ liệu; Phân cụm mờ; Hồi quy tuyến tính; Phân lớp SVM. Mời các bạn cùng tham khảo! | LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 11. Một số mô hình học máy Nội dung 1 Phân cụm dữ liệu 2 Phân cụm mờ 3 Hồi quy tuyến tính 4 Phân lớp SVM 2 Phân cụm Phân cụm clustering Phát hiện các cụm dữ liệu cụm tính chất Community detection Phát hiện các cộng đồng trong mạng xã hội 3 Tổng quan PCDL là một lĩnh vực liên ngành đang được phát triển mạnh mẽ. Ở một mức cơ bản nhất đưa ra định nghĩa PCDL như sau 10 11 quot PCDL là một kỹ thuật trong DATA MINING nhằm tìm kiếm phát hiện các cụm các mẫu dữ liệu tự nhiên tiềm ẩn quan tâm trong tập dữ liệu lớn từ đó cung cấp thông tin tri thức hữu ích cho ra quyết định quot 4 Tổng quan Như vậy PCDL là quá trình phân chia một tập DL ban đầu thành các cụm DL sao cho Các phần tử trong một cụm quot tương tự quot Similar nhau. Các phần tử trong các cụm khác nhau sẽ quot phi tương tự quot Dissimilar nhau. Số các cụm được xác định trước theo kinh nghiệm hoặc tự động. 5 Tổng quan Các hướng tiếp cận trong phân cụm Trong học máy PCDL được xem là vấn đề học không có giám sát. Nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các DL chưa biết trước các thông tin về lớp tập VDHL. Nhiều trường hợp khi phân lớp Classification được xem là học có giám sát thì PCDL là một bước trong phân lớp DL. Trong đó PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dl. 6 Tổng quan Các hướng tiếp cận trong phân cụm Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL quot nhiễu quot noise do quá trình thu thập thiếu chính xác không đầy đủ. Cần phải xây dựng chiến lược cho bước tiền xử lý DL để loại bỏ quot nhiễu quot trước khi bước vào giai đoạn phân tích PCDL. Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng quot nhiễu quot bằng giá trị thuộc tính tương ứng của đối tượng DL gần nhất. 7 Tổng quan Các hướng tiếp cận trong phân cụm Tìm phần tử ngoại lai Outlier là hướng nghiên cứu quan trọng trong PCDL cũng như trong Data Mining. Xác định một nhóm nhỏ các đối tượng DL quot khác

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.