Bài giảng Khai phá dữ liệu (Data mining): Naïve Bayes Classification - Trịnh Tấn Đạt

Bài giảng Khai phá dữ liệu (Data mining): Naïve Bayes Classification, chương này trình bày những nội dung về: giới thiệu Naïve Bayes Classification (NBC); mô hình toán; các dạng phân phối dùng trong NBC; các ví dụ và bài tập; . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | Trịnh Tấn Đạt Khoa CNTT Đại Học Sài Gòn Email trinhtandat@ Website https site ttdat88 Nội dung Giới thiệu Naïve Bayes Classification NBC Mô hình toán Các dạng phân phối dùng trong NBC Các Ví dụ Bài Tập Giới Thiệu Naïve Bayes Classification NBC là một thuật toán dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê. Thuộc vào nhóm supervised learning Giới Thiệu Thuật toán Naïve Bayes Classification được áp dụng vào các loại ứng dụng sau Real time Prediction NBC chạy khá nhanh nên nó thích hợp áp dụng ứng dụng nhiều vào các ứng dụng chạy thời gian thực như hệ thống cảnh báo các hệ thống trading Text classification Spam Filtering Sentiment Analysis NBC cũng rất thích hợp cho các hệ thống phân loại văn bản hay ngôn ngữ tự nhiên vì tính chính xác của nó lớn hơn các thuật toán khác. Ngoài ra các hệ thống chống thư rác cũng rất ưu chuộng thuật toán này. Và các hệ thống phân tích tâm lý thị trường cũng áp dụng NBC để tiến hành phân tích tâm lý người dùng ưu chuộng hay không ưu chuộng các loại sản phẩm nào từ việc phân tích các thói quen và hành động của khách hàng. Bayes s theorem Gọi A B là hai sự kiện event Bayes s theorem Công thức Bayes tổng quát Bayes s theorem Posterior likelihood x prior Trong đó P A gọi là evidence cố định có thể xem như hằng số P B gọi là prior probability xác suất tiền nghiệm là phân phối xác suất trên A P A B gọi là likelihood thể hiện độ phù hợp của A đối với những giá trị B khác nhau P B A gọi là posterior probability xác suất hậu nghiệm phản ánh sự ước lượng cho B khi đã biết A. Naïve Bayes Classification Mô hình Giả sử có tập huấn luyện chứa các N mẫu x x1 x2 . xd Rd. Giả sử có C classes c 1 2 C . Hãy tính xác suất để điểm dữ liệu này rơi vào class c Tính p c x nghĩa là tính xác suất để đầu ra là class c biết rằng đầu vào là vector x đây chính là posterior probability Từ đó có thể giúp xác định class của điểm dữ liệu x đó bằng

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
8    62    2    01-05-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.