INTRODUCTION TO KNOWLEDGE DISCOVERY AND DATA MINING - CHAPTER 7

Evaluation of discovered knowledge - Mục tiêu của phân loại học tập từ dữ liệu mẫu để phân loại và dự đoán thành công trên các dữ liệu mới. Các biện pháp được sử dụng phổ biến nhất của sự thành công hay thất bại là tỷ lệ lỗi của một phân loại. Mỗi lần phân loại được trình bày với một trường hợp, nó làm cho một quyết định về các lớp học thích hợp đối với trường hợp một. Đôi khi nó là đúng, đôi khi nó là sai. Tỷ lệ lỗi thật sự là thống kê. | Chapter 7 Evaluation of discovered knowledge The objective of learning classifications from sample data is to classify and predict successfully on new data. The most commonly used measure of success or failure is a classifier s error rate. Each time a classifier is presented with a case it makes a decision about the appropriate class for a case. Sometimes it is right sometimes it is wrong. The true error rate is statistically defined as the error rate of the classifier on an asymptotically large number of new cases that converge in the limit to the actual population distribution. As noted in Equation an empirical error rate can be defined as the ratio of the number of errors to the number of cases examined. number of errors error rate - -------- number of cases If we were given an unlimited number of cases the true error rate would be readily computed as the number of samples approached infinity. In the real world the number of samples available is always finite and typically relatively small. The major question is then whether it is possible to extrapolate from empirical error rates calculated from small sample results to the true error rate. It turns out that there are a number of ways of presenting sample cases to the classifier to get better estimates of the true error rate. Some techniques are much better than others. In statistical terms some estimators of the true error rate are considered biased. They tend to estimate too low . on the optimistic side or too high . on the pessimistic side. In this chapter we will review the techniques that give the best estimates of the true error rate and consider some of the factors that can produce poor estimates of performance. 7. 1 What Is an Error An error is simply a misclassification the classifier is presented a case and it classifies the case incorrectly. If all errors are of equal importance a single-error rate calculated as in Equation summarizes the overall performance of a classifier. However

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.