Tham khảo tài liệu 'manual programming experience handbook part 178', công nghệ thông tin, kỹ thuật lập trình phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả | Quinlan quyết định thuộc tính phân hoạch bằng cách xây dựng các vector đặc trưng cho mỗi giá trị của từng thuộc tính dẫn xuất và thuộc tính mục tiêu. Cách tính cụ thể như sau Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch tính VA j T j ri T j r2 . T j rn T j ri tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j và có giá trị thuộc tính mục tiêu là ri tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j trong đó r1 r2 . rn là các giá trị của thuộc tính mục tiêu i Như vậy nếu một thuộc tính A có thể nhận một trong 5 giá trị khác nhau thì nó sẽ có 5 vector đặc trưng. Một vector V Aj được gọi là vector đơn vị nếu nó chỉ có duy nhất một thành phần có giá trị 1 và những thành phần khác có giá trị 0. Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất. Trở lại ví dụ của chúng ta ở trạng thái ban đầu chưa phân hoạch chúng ta sẽ tính vector đặc trưng cho từng thuộc tính dẫn xuất để tìm ra thuộc tính dùng để phân hoạch. Đầu tiên là thuộc tính màu tóc. Thuộc tính màu tóc có 3 giá trị khác nhau vàng đỏ nâu nên sẽ có 3 vector đặc trưng tương ứng là VTóc vàng T vàng cháy nắng T vàng không cháy nắng Số người tóc vàng là 4 Số người tóc vàng và cháy nắng là 2 Số người tóc vàng và không cháy nắng là 2 Do đó VTóc vàng 2 4 2 4 Tương tự VTóc nâu 0 3 3 3 0 1 vector đơn vị Số người tóc nâu là 3 Số người tóc nâu và cháy nắng là 0 Số người tóc nâu và không cháy nắng là 3 VTóc đỏ 1 1 0 1 1 0 vector đơn vị Tổng số vector đơn vị của thuộc tính tóc vàng là 2 Các thuộc tính khác được tính tương tự kết quả như sau Cao 0 2 2 2 0 1 2 3 1 3 Thấp 1 3 2 3 Nhẹ 1 2 1 2 1 3 2 3 Nặng 1 3 2 3 VKem Có 3 3 0 3 1 0 VKem Không 3 5 2 5 Như vậy thuộc tính màu tóc có số vector đơn vị nhiều nhất nên sẽ được chọn để phân hoạch. Sau khi phân hoạch theo màu tóc xong chỉ có phân hoạch theo tóc vàng Pvàng là còn chứa những người cháy nắng và không cháy nắng nên ta sẽ tiếp tục phân