Hiện nay, tồn tại một số thuật Toán học phân lớp Văn bản thực hiện có kết quả rất tốt khi được Xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì lại rất phong phú. Do vậy, việc xem xét các thuật Toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng.