Giới thiệu chung về khai phá dữ liệu giới thiệu về khai phá text và khai phá Web nhằm giúp các bạn sinh viên nắm vững các khái niệm sự cần thiết của khai phá và đặc trưng của khai phá text và khai phá web. Khai phá text là khai phá dữ liệu đối với loại dữ liệu text. | BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 1. GIỚI THIỆU CHUNG PGS. TS. HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu về khai phá text Giới thiệu về khai phá web 1. Giới thiệu về khai phá text Khái niệm Sự cần thiết của khai phá text Đặc trưng của khai phá text Các bài toán cơ bản trong khai phá text Một ví dụ về bài toán khai phá text Xu hướng nghiên cứu khai phá Text Khái niệm Tiếp cận về khái niệm khai phá text Khai phá text là khai phá dữ liệu đối với loại dữ liệu text. Quá trình phát hiện tri thức mới, có giá trị, tiềm ẩn trong tập hợp văn bản Mang tính đa dạng về phát biểu khái niệm khai phá dữ liệu Nội dung Khai phá text = Khai phá dữ liệu + Xử lý ngôn ngữ tự nhiên - XLNNTN (Natural Language Processing: NLP) Các bài toán chung về khai phá dữ liệu cho dữ liệu đặc thù Một số bài toán riêng điển hình cho khai phá text Mối quan hệ giữa Khai phá Text và XLNNTN XLNNTN cung cấp tài nguyên, công cụ cơ sở cho khai phá Text Khai phá Text mở rộng các bài toán của XLNNTN Đan xen giữa Khai phá Text với XLNNTN Quy trình khai phá text Tuân theo quy trình chung của khai phá dữ liệu Như đã trình bày trong khai phá dữ liệu Quy trình tối giản Tiền xử lý Công cụ của Xử lý ngôn ngữ tự nhiên Mô hình cấu trúc văn bản Biểu diễn văn bản Phù hợp với thuật toán Xử lý (khai phá) dữ liệu theo dạng biểu diễn Áp dụng khai phá dữ liệu Sự cần thiết của khai phá text Text gần gũi nhất với con người Là đối tượng quan trọng nhất chuyển tải thông tin của loài người Phương tiện trình bày tri thức chuyển giao người khác Học chữ là bài toán quan trọng của mỗi con người Đặc thù của ngôn ngữ tự nhiên Tính đa nghĩa, đồng nghĩa của đơn vị cú pháp nhỏ nhất là từ Tính cảm ngữ cảnh khi trình bày nội dung văn bản Tính biến động của mỗi ngôn ngữ tự nhiên: bổ sung, thay đổi Sự tăng trưởng của dữ liệu Text Khả năng tạo mới Khả năng lưu trữ Đặc trưng của khai phá text Sergei Ananyan (2001). Text Mining: Applications and Technologies, . | BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 1. GIỚI THIỆU CHUNG PGS. TS. HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu về khai phá text Giới thiệu về khai phá web 1. Giới thiệu về khai phá text Khái niệm Sự cần thiết của khai phá text Đặc trưng của khai phá text Các bài toán cơ bản trong khai phá text Một ví dụ về bài toán khai phá text Xu hướng nghiên cứu khai phá Text Khái niệm Tiếp cận về khái niệm khai phá text Khai phá text là khai phá dữ liệu đối với loại dữ liệu text. Quá trình phát hiện tri thức mới, có giá trị, tiềm ẩn trong tập hợp văn bản Mang tính đa dạng về phát biểu khái niệm khai phá dữ liệu Nội dung Khai phá text = Khai phá dữ liệu + Xử lý ngôn ngữ tự nhiên - XLNNTN (Natural Language Processing: NLP) Các bài toán chung về khai phá dữ liệu cho dữ liệu đặc thù Một số bài toán riêng điển hình cho khai phá text Mối quan hệ giữa Khai phá Text và XLNNTN XLNNTN cung cấp tài nguyên, công cụ cơ sở cho khai phá Text Khai