Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 6. Tìm kiếm web

Bài toán tìm kiếm văn bản: Khái niệm; Đánh giá; Tìm kiếm xấp xỉ. Máy tìm kiếm: Công cụ tìm kiếm trên Internet; Một số máy tìm kiếm điển hình; Các thành phần cơ bản; Crawling; Đánh chỉ số và lưu trữ; Tính hạng và tìm kiếm | KHAI PHÁ WEB CHƯƠNG 6. TÌM KIẾM WEB Giảng viên: Hà Quang Thụy email: thuyhq@ Hà Nội, 11-2010 CHƯƠNG 6. TÌM KIẾM VĂN BẢN VÀ MÁY TÌM KIẾM Bài toán tìm kiếm văn bản Khái niệm Đánh giá Tìm kiếm xấp xỉ Máy tìm kiếm Công cụ tìm kiếm trên Internet Một số máy tìm kiếm điển hình Các thành phần cơ bản Crawling Đánh chỉ số và lưu trữ Tính hạng và tìm kiếm CHƯƠNG 6. TÌM KIẾM VĂN BẢN VÀ MÁY TÌM KIẾM Máy tìm kiếm thực thể Khái niệm Một số nội dung cơ bản Một số nghiên cứu tìm kiếm thực thể Máy tìm kiếm ở Việt Nam . BÀI TOÁN TÌM KIẾM VĂN BẢN Nguồn tài nguyên D = {di: các văn bản} cho trước: trong CSDL văn bản web trên Internet: cần thu thập về (máy tìm kiếm) Đầu vào q: Câu hỏi người dùng (q D) Từ khóa/ Cụm từ khóa/ "Biểu thức" hỏi Kết quả Tập R (q) các văn bản thuộc D "liên quan" tới câu hỏi q "liên quan": ngầm định một ánh xạ {q} 2D Hệ thống tìm kiếm "xấp xỉ" ánh xạ nói trên . BÀI TOÁN TÌM KIẾM VĂN BẢN Lời giải q: hệ thống cho tập R'(q) xấp xỉ R(q) Đánh giá hệ thống: đối sánh R'(q) với R(q) R chưa biết Đánh giá qua các ví dụ đã có Học ánh xạ R': xấp xỉ R cho hệ thống Phân loại tìm kiếm Tìm kiếm theo lựa chọn (Document Selection) Tìm kiếm theo tính hạng liên quan (Document Ranking) Kết hợp cả lựa chọn lẫn ranking TÌM KIẾM THEO LỰA CHỌN Học hàm f (d, q): D D {0,1} Chọn/Không chọn Thực tiễn: Module tìm kiếm của hệ thống. Ngôn ngữ hỏi và "ngữ nghĩa" cho từng câu hỏi câu hỏi q: Câu trả lời là R'(q)={d| f(d,q)=1} Ví dụ hệ thống thư viện điện tử Greenstone hệ thống tài liệu điện tử CiteSeer: Nhận xét Đơn giản, dễ thực hiện Hạn chế Câu hỏi q "quá phổ dụng": kết quả có rất nhiều văn bản Câu hỏi q "quá chuyên biệt": rất ít hoặc không có văn bản TÌM KIẾM THEO TÍNH HẠNG Học hàm (mô hình) f (d, q): D D [0,1] "Liên quan": Độ gần nhau giữa các tài liệu, hạng Hạng tính trước, hạng với câu hỏi câu hỏi q: Câu trả lời là R'(q)={d| f(d,q) } Hệ thống có ngưỡng >0 Yêu cầu học f (d, q) cần thỏa tính đơn điệu: . | KHAI PHÁ WEB CHƯƠNG 6. TÌM KIẾM WEB Giảng viên: Hà Quang Thụy email: thuyhq@ Hà Nội, 11-2010 CHƯƠNG 6. TÌM KIẾM VĂN BẢN VÀ MÁY TÌM KIẾM Bài toán tìm kiếm văn bản Khái niệm Đánh giá Tìm kiếm xấp xỉ Máy tìm kiếm Công cụ tìm kiếm trên Internet Một số máy tìm kiếm điển hình Các thành phần cơ bản Crawling Đánh chỉ số và lưu trữ Tính hạng và tìm kiếm CHƯƠNG 6. TÌM KIẾM VĂN BẢN VÀ MÁY TÌM KIẾM Máy tìm kiếm thực thể Khái niệm Một số nội dung cơ bản Một số nghiên cứu tìm kiếm thực thể Máy tìm kiếm ở Việt Nam . BÀI TOÁN TÌM KIẾM VĂN BẢN Nguồn tài nguyên D = {di: các văn bản} cho trước: trong CSDL văn bản web trên Internet: cần thu thập về (máy tìm kiếm) Đầu vào q: Câu hỏi người dùng (q D) Từ khóa/ Cụm từ khóa/ "Biểu thức" hỏi Kết quả Tập R (q) các văn bản thuộc D "liên quan" tới câu hỏi q "liên quan": ngầm định một ánh xạ {q} 2D Hệ thống tìm kiếm "xấp xỉ" ánh xạ nói trên . BÀI TOÁN TÌM KIẾM VĂN BẢN Lời giải q: hệ thống cho tập R'(q) xấp xỉ R(q) Đánh giá

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.