Báo cáo nghiên cứu khoa học: Kỹ thuật tách từ trong câu tiếng Việt và ứng dụng tìm kiếm thông tin trên website

Nội dung nghiên cứu đề tài gồm 4 chương, được trình bày cụ thể như sau: Tổng quan về tách từ tiếng Việt; Quy trình xây dựng hệ thống tìm kiếm thông tin tách từ tiếng Việt; Các kỹ thuật lưu trữ; Áp dụng vào tìm kiếm thông tin trên web. | KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO NGHIÊN CỨU KHOA HỌC KỸ THUẬT TÁCH TỪ TRONG CÂU TIẾNG VIỆT VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRÊN WEBSITE Giảng viên hướng dẫn ThS. Đặng Văn Thành Nhân Sinh viên thực hiện Trần Văn Đan Trường 91011801418 Võ Phước Sang 81011801421 TP. Hồ Chí Minh 2020 MỤC LỤC MỤC LỤC . 1 TÓM TẮT ĐỀ TÀI . 4 DANH MỤC CÁC CHỮ VIẾT TẮT . 5 DANH MỤC CÁC BẢNG . 6 DANH MỤC CÁC HÌNH VẼ . 7 MỞ ĐẦU . 8 CHƯƠNG 1. TỔNG QUAN VỀ TÁCH TỪ TIẾNG VIỆT . 9 . Giới thiệu về tìm kiếm thông tin .9 . Quy trình xây dựng hệ thống tìm kiếm thông tin .9 . Các bộ phận cấu thành của hệ thống tìm kiếm thông tin .11 . Các bước xây dựng hệ thống tìm kiếm thông . Một số mô hình xây dựng hệ thống tìm kiếm thông tin .12 . Mô hình tìm kiếm Boolean .13 . Mô hình tính điểm và trọng số cho mục từ - Term weight .13 . Mô hình không gian vector Vector Space Model VSM .14 . Mô hình xác suất Probabilistic model .15 . Mô hình chỉ mục ngữ nghĩa ngầm LSI .15 . Một số hệ thống tìm kiếm thông tin hiện nay .16 . Google Search .16 . Bing và Yahoo .17 . Cốc . Một số hệ thống tìm kiếm thông tin khác .17 . Khó khăn trong xây dựng một hệ thống tài liệu thông tin tiếng Việt .18 . Khó khăn trong việc tách từ tiếng Việt .18 . Khó khăn về bảng mã tiếng Việt .18 . Một số khó khăn khác .18 CHƯƠNG 2. QUY TRÌNH XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN TÁCH TỪ TIẾNG VIỆT. 19 . Giới thiệu về Crawler .19 . Cơ bản về hoạt động của Crawler .20 1 . Tập tin .21 . Robots Meta Tag .23 . Các kỹ thuật xây dựng Crawler .23 . Cấu trúc dữ liệu của URL Frontier .25 . Bộ lọc địa chỉ .26 . Chiến lược thu thập và bộ phân tích trang Web Fetching amp parsing .26 . Trích xuất URL và sự chuẩn hóa .27 . Mô hình thẻ HTML dạng cây .28 . Crawler đa tiến trình .29 . Một số giải thuật Crawler .31 . Thuật toán tìm kiếm theo chiều rộng Breadth-First .32 . Thuật toán tìm kiếm tối

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.