Kết cấu của luận văn bao gồm các chương sau: Chương 1/ Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các ứng dụng của bài toán. Những thách thức đặt ra cho bài toán. Chương 2/ Các phương pháp trích rút từ khoá từ trang web. Giới thiệu phương pháp TextRank áp dụng để trích rút từ khoá từ trang web. Chương 3/ “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và đánh giá kết quả. | ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VŨ CHI LOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHOÁ TỪ TRANG WEB VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SỸ Ngành: Kỹ thuật phần mềm HÀ NỘI - 2017 1 MỞ ĐẦU Hiện nay việc trích rút từ khoá từ trang web là một việc hết sức quan trọng với một lượng thông tin khổng lồ ngày càng bùng nổ và tăng theo cấp số nhân trên Internet. Bài toán trích rút từ khoá từ trang web đã giúp giải quyết rất nhiều bài toán thực tế như: Tìm kiếm thông tin, tóm tắt văn bản Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các thông tin đó. Việc trích chọn từ khóa là ứng dụng quan trọng nhất trong các engine tìm kiếm. Vì hiện nay các engine này chủ yếu vẫn tìm kiếm dựa vào từ khóa. Đó chính là một trong những động lực để phát triển bài toán trích rút từ khoá từ trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của tài liệu văn thế các phương pháp tóm tắt tự động được nghiên cứu và phát triển. Bài toán trích rút từ khoá không chỉ dừng lại ở trích rút từ khoá mà nó còn mở rộng ra trích rút câu hoặc các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video. Một ứng dụng điển hình cho việc ứng dụng của tóm tắt dữ liệu tự động là các máy tìm kiếm, trong đó nổi bật nhất là bộ máy tìm kiếm Google. Với thực tế nêu trên, luận văn đã đề xuất một phương pháp giải quyết bài toán trích rút từ khoá từ trang web tiếng Anh qua đề tài “Nghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụng”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo phương pháp chính là: đồ thị web. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá tốt, nếu kết hợp với các từ khoá của chính các chuyên gia thì tập từ khoá sinh ra là 2 khá đầy đủ và chính xác. Ngoài phần MỞ ĐẦU và KẾT LUẬN, .