Tài liệu kỹ thuật VietSpider.

Sự phát triển của mạnh mẽ của Internet kéo theo hàng loạt những mô hình truyền thông mạng như báo điện tử, blog, forum, trang thông tin cá nhân, tổ chức, cơ quan, công ty,.Tiếp cận nguồn thông tin phong phú đó làm nảy sinh một nhu cầu: khai thác và tổng hợp hiệu quả các nội dung từ Internet. | Phần A – Tài liệu kỹ thuật VietSpider Phần A – Tài liệu kỹ thuật VietSpider. I - Viễn cảnh về khai thác thông tin. 1. Điểm lược một vài mô hình khai thác và tổng hợp nội dung II - Giới thiệu về phần mềm. 1. Yêu cầu bài toán về khai thác và tổng hợp nội dung. 2. G iới thiệu về phần mềm. 3. Một số thông tin cơ bản. 4. Một số yêu cầu cơ bản khi chạy phẩm. III - Sơ lược về cơ sở kỹ thuật trong chương trình.|outline 1. Khảo sát định dạng phát hành nội dung. 2. Sơ lược về mô hình bóc tách dữ liệu. 3. Kỹ thuật về tổng hợp nội dung. IV - Những thành phần cơ bản của chương trình. 1. Bộ HTMLParser và công cụ HTML Explorer. 2. Công cụ cấu hình một kênh khai thác thông tin. 3. Công cụ bóc tách và tổng hợp nội dung. 4. G iải pháp phát hành nhanh nội dung. V - Mô tả cơ sở dữ liệu cho chương trình. 1. Bảng Domain. 2. Bảng Meta. 3. Bảng Content. 4. Bảng Relation. 5. Bảng Image. 6. Bảng Filter. VI - Ý nghĩa thư mục dữ liệu. 1. Làm sạch dữ liệu sau bóc tách. 2. Cấu hình một số thông số cho chương trình. VII - Tài liệu và địa chỉ tham khảo. Phần A – Tài liệu kỹ thuật VietSpider I. Viễn cảnh về khai thác thông tin. Sự phát triển của mạnh mẽ của Internet kéo theo hàng loạt những mô hình truyền thông mạng như báo điện tử, blog, forum, trang thông tin cá nhân, tổ chức, cơ quan, công ty,.Tiếp cận nguồn thông tin phong phú đó làm nảy sinh một nhu cầu: khai thác và tổng hợp hiệu quả các nội dung từ Internet. 1. Điểm lược một vài mô hình khai thác và tổng hợp nội dung. Thông tin cũng là một tài nguyên cần khai thác và Internet giống như một mỏ thông tin khổng lồ được cập nhật từng giờ từng phút. Khai thác thông tin là một cụm từ xuất hiện trước đó rất lâu so với thời điểm ra đời của Internet. Hiện nay, sự khai thác thông tin từ Internet đã là một nhu cầu của mỗi cá nhân. Không quá xa vời, những phóng viên báo chí hằng ngày vẫn tìm kiếm tư liệu, tham khảo các bài viết hoặc thậm chí đăng lại nội dung từ một nguồn cụ thể như website báo điện tử, blog, diễn đàn. Bằng cách này hay cách khác,

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.