Trong bài báo này, tác giả sẽ trình bày tổng quan các vấn đề nghiên cứu về thư viện Lucene và triển khai ứng dụng tìm kiếm trên tài liệu thư viện tại trường Đại học Trà Vinh. Qua đó bài viết đề ra hướng tìm kiếm mới nhằm nâng cao chất lượng tìm kiếm thông tin. | Khoa hoïc Coâng ngheä 17 ỨNG DỤNG KỸ THUẬT TÌM KIẾM THÔNG TIN VÀO HỆ THỐNG TRA CỨU TÀI LIỆU THƯ VIỆN TẠI TRƯỜNG ĐẠI HỌC TRÀ VINH Nguyễn Ngọc Đan Thanh * Tóm tắt Lucene là một thư viện mã nguồn mở hỗ trợ các chức năng cần thiết của một hệ thống tìm kiếm thông tin. Thư viện Lucene được phát triển dựa trên nền tảng Java, sau đó được mở rộng ở nhiều ngôn ngữ lập trình khác nhau như Perl, Python, Ruby, C/C++, PHP, C#, Trong bài báo này, tác giả sẽ trình bày tổng quan các vấn đề nghiên cứu về thư viện Lucene và triển khai ứng dụng tìm kiếm trên tài liệu thư viện tại Trường Đại học Trà Vinh. Kết quả của bài báo đề ra hướng tìm kiếm mới nhằm nâng cao chất lượng tìm kiếm thông tin. Từ khóa: Tìm kiếm thông tin, mã nguồn mở Lucene, lập chỉ mục, mô hình không gian vector, truy tìm. Abstract Lucene is an open source library that supports some important features of an information retrieval system. It is developed based on Java programing language and is expanded to many other platforms such as Perl, Python, Ruby, C/C++, PHP, C#. This paper will give an overview of Lucene and carry out the application in searching document in the Library of Tra Vinh University. The paper opens a new method in order to improve quality for searching information. Keywords: information retrieval, Lucene open source, indexing, Vector Space Model, retrieval. 1. Giới thiệu về tìm kiếm thông tin Khái niệm Tìm kiếm thông tin (Information Retrieval IR) là tìm kiếm tài nguyên (thường là các tài liệu - documents) trên một tập các dữ liệu phi cấu trúc (thường là văn bản dạng text) được lưu trữ trên máy tính nhằm thỏa mãn nhu cầu về thông tin (Hồ Bảo Quốc), (Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng). điện tử. Qua quá trình xử lý, các tài liệu này sẽ được chuyển sang biểu diễn dưới dạng cấu trúc đặc biệt nhằm giúp hệ thống có thể truy tìm thông tin một cách tốt nhất. Quá trình này được gọi là lập chỉ mục (indexing). Sau quá trình lập chỉ mục sẽ thu được một tập chỉ mục có lưu trữ các tài liệu dưới dạng .