Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2 . Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. | Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH ng nghiệp Th c ph m T h inh -2017) XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA Ngu n Th B ch Ngân Trường Đại học ng nghiệp Th c ph m Thành phố h inh Email: nganntb@ Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017 TÓM TẮT Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo. Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia. Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia. Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo ontology. 1. GIỚI THIỆU Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy trình tạo cơ sở tri thức ontology