Mục đích nghiên cứu của Luận án này nhằm đề xuất ba mô hình phân giải nhập nhằng tương ứng với ba phương pháp nói trên là: Mô hình dựa trên heuristic. Mô hình dựa trên thống kê. Mô hình lai - kết hợp heuristic và thống kê. Mời các bạn cùng tham khảo! | Chương 1 GIỚI THIỆU Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên như con người tổ chức hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên Named Entity Disambiguation - NED là nhằm ánh xạ một tên xuất hiện trong một văn bản vào một thực thể đối tượng tham chiếu trong một nguồn tri thức bên ngoài nào đó với một định danh duy nhất. Nổi lên gần đây như là một bài toán đầy thách thức nhưng có nhiều ý nghĩa trong việc hiện thực hóa Web có ngữ nghĩa cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu khắp thế giới. Luận án này đề xuất một phương pháp luận mới áp dụng cho phân giải nhập nhằng thực thể có tên. Ý tưởng chủ đạo của phương pháp luận này là dựa vào định danh của các thực thể đã được xác định để phân giải nhập nhằng cho các trường hợp còn lại bằng một quá trình lặp cải thiện dần. Dựa trên phương pháp luận đó luận án đề xuất ba phương pháp cho bài toán trong đó nghiên cứu sâu ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử dụng đặc trưng biểu diễn thực thể và mô hình phân giải nhập nhằng. Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống với các khái niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ. Wikipedia xem như một ontology mở được xây dựng bởi những người tình nguyện theo hướng tiếp cận từ dưới lên với các khái niệm được hình thành từ một tập từ vựng tự do và các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực thể đồng xuất hiện định danh của các thực thể đã được xác định và các từ cùng với các cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện chiều dài của các tên và tên thường dùng của các -1- thực .