Bài viết giới thiệu một phương pháp sử dụng trọng lượng từ BM25 kết hợp xử lý ngôn ngữ tự nhiên (BM25-NLP). Hiệu quả của phương pháp này được minh chứng thông qua việc thực nghiệm với ba phần mềm mã nguồn mở SVN, Argo UML, và Apache. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Hà Nội ngày 09-10 8 2018 DOI KẾT HỢP BM25 VỚI XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG VIỆC DÒ TÌM NHỮNG BÁO CÁO LỖI TRÙNG NHAU Nhan Minh Phúc1 Nguyễn Hoàng Duy Thiện1 1 Khoa Kỹ thuật và Công nghệ Trường Đại học Trà Vinh nhanminhphuc@ thiennhd@ TÓM TẮT Hầu hết những phần mềm mã nguồn mở như Eclipse Firefox Apache đều cần có hệ thống quản lý lỗi để theo dõi những báo cáo lỗi khác nhau từ người dùng. Gần đây việc dò tìm những báo cáo lỗi trùng nhau nhận được nhiều sự quan tâm của các nhà khoa học. Có hai lý do chính thứ nhất những báo cáo lỗi trùng nhau gây lãng phí sức người để xử lý lại những báo cáo đã được xử lý trước đó. Thứ hai những báo lỗi trùng nhau có thể cung cấp nhiều thông tin hữu ích trong việc bảo trì phần mềm sau này. Trước đây đã có nhiều phương pháp được đề xuất tuy nhiên mức độ chính xác trong việc tự động dò tìm chỉ đạt khoảng 30- 80 . Trong bài báo này chúng tôi muốn giới thiệu một phương pháp sử dụng trọng lượng từ BM25 kết hợp xử lý ngôn ngữ tự nhiên BM25-NLP . Hiệu quả của phương pháp này được minh chứng thông qua việc thực nghiệm với ba phần mềm mã nguồn mở SVN Argo UML và Apache. Kết quả thực nghiệm cho thấy rằng phương pháp được giới thiệu tốt hơn từ 5-10 so với các phương pháp trước đây. Từ khóa Dò tìm trùng nhau báo cáo lỗi BM25 đặc điểm trọng lượng. I. GIỚI THIỆU Vấn đề bảo trì phần mềm đối với các kho phần mềm mã nguồn mở đóng một vai trò rất quan trọng việc tìm ra những lỗi từ người dùng để xử lý sẽ tránh được những rủi ro do phần mềm gây ra. Thông thường những tình huống này sẽ gửi đến hệ thống quản lý báo cáo lỗi như Bugzilla Eclipse Sau khi những báo cáo lỗi được gửi một hoặc nhiều người phát triển sẽ được giao nhiệm vụ phân tích những lỗi này và chuyển đến những lập trình viên phù hợp cho việc xử lý lỗi. Theo những bài báo gần đây vấn đề dò tìm lỗi trùng nhau đang nhận được nhiều sự quan tâm của các .