Bài viết đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả, gọi là GSIR (Graph-based semisupervised learning for image retrieval), cho phép nâng cao độ chính xác hệ thống tra cứu ảnh thông qua việc cân bằng số mẫu trong mỗi lớp của tập ví dụ huấn luyện dựa trên một phương pháp học bán giám sát trong đồ thị. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT DỰA VÀO ĐỒ THỊ XÂY DỰNG TẬP MẪU CÂN BẰNG CHO TRA CỨU ẢNH Cù Việt Dũng1 An Hồng Sơn2 Nguyễn Hữu Quỳnh1 Ngô Quốc Tạo3 Đào Thị Thúy Quỳnh4 Khoa Công nghệ thông tin Trường Đại học Thủy lợi 1 2 Trường Đại học Công nghiệp Việt Hung 3 Viện Công nghệ thông tin Viện Hàn lâm Khoa học và Công nghệ Việt Nam 4 Khoa Công nghệ thông tin Học viện bưu chính viễn thông dungcv@ sonanhongvh@ nhquynh@ nqtao@ thuyquynhtn90@ TÓM TẮT Đã có nhiều phương pháp tra cứu ảnh phản hồi liên quan sử dụng máy véc tơ hỗ trợ SVM . Tuy nhiên trong phản hồi thường bỏ qua các mẫu chưa có nhãn số lượng mẫu được cung cấp bởi người dùng thường bị giới hạn và còn không đảm bảo gán nhãn mỗi mẫu phản hồi chính xác cho tất cả các lần. Do đó chỉ dựa vào số các mẫu do người dùng phản hồi sẽ làm cho bộ phân lớp của SVM không ổn định. Trong bài báo này chúng tôi đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả gọi là GSIR Graph-based semisupervised learning for image retrieval cho phép nâng cao độ chính xác hệ thống tra cứu ảnh thông qua việc cân bằng số mẫu trong mỗi lớp của tập ví dụ huấn luyện dựa trên một phương pháp học bán giám sát trong đồ thị. Chúng tôi cũng cung cấp các kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng gồm 10800 ảnh để chỉ ra độ chính xác của phương pháp. Từ khóa Tra cứu ảnh học bán giám sát đồ thị cân bằng mẫu. I. GIỚI THIỆU Trong những năm qua đã có nhiều sự quan tâm dành cho lĩnh vực tra cứu ảnh dựa vào nội dung 2 4 6 11 12 14 23 . Để đo độ tương tự giữa ảnh truy vấn và các ảnh trong cơ sở dữ liệu 1 3 7 8 10 16 18 độ đo khoảng cách Euclidean được sử dụng phổ biến trong các hệ thống tra cứu ảnh truyền thống. Khoảng trống giữa các đặc trưng trực quan mức thấp và các khái niệm ngữ nghĩa mức cao đã làm cho độ đo này trở nên không hiệu quả. Để giảm