Một phương pháp phân lớp ảnh đa nhãn dựa trên mạng tích chập đồ thị

Phân lớp ảnh đa nhãn là một trong những tác vụ quan trọng và thách thức trong thị giác máy tính. Trong bài viết này, một phương pháp phân lớp ảnh đa nhãn được đề xuất dựa trên mạng tích chập đồ thị hướng đến việc khai thác mối quan hệ giữa các nhãn lớp trong tập dữ liệu và giữa các đối tượng trong ảnh nhằm nâng cao độ chính xác. | TẠP CHÍ KHOA HỌC HO CHI MINH CITY UNIVERSITY OF EDUCATION TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH JOURNAL OF SCIENCE Tập 20 Số 5 2023 831-841 Vol. 20 No. 5 2023 831-841 ISSN Website https https 2023 2734-9918 Bài báo nghiên cứu MỘT PHƯƠNG PHÁP PHÂN LỚP ẢNH ĐA NHÃN DỰA TRÊN MẠNG TÍCH CHẬP ĐỒ THỊ Nguyễn Văn Thịnh1 Trần Văn Lăng2 Văn Thế Thành1 Trường Đại học Sư phạm Thành phố Hồ Chí Minh Việt Nam 1 Trường Đại học Ngoại ngữ Tin học Thành phố Hồ Chí Minh Việt Nam 2 Tác giả liên hệ Nguyễn Văn Thịnh Email thinhnv@ Ngày nhận bài 18-10-2022 ngày nhận bài sửa 21-02-2023 ngày duyệt đăng 27-02-2023 TÓM TẮT Phân lớp ảnh đa nhãn là một trong những tác vụ quan trọng và thách thức trong thị giác máy tính. Trong bài báo này một phương pháp phân lớp ảnh đa nhãn được đề xuất dựa trên mạng tích chập đồ thị hướng đến việc khai thác mối quan hệ giữa các nhãn lớp trong tập dữ liệu và giữa các đối tượng trong ảnh nhằm nâng cao độ chính xác. Đầu tiên nội dung hình ảnh được học biểu diễn bằng mạng nơ-ron tích chập CNN Convolutional Neural Network và mạng tích chập đồ thị GCN Graph Convolutional Network dựa trên đồ thị ngữ cảnh scene graph của ảnh. Sau đó đồ thị mô tả sự phụ thuộc giữa các nhãn đối tượng trong tập dữ liệu được xây dựng làm cơ sở cho việc học các bộ phân lớp cho các nhãn bằng cách sử dụng GCN từ đó áp dụng các bộ phân lớp này cho đặc trưng ảnh để tạo ra các giá trị nhãn lớp dự đoán. Cuối cùng toàn bộ mạng được huấn luyện sử dụng cách phân lớp đa nhãn truyền thống. Thực nghiệm được xây dựng và đánh giá trên tập dữ liệu là phần giao giữa tập Visual Genome và MS COCO. Kết quả thực nghiệm cho thấy phương pháp đề xuất là hiệu quả và vượt trội hơn một số công trình đã công bố gần đây. Từ khóa convolutional neural network graph convolutional network label graph multi-label image classification scene graph 1. Giới thiệu Hình ảnh trong các ứng dụng thực thế thường miêu tả nhiều đối tượng và ngữ cảnh phức tạp phân lớp

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.