Bài viết trình bày việc đề xuất một mô hình sử dụng kỹ thuật attention trên hình ảnh được tăng cường thêm các thông tin khái niệm và cải tiến chiến lược beam search trong quá trình phát sinh câu mô tả. | Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học PHÁT SINH CÂU MÔ TẢ CHO HÌNH ẢNH DÙNG PHƯƠNG PHÁP ATTENTION TĂNG CƯỜNG THÔNG TIN KHÁI NIỆM Võ Hồ Việt Khoa Lương Quốc An Trần Minh Triết Trường Đại học Khoa học Tự nhiên Đại học Quốc gia TP. Hồ Chí Minh Tác giả liên lạc vhvkhoa@ TÓM TẮT Bài tóa n phát sinh câu mô tả là một bài tóa n khó. Sự phát triển của các mô hình mạng nơ-ron nhân tạo kết hợp với kỹ thuật attention đã cho ra nhiều kết quả tốt trong bài tóa n này. Tuy nhiên vẫn còn nhiều vấn đề trong bài tóa n chưa được giải quyết triệt để. Đặc biệt là vấn đề về tính toàn vẹn của câu mô tả và độ chi tiết của câu mô tả. Trong đề tài này nhóm sinh viên từ những mô hình đã tìm hiểu đề xuất một mô hình sử dụng kỹ thuật attention trên hình ảnh được tăng cường thêm các thông tin khái niệm và cải tiến chiến lược beam search trong quá trình phát sinh câu mô tả. Nhóm thử nghiệm mô hình trên tập dữ liệu MSCOCO với các độ đo BLEU METEOR ROUGE-L CIDEr. Kết quả cho thấy mô hình đạt được một số cải thiện trong việc giải quyết vấn đề mô tả câu chi tiết tuy nhiên vẫn còn nhiều hạn chế. Từ khóa Phát sinh mô tả cho hình ảnh mô hình attention beam search sequences model. IMAGE CAPTION GENERATION WITH ATTENTION ON IMAGE AND CONCEPTS AUGMENTATION Vo Ho Viet Khoa Luong Quoc An Tran Minh Triet University of Science VNU Ho Chi Minh City Corresponding Author vhvkhoa@ ABSTRACT Image captioning is a challenging problem in Computer Vision. The development of artificial neural network combined with attention mechanism has showed good performance in this problem. However there are a lot of unsolved issues in image captioning especially the completeness and detail of the generated captions. In this research we propose a captioning model using attention mechanism over image features combined with information from concepts extracted from images. We also propose a modified beam search to find a complete caption. We report results on MSCOCO dataset