Integrating image features with convolutional sequence to sequence network for multilingual visual question answering

Visual question answering is a task that requires computers to give correct answers for the input questions based on the images. This task can be solved by humans with ease, but it is a challenge for computers. The VLSP2022-EVJVQA shared task carries the Visual question answering task in the multilingual domain on a newly released dataset UIT-EVJVQA, in which the questions and answers are written in three different languages: English, Vietnamese, and Japanese. | Journal of Computer Science and Cybernetics 2024 1- DOI no 1813-9663 18155 INTEGRATING IMAGE FEATURES WITH CONVOLUTIONAL SEQUENCE-TO-SEQUENCE NETWORK FOR MULTILINGUAL VISUAL QUESTION ANSWERING TRIET M. THAI SON T. LUU University of Information Technology Ho Chi Minh City Viet Nam Vietnam National University Ho Chi Minh City Viet Nam Abstract. Visual question answering is a task that requires computers to give correct answers for the input questions based on the images. This task can be solved by humans with ease but it is a challenge for computers. The VLSP2022-EVJVQA shared task carries the Visual question answering task in the multilingual domain on a newly released dataset UIT-EVJVQA in which the questions and answers are written in three different languages English Vietnamese and Japanese. We approached the challenge as a sequence-to-sequence learning task in which we integrated hints from pre-trained state-of-the-art VQA models and image features with a convolutional sequence-to-sequence network to generate the desired answers. Our results obtained up to by F1 score on the public test set and on the private test set. Keywords. Visual question answering Sequence-to-sequence learning Multilingual Multimodal. Abbreviations QA Question answering VQA Visual question answering VLSP Association for Vietnamese language and speech processing Seq2Seq Sequence-to-sequence ViT Vision transformer SOTA State-of-the-art GRU Gated recurrent unit GLU Gate linear unit LSTM Long short-term memory RNN Recurrent neural network API Application programming interface ConvS2S Convolutional sequence-to-sequence network Bi-RNN Bi-directional recurrent neural networks ConvS2S Convolutional sequence-to-sequence network BERT Bidirectional encoder representations from transformers Corresponding author. E-mail addresses 19522397@ sonlt@ . Luu . 2024 Vietnam Academy of Science amp Technology 2 TRIET M. THAI SON T. LUU 1. .

Kiên Trung 3 18 pdf

Upload

Không thể tạo bản xem trước, hãy bấm tải xuống

Tải xuống

TÀI LIỆU LIÊN QUAN

ViCAN: Co-attention network for Vietnamese visual question answering

7 148 1

Xây dựng bộ dữ liệu tiếng Việt cho bài toán trả lời câu hỏi trực quan (visual question answering)

10 230 3

Visual and Performing Arts Content Standards for California Public Schools

172 53 0

TÀI LIỆU XEM NHIỀU

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40891 2412

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24944 248

31 Câu hỏi ôn tập môn Chủ nghĩa xã hội khoa học

25 24489 4281

Tiểu luận: Vai trò của Nguyễn Ái Quốc đối với việc thành lập Đảng Cộng sản Việt Nam

16 20068 2846

Tiểu luận Tình huống xử lý sai phạm trong thanh toán công tác phí lưu động

20 19494 1549

100 câu hỏi trắc nghiệm Triết học Mác-Lênin kèm đáp án

14 19304 2967

Bảng biến đổi Laplace và biến đổi Z

1 19275 616

Ebook Ôn luyện tiếng Anh 9 có đáp án: Phần 2 - Mai Lan Hương, Hà Thanh Uyên

37 16169 2958

Đề thi và Đáp án môn Tiếng Việt thực hành - ĐH SPKT TP.HCM

3 15996 330

Sự so sánh văn bản văn học và tác phẩm văn học

1 14592 133

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Bài giảng môn GDCD lớp 9 - Bài 5: Tình hữu nghị giữa các dân tộc trên thế giới

44 312 1 01-06-2024

Luận văn Thạc sĩ Luật học: Thực tiễn xử lý vi phạm pháp luật về Bảo hiểm xã hội trên địa bàn tỉnh Phú Thọ

102 73 1 01-06-2024

Nghiên cứu âm nhạc Trung Hoa: Phần 1

77 140 3 01-06-2024

Giáo án môn Tin học lớp 12 - Bài 8: Truy vấn dữ liệu

6 93 1 01-06-2024

Giáo án môn Toán lớp 3 sách Chân trời sáng tạo - Tuần 20: Phép trừ các số trong phạm vi 10000 (Tiết 2)

5 259 1 01-06-2024

Mô tả đặc điểm thiếu máu của bệnh nhân thiếu hụt glucose-6-phosphate dehydrogenase tại Bệnh viện Đa khoa quốc tế Hải Phòng

4 450 2 01-06-2024

Bài giảng Quản trị chuỗi cung ứng - Chương 3: Mua hàng và quản lý nguồn cung

19 353 6 01-06-2024

Xác định đột biến EGFR-T790M gây kháng thuốc ức chế tyrosine kinase thế hệ thứ nhất ở bệnh nhân ung thư phổi không tế bào nhỏ bằng kỹ thuật scorpions ARMS real-time PCR

5 340 1 01-06-2024

Khảo sát biến cố bất lợi trên bệnh nhân sử dụng glucocorticoid đường uống ngoại trú trên 3 tháng tại Bệnh viện Nhân dân Gia Định

5 344 1 01-06-2024

Effects of a fixed low-dose ropivacaine with different volume and concentrations on interscalene brachial plexus block: A randomized controlled trial

8 53 1 01-06-2024

Helium solubility in oxide nuclear fuel: Derivation of new correlations for Henry’s constant

5 71 1 01-06-2024

Bộ 10 đề thi học kì 2 môn Lịch sử lớp 6 năm 2020-2021 (Có đáp án)

40 80 1 01-06-2024

Cong vẹo cột sống và một số yếu tố liên quan ở học sinh tiểu học dân tộc Khmer tại 2 tỉnh Sóc Trăng và An Giang

5 614 1 01-06-2024

Luận văn Thạc sĩ Quản trị kinh doanh: Phát triển nguồn nhân lực tại Công ty Điện lực Gia Lai

147 60 1 01-06-2024

Đề thi kết thúc học phần học kì 1 môn Cơ sở Khoa học xã hội năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp

3 200 2 01-06-2024

Một vài ý kiến về việc ứng dụng phần mềm mã nguồn mở trong xây dựng và phát triển thư viện số từ đào tạo đến thực tiễn

5 363 2 01-06-2024

Ebook Finite element modelling of composite materials and structures: Part 1

131 92 2 01-06-2024

Luận văn Thạc sĩ Quản trị kinh doanh: Ứng dụng của mô hình Z-Score trong quản trị rủi ro tín dụng tại Ngân hàng TMCP Công Thương Việt Nam – Chi nhánh Hoàng Mai

117 79 4 01-06-2024

Đề thi chọn đội dự tuyển Quốc gia môn Toán năm 2022 - Sở GD&ĐT An Giang

1 100 1 01-06-2024

Saccharomyces cerevisiae fermentation products (SCFP) stabilize the ruminal microbiota of lactating dairy cows during periods of a depressed rumen pH

17 56 1 01-06-2024

TÀI LIỆU HOT

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24944 248

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40891 2412

CẬP NHẬT KINH TẾ VĨ MÔ VIỆT NAM 6 tháng đầu năm 2020

3 2777 81

Sách trắng Doanh nghiệp Việt Nam năm 2020

580 5093 363

Việt Nam 2035 hướng tới thịnh vượng, sáng tạo, công bằng và dân chủ

584 3346 100

BÀI GIẢNG DỰNG HÌNH SKETCHUP 2020 BIÊN SOẠN : GV.KTS PHAN THỨC

62 6668 1

GIÁO TRÌNH TIẾNG ANH ENG BREAKING

171 5701 720

Quản trị khủng hoảng trong quan hệ công chúng

2 3137 78

Báo cáo thực tập chuyên ngành: Nghiên cứu, thiết kế, mô phỏng robot công nghiệp

51 4465 200

Đề tài “ Cân đối ngân sách nhà nước- thực trạng và hướng hoàn thiện”

53 4749 189

Đã phát hiện trình chặn quảng cáo AdBlock

Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.