Xây dựng bộ dữ liệu tiếng Việt cho bài toán trả lời câu hỏi trực quan (visual question answering)