Bài toán trả lời câu hỏi trực quan (VQA) là bài toán kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi trình bày các chiến lược xây dựng bộ dữ liệu VQA mới bằng tiếng Việt, Flickr8k-ViQA, bằng cách sinh tự động các cặp câu hỏi – câu trả lời từ những chú thích của bộ dữ liệu Flickr8k. | XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN VISUAL QUESTION ANSWERING VĨNH ANH NGHIÊM QUÂN NGUYỄN THỊ LAN ANH NGUYỄN LÊ TRUNG THÀNH ĐINH THỊ DIỆU MINH Khoa Tin học Trường Đại học Sư phạm Đại học Huế Email vinhanhnghiemquan@ Tóm tắt Bài toán trả lời câu hỏi trực quan VQA là bài toán kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong bài báo này chúng tôi trình bày các chiến lược xây dựng bộ dữ liệu VQA mới bằng tiếng Việt Flickr8k-ViQA bằng cách sinh tự động các cặp câu hỏi câu trả lời từ những chú thích của bộ dữ liệu Flickr8k. Chúng tôi mô tả các công cụ đã sử dụng phân tích những trở ngại gặp phải trong quá trình xây dựng và cách khắc phục đồng thời đề xuất cách đánh giá các mô hình trên bộ dữ liệu này. Từ khóa Trả lời câu hỏi trực quan sinh câu hỏi tự động sinh câu hỏi trực quan. 1. MỞ ĐẦU Được đề xuất từ năm 2015 1 bài toán trả lời câu hỏi trực quan Visual Question Answering kết hợp hai lĩnh vực quan trọng của học máy Machine Learning là thị giác máy tính Computer Vision và xử lý ngôn ngữ tự nhiên Natural Language Processing . Dựa vào một hình ảnh và một câu hỏi ngôn ngữ tự nhiên về hình ảnh đó mô hình phải đưa ra một câu trả lời tương ứng bằng ngôn ngữ tự nhiên. Do câu hỏi có thể tập trung vào các vùng khác nhau của hình ảnh tiền cảnh foreground hậu cảnh background ngữ cảnh context hoặc các chi tiết khác nên đòi hỏi mô hình vừa phải nhận biết được các bộ phận của ảnh vừa phải kết hợp các bộ phận đó với câu hỏi và suy luận ra câu trả lời 1 . Các nghiên cứu bằng tiếng Việt về bài toán này hiện nay gặp một trở ngại chung đó là thiếu các bộ dữ liệu huấn luyện và kiểm thử bằng tiếng Việt. Do khác biệt về ngữ pháp và văn phạm nên việc huấn luyên trên bộ dữ liệu tiếng Anh hay ngôn ngữ khác rồi áp dụng vào tiếng Việt là không khả thi. Từ ý tưởng của Ren và cộng sự 2 trong bài báo này chúng tôi đề xuất một thuật toán cho phép sinh ra các cặp câu hỏi câu trả lời từ những câu mô tả hình ảnh vốn tồn tại với số lượng lớn .