Đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (Vais, Viettel, Zalo, Fpt và Google) trong bản tin

Bài viết này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (VASP-Vietnamese Automatic Speech Recognition) trong bản tin từ các công ty hàng đầu của Việt Nam như Vais (Vietnam AI System), Viettel, Zalo, Fpt và công ty hàng đầu thế giới Google. Mời các bạn cùng tham khảo! | Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 63 04 2021 28 Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh ĐÁNH GIÁ CÁC HỆ THỐNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT VAIS VIETTEL ZALO FPT VÀ GOOGLE TRONG BẢN TIN EVALUATION OF VIETNAMESE SPEECH RECOGNITION PLATFORMS VAIS VIETTEL ZALO FPT AND GOOGLE IN NEWS Nguyễn Thị Mỹ Thanh Phan Xuân Dũng Nguyễn Ngọc Hay Lê Ngọc Bích Đào Xuân Quy Trường Đại học Quốc tế Miền Đông Việt Nam Ngày toà soạn nhận bài 20 10 2020 ngày phản biện đánh giá 12 11 2020 ngày chấp nhận đăng 5 2 2021 TÓM TẮT Bài báo này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt VASP-Vietnamese Automatic Speech Recognition trong bản tin từ các công ty hàng đầu của Việt Nam như Vais Vietnam AI System Viettel Zalo Fpt và công ty hàng đầu thế giới Google. Để đánh giá các hệ thống nhận dạng giọng nói chúng tôi sử dụng hệ số Word Error Rate WER với đầu vào là văn bản thu được từ các hệ thống Vais VASP Viettel VASP Zalo VASP Fpt VASP và Google VASP. Ở đây chúng tôi sử dụng tập tin âm thanh là các bản tin và API từ các hệ thống Vais VASP Viettel VASP Zalo VASP Fpt VASP và Google VASP để đưa ra văn bản được nhận dạng tương ứng. Kết quả so sánh WER từ Vais Viettel Zalo Fpt và Google cho thấy hệ thống nhận dạng tiếng nói tiếng Việt trong các bản tin từ Viettel Zalo Fpt và Google đều có kết quả tốt trong đó Vais cho kết quả vượt trội hơn. Từ khóa Xử lý ngôn ngữ tự nhiên Nhận dạng tiếng nói WER tin tức Api. ABSTRACT This article introduces an evaluation of Vietnamese Automatic Speech Recognition VASR in the news domain from top Vietnamese speech recognition companies such as Vais Viettel Zalo Fpt and top world company such as Google. To evaluate speech recognition systems Word Error Rate WER coefficient with recognized text inputs from Vais VASP Viettel VASP Zalo VASR Fpt VASP and Google VASP platforms were utilized. The recognized texts were acquired by using audio files in the news domain and APIs from Vais VASP Viettel VASP Zalo VASR Fpt VASP and Google .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.