Bài viết Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end trình bày cách tiếp cận mới cho nhận dạng tiếng nói dựa trên kiến trúc end2end và so sánh với mô hình hybrid truyền thống. Việc thử nghiệm kiến trúc end2end cho bài toán nhận dạng tiếng nói tiếng Việt cho kết quả ban đầu rất khả quan, mô hình end2end cho kết quả tốt hơn hybrid truyền thống ở tất cả các tập thử nghiệm. | Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN 978-604-82-5957-0 XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT THEO KIẾN TRÚC END2END Đỗ Văn Hải Trường Đại học Thủy lợi email haidv@ 1. MỞ ĐẦU áp dụng đầu tiên trong bài toán dịch máy. Trong bài toán này đầu vào là một chuỗi các Mô hình nhận dạng tiếng nói phổ biến nhất từ của ngôn ngữ nguồn đầu ra là một chuỗi hiện nay dựa trên kiến trúc lai hybrid giữa các từ của ngôn ngữ đích. Chiều dài chuỗi mô hình Markov ẩn HMM - Hidden Markov đầu vào và đầu ra có thể khác nhau. Công Model và mô hình mạng nơ ron sâu DNN - nghệ E2E cho nhận dạng tiếng nói được Deep Neural Network được đề xuất vào năm nghiên cứu và phát triển trong khoảng 3 năm 2012 1 . Mô hình lai này sử dụng HMM để gần đây đầu vào hệ thống là một chuỗi các mô hình hóa thông tin về thời gian của tiếng vector đặc trưng được trích chọn từ tín hiệu nói trong khi DNN được sử dụng để mô hình tiếng nói đầu ra là chuỗi các từ hay ký tự về phân bố các đặc trưng không gian của nhận dạng. Với thiết kế hệ thống trong một tiếng nói mô hình âm học . Ngoài ra để hệ mô hình đơn như vậy đã loại bỏ sự phức tạp thống nhận dạng hybrid có thể hoạt động về kiến trúc cũng như giảm sự cần thiết của được ta cần có từ điển phát âm để tạo ánh xạ các chuyên gia về ngôn ngữ trong khi xây từ mức từ sang mức âm vị và mô hình ngôn dựng hệ thống. Trong khi xây dựng hệ thống ngữ để lưu trữ những thông tin tri thức về ASR truyền thống ta cần xây dựng và tối ưu ngữ pháp về quy luật phân bố của các từ riêng các mô hình âm học ngôn ngữ từ điển trong một lĩnh vực hay một ngôn ngữ. Trải phát âm. Do đó hệ thống E2E có thể triển qua hơn 8 năm phát triển mô hình lai đã có khai nhanh với các ngôn ngữ mới mà không nhiều biến thể để nâng cao độ chính xác cũng cần nhiều đến sự giúp đỡ của các chuyên gia như giảm thời gian huấn luyện. Tuy nhiên ngôn ngữ. Do đó đây là ưu điểm rất lớn mà các module của mô hình nhận dạng lai được các tập đoàn đa quốc gia muốn tập trung thiết kế và tối ưu .