Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END

Bài viết Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END trình bày cách tiếp cận tăng cường dữ liệu 2 pha cho mô hình nhận dạng tiếng nói dựa trên kiến trúc End2End. Kết quả thử nghiệm với các bộ test khác nhau đã cho thấy sai số giảm rõ rệt. | Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN 978-604-82-7001-8 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HAI PHA CHO MÔ HÌNH NHẬN DẠNG TIẾNG NÓI THEO KIẾN TRÚC END2END Nguyễn Thị Phương Thảo1 Phạm Thanh Bình1 Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. MỞ ĐẦU của phổ tín hiệu tiếng nói một cách ngẫu nhiên Đối với bài toán nhận dạng tiếng hay các theo cả chiều tần số và thời gian. Kỹ thuật này bài toán về học máy khác thì dữ liệu thực tế đã giúp cải thiện độ ổn định của các mô hình thử nghiệm test càng giống với dữ liệu huấn nhận dạng E2E lên một cách rõ rệt. luyện train thì càng tốt. Tuy nhiên điều này Trong nghiên cứu này chúng tôi thử hiếm khi xảy ra trong thực tế. Do đó luôn có nghiệm các mô hình nhận dạng E2E trong sự sai khác mismatch giữa dữ liệu huấn điều kiện môi trường có nhiễu. Đây là kịch luyện dẫn xuất là mô hình và dữ liệu test. bản rất hay xuất hiện trong thực tế. Dữ liệu Trong những năm gần đây nổi lên một huấn luyện thu âm trong môi trường ít nhiễu cách tiếp cận mới trong nhận dạng tiếng nói nhưng dữ liệu lúc thử nghiệm lại là trong môi đang được các nhóm nghiên cứu lớn đang trường có nhiễu. Để giúp mô hình nhận dạng nghiên cứu phát triển đó là nhận dạng tiếng E2E ổn định với môi trường có nhiễu chúng nói dựa trên kiến trúc end-to-end E2E 1 . tôi đề xuất một quy trình tăng cường dữ liệu Công nghệ E2E được dựa trên cơ chế từ gồm 2 pha. chuỗi đến chuỗi sequence to sequence được Pha 1 Bổ sung thêm nhiễu vào tín hiệu áp dụng đầu tiên trong bài toán dịch máy. tiếng nói. Trong bài toán này đầu vào là một chuỗi các Pha 2 Sử dụng phương pháp SpecAugment từ của ngôn ngữ nguồn đầu ra là một chuỗi để che đi một phần tín hiệu trên miền thời gian các từ của ngôn ngữ đích. Chiều dài chuỗi và tần số của tín hiệu đã được bổ sung nhiễu ở đầu vào và đầu ra có thể khác nhau. pha 1. Trong cuộc thi VLSP 2021 về nhận dạng Với phương pháp đề xuất này mô hình nhận tiếng nói tiếng Việt1 trong 6 đội có kết quả dạng tiếng nói E2E đã cho kết quả nhận dạng cao nhất có đến 5 đội .

Bấm vào đây để xem trước nội dung
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.