Bài viết Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng trình bày việc xây dựng dữ liệu băng hẹp để nâng cao chất lượng của mô hình nhận dạng tiếng nói băng rộng. Các thử nghiệm khác nhau đã chỉ ra rằng, sử dụng thêm dữ liệu băng hẹp luôn mang lại sự cải thiện cho mô hình băng rộng. | Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN 978-604-82-5957-0 PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN MÔ HÌNH NHẬN DẠNG TIẾNG NÓI BĂNG RỘNG Đỗ Văn Hải Phạm Thanh Bình Nguyễn Thị Phương Thảo Trường Đại học Thủy lợi 1. MỞ ĐẦU Trong nghiên cứu này chúng tôi đề xuất phương pháp có thể tận dụng dữ liệu băng Trong hệ thống nhận dạng tiếng nói tín hẹp để nâng cao chất lượng nhận dạng cho hiệu được ghi âm thường được lấy mẫu ở tần mô hình băng rộng. Có thể chất lượng của tín số 16kHz tín hiệu băng rộng dùng trong các hiệu băng hẹp không bằng dữ liệu dữ liệu ứng dụng ghi âm thông thường. Tuy nhiên băng rộng tuy nhiên với số lượng lớn và loại trong hệ thống điện thoại tần số lấy mẫu chỉ dữ liệu khác biệt ta vẫn hi vọng dữ liệu băng là 8kHz tín hiệu băng hẹp . Thông thường hẹp sẽ bổ sung thêm thông tin để vào để tăng hai loại dữ liệu này được sử dụng độc lập cường chất lượng mô hình băng rộng. nhau để huấn luyện ra hai loại mô hình nhận dạng tiếng nói riêng biệt. 2. PHƯƠNG PHÁP TIẾP CẬN Hình 1 miêu tả tín hiệu của một file tiếng nói băng rộng có tần số lấy mẫu 16kHz Một vấn đề đặt ra là làm sao có thể sử fmax 8kHz ở dưới và vẫn nguồn âm thanh dụng dữ liệu băng rộng với dữ liệu băng hẹp đó nhưng lấy mẫu ở 8kHz hình trên . Ta khi mà toàn bộ phổ thông tin tiếng nói từ thấy rằng với tín hiệu có tần số lấy mẫu 8kHz 4-8kHz của tín hiệu băng hẹp bị mất hết thì toàn bộ phổ spectrum tín hiệu từ 4kHz Hình 1. Xuất phát từ ý tưởng các bộ khử nhiễu đến 8kHz bị mất. denoiser được phát triển gần đây khi ta đưa đầu vào là tín hiệu tiếng nói có nhiễu đầu ra sẽ là tín hiệu tiếng nói sạch 1 chúng ta có thể xây dựng một bộ tái tạo reconstructor từ tín hiệu băng hẹp lên tín hiệu băng rộng sử dụng cơ chế tương tự với các denoiser. Trong nghiên cứu này chúng tôi sử dụng đầu vào của bộ tái tạo sẽ là tín hiệu băng hẹp đầu ra sẽ là tín hiệu băng rộng được tái tạo lại từ tín hiệu băng hẹp. Để huấn luyện việc tái tạo này ta thực hiện quy trình huấn luyện sử dụng mô hình mạng nơ ron