Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường vẫn còn chứa một phần nhiễu. | Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học Kỹ thuật điều khiển & Điện tử NHẬN DẠNG TIẾNG NÓI BỀN VỮNG SỬ DỤNG KỸ THUẬT THỪA SỐ HÓA MA TRẬN KHÔNG ÂM KẾT HỢP VỚI KỸ THUẬT VỀ ĐỘ KHÔNG ĐẢM BẢO CỦA CÁC ĐẶC TRƯNG ÂM HỌC Nguyễn Hữu Bình1, Phạm Thị Ngọc Yến1,2, Nguyễn Quốc Cường1,2* Tóm tắt: Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường vẫn còn chứa một phần nhiễu. Thông tin sai khác giữa tín hiệu nâng cao và tín hiệu sạch, hay gọi là độ không đảm bảo, có thể là thông tin hữu ích cho quá trình giải mã của hệ thống nhận dạng tiếng nói. Trong bài báo này, chúng tôi trình bày một phương pháp nâng cao chất lượng hệ thống nhận dạng tiếng nói dựa trên kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật giải mã sử dụng thông tin về độ không đảm bảo của vec-tơ đặc trưng. Chúng tôi đã đánh giá phương pháp kết hợp này trong hệ thống nhận dạng tiếng nói tiếng Việt. Các kết quả cho thấy phương pháp kết hợp đã nâng cao độ chính xác của hệ thống nhận dạng hơn so với việc chỉ sử dụng kỹ thuật thừa số hóa ma trận không âm trong hệ thống nhận dạng tiếng nói. Từ khóa: Nhận dạng tiếng nói, Thừa số hóa ma trận không âm, Ước lượng độ không đảm bảo. 1. ĐẶT VẤN ĐỀ Nhận dạng tiếng nói tự động (ASR: Automatic Speech Recognition) là lĩnh vực thu hút sự quan tâm của nhiều nhà nghiên cứu trong các ứng dụng về tương tác người máy và dịch tiếng nói tự động. Kết quả nhận dạng trong môi trường không nhiễu đạt tỷ lệ khá cao, hơn 90%. Tuy nhiên, trong môi trường ứng dụng thực tế có nhiễu thì chất lượng nhận dạng giảm đáng kể do có sự sai khác giữa cơ sở dữ liệu dùng để huấn luyện