Speech recognition using neural networks - Chapter 6

Predictive Networks Mạng lưới thần kinh có thể được đào tạo để tính toán trơn tru, phi tuyến, chức năng nonparametric từ bất kỳ không gian đầu vào bất kỳ không gian đầu ra. Hai loại rất chung chung của các chức năng dự báo và phân loại, như thể hiện trong hình . Trong một mạng lưới dự báo, các đầu vào khung hình một số bài phát biểu, và các kết quả đầu ra được một dự đoán của khung hình tiếp theo của bài phát biểu, bằng cách sử dụng nhiều mạng dự đoán, một cho mỗi. | 6. Predictive Networks Neural networks can be trained to compute smooth nonlinear nonparametric functions from any input space to any output space. Two very general types of functions are prediction and classification as shown in Figure . In a predictive network the inputs are several frames of speech and the outputs are a prediction of the next frame of speech by using multiple predictive networks one for each phone their prediction errors can be compared and the one with the least prediction error is considered the best match for that segment of speech. By contrast in a classification network the inputs are again several frames of speech but the outputs directly classify the speech segment into one of the given classes. Predictions of frame t separate networks Classification of frames frames 1 t-1 t Figure Prediction versus Classification. In the course of our research we have investigated both of these approaches. Predictive networks will be treated in this chapter and classification networks will be treated in the next chapter. 77 78 6. Predictive Networks . Motivation. and Hindsight We initially chose to explore predictive networks for a number of reasons. The principal reason was scientific curiosity all of our colleagues in 1989 were studying classification networks and we hoped that our novel approach might yield new insights and improved results. On a technical level we argued that 1. Classification networks are trained on binary output targets and therefore they produce quasi-binary outputs which are nontrivial to integrate into a speech recognition system because binary phoneme-level errors tend to confound word-level hypotheses. By contrast predictive networks provide a simple way to get nonbinary acoustic scores prediction errors with straightforward integration into a speech recognition system. 2. The temporal correlation between adjacent frames of speech is explicitly modeled by the predictive approach but not by the classification .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.