Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping

Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo! | HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử Tử Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin ECIT 2015 ECIT 2015 Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc Trần Văn Hoàng và Hoàng Trang Khoa Điện Điện Tử Trường Đại Học Bách Khoa ĐHQG TP. Hồ Chí Minh Email ducloc0506@ tvhoang@ hoangtrang@ Abstract Trong bài báo này mô hình nhận dạng mẫu từ đơn dạng của hệ thống khi thực nghiệm đối với bộ từ vựng 4 từ là tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải 9 và đối với bộ từ vựng gồm 10 từ 10 . thuật MFCC Mel-Frequency Cepstral Coefficients . Giải thuật thời gian động DTW Dynamic Time Warping được sử dụng để so Trong bài báo của chúng tôi hệ thống nhận dạng tiếng nói sánh tiếng nói đầu vào với các mẫu thu sẵn từ đó sẽ chọn ra được sử dụng phương pháp nhận dạng DTW được áp dụng với ngôn kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Hệ thống ngữ tiếng Việt với ưu điểm là tốc độ nhận dạng nhanh đơn nhận dạng được thực hiện và chạy trên board nhúng BeagleBone giản không yêu cầu bộ nhớ lớn với độ chính xác cao cao hơn Black do Texas Instruments sản xuất. Kết quả nhận dạng cao phù so với hệ thống thực hiện bằng ngôn ngữ tiếng anh 9-10 phù hợp với lý thuyết. hợp trong các hệ thống điều khiển yêu cầu tốc độ đáp ứng Keywords Nhận dạng từ đơn tiếng Việt MFCC DTW. nhanh và tài nguyên phần cứng hạn chế. Đặc biệt việc huấn luyện mẫu cho một từ chỉ yêu cầu một lần đọc làm cho tính linh động của hệ thống rất cao. Đồng thời trong bài báo này I. GIỚI THIỆU chúng tôi cũng tiến hành thực nghiệm với một người khác Nhận dạng tiếng nói là một kỹ thuật có nhiều ứng dụng không phải người huấn luyện cho kết quả khả quan chứng tỏ trong cuộc sống trong việc điều khiển bởi ưu điểm lớn nhất sự linh hoạt và tiện dụng của hệ thống khi áp dụng với ngôn của nó là tốc độ cao tương tác cao và trực quan với con ngữ tiếng

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.