Các đặc trưng âm thanh sử dụng trong mô hình nhận dạng giọng nói

Nghiên cứu này tập trung vào một số kỹ thuật được sử dụng phổ biến nhất bao gồm Mel Frequency Cepstral Coefficients (MFCC), Linear Prediction Coefficients (LPC), Linear Prediction Cepstral Coefficients (LPCC). Các dữ liệu đặc trưng này được sử dụng để xây dựng và huấn luyện mô hình học máy nhận dạng sự có mặt của các từ khóa trong giọng nói thu âm được. | Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN 978-604-82-7522-8 CÁC ĐẶC TRƯNG ÂM THANH SỬ DỤNG TRONG MÔ HÌNH NHẬN DẠNG GIỌNG NÓI Nguyễn Huy Thế Nguyễn Tuấn Anh Trường Đại học Thủy lợi email nguyenhuythe@ 1. GIỚI THIỆU CHUNG dạng .wav của hơn 30 từ tiếng Anh khác nhau với thời lượng khoảng 1s. Để đơn giản quá Nhận dạng giọng nói ngày càng được áp trình tính toán nghiên cứu này chỉ sử dụng các dụng rộng rãi đặc biệt là trong các lĩnh vực file âm thanh tương ứng với tám từ khóa yes tương tác người - máy bởi sự đa dạng và linh up down left right stop go off . hoạt trong ngôn ngữ giao tiếp. Các phương pháp nhận dạng giọng nói phổ biến dựa trên . Trích xuất đặc trưng âm thanh việc trích xuất thông tin đặc trưng từ giọng nói và sử dụng để huấn luyện các mô hình . Kỹ thuật MFCC nhận dạng. Trích xuất các đặc trưng âm thanh MFCC là một kỹ thuật phổ biến hàng đầu là bước rất quan trọng quyết định độ chính trong việc xử lý và nhận dạng giọng nói. Quá xác và hiệu quả của mô hình nhận dạng cần trình tính toán đặc trưng MFCC dựa trên thang được thực hiện đảm bảo yêu cầu hạn chế tối đo Mel có nguyên lý tương tự như cách cảm đa hoặc không mất mát thông tin. nhận âm thanh của tai người. Các bộ lọc tần số Hiện nay có rất nhiều kỹ thuật trích xuất được đặt cách đều nhau tại các tần số thấp và đặc trưng giọng nói đã được phát triển. được bố trí theo thang logarit tại các tần số Nghiên cứu này tập trung vào một số kỹ thuật cao từ đó thu được các đặc tính quan trọng về được sử dụng phổ biến nhất bao gồm Mel mặt ngữ âm của tín hiệu giọng nói. Bước đầu Frequency Cepstral Coefficients MFCC tiên của quá trình tính toán là chia nhỏ tệp tín Linear Prediction Coefficients LPC Linear hiệu âm thanh thu được thành các khung dữ Prediction Cepstral Coefficients LPCC . Các liệu. Sau đó là quá trình kích hoạt các mức tần dữ liệu đặc trưng này được sử dụng để xây số cao để tránh làm mất mát thông tin. Phép dựng và huấn luyện mô hình học máy nhận biến đổi Fast Fourier .

Bấm vào đây để xem trước nội dung
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
42    507    21    29-04-2024
80    368    2    29-04-2024
12    349    1    29-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.