The overall performance of the systems is often limited by the accuracy of the underlying speech parameterization and reconstruction method. The method proposed in this paper allows accurate MFCC, F0 and tone extraction and high-quality reconstruction of speech signals assuming Mel Log Spectral Approximation filter. Its suitability for high-quality HMM-based speech synthesis is shown through evaluations subjectively. | Tạp chí Tin học và Điều khiển học, , (2013), 55–65 TRÍCH CHỌN CÁC THAM SỐ ĐẶC TRƯNG TIẾNG NÓI CHO HỆ THỐNG TỔNG HỢP TIẾNG VIỆT DỰA VÀO MÔ HÌNH MARKOV ẨN PHAN THANH SƠN, DƯƠNG TỬ CƯỜNG Học viện Kỹ thuật Quân sự; Tóm t t. Phương pháp tổng hợp tiếng nói dựa trên mô hình Markov ẩn (HMM) chỉ cần một kho ngữ liệu tiếng nói thu âm sẵn đủ lớn (bao hàm tất cả các âm vị của một ngôn ngữ) để phục vụ cho mục đích huấn luyện. Trong phương pháp này, mô hình thống kê được sử dụng để mô hình hóa sự phân bố của các véctơ âm thanh phụ thuộc ngữ cảnh, các véctơ này được trích rút từ tín hiệu tiếng nói, mỗi véctơ là một tham số đặc trưng cho khung tín hiệu và các qui tắc ngữ âm tiếng Việt, phục vụ cho quá trình tổng hợp tiếng nói. Hiệu quả của hệ thống bị hạn chế bởi mức độ chính xác khi tham số hóa các đặc trưng tiếng nói và phương pháp tái tạo tín hiệu tiếng nói từ những tham số này. Bài báo này giới thiệu một phương pháp trích chọn các tham số MFCC, F0 và tái tạo tín hiệu tiếng nói chất lượng cao sử dụng bộ lọc MLSA. Phương pháp này thích hợp cho tổng hợp tiếng nói dựa trên HMM và kết quả của nó được đánh giá qua thực tế là khá tốt so với một số phương pháp khác. T khóa. Tổng hợp tiếng Việt, tham số hóa tiếng nói, tổng hựp tiếng nói tham số thống kê, mô hình Markov ẩn, hệ số phổ tần số thang Mel, tần số cơ bản. Abstract. Recently, the statistical framework based on Hidden Markov Models (HMMs) plays an important role in the speech synthesis method. The system can be built without requiring a very large speech corpus for training the system. In this method, statistical modeling is applied to learn distributions of context-dependent acoustic vectors extracted from speech signals, each vector contains a suitable parametric representation of one speech frame and Vietnamese phonetic rules to synthesize the speech. The overall performance of the systems is often limited by the accuracy of the underlying speech parameterization and reconstruction method. .