Hệ thống chuyển văn bản thành giọng nói cho nhiều người nói và nhiều ngôn ngữ

Bài viết Hệ thống chuyển văn bản thành giọng nói cho nhiều người nói và nhiều ngôn ngữ trình bày các nội dung: Huấn luyện mô hình cho nhiều người nói tiếng Việt kết hợp với cả tiếng Anh; Sử dụng domain adversarial training (DAT) với tên gọi speaker classifier để phân biệt người nói tốt hơn. | Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN 978-604-82-7522-8 HỆ THỐNG CHUYỂN VĂN BẢN THÀNH GIỌNG NÓI CHO NHIỀU NGƯỜI NÓI VÀ NHIỀU NGÔN NGỮ Nguyễn Thị Hương Giang Tạ Bảo Thắng Đỗ Văn Hải 1 Trường Đại học Bách khoa Hà Nội email 2 Trường Đại học Thủy lợi email haidv@ 1. GIỚI THIỆU CHUNG pitch duration speaker embedding và language embedding. Để huấn luyện cho Bài toán chuyển văn bản thành giọng nói giọng Việt mô hình sử dụng bộ âm vị tiếng TTS với các mô hình như Tacotron 7 Việt dựa trên X-SAMPA. Ví dụ âm vị 9X TransformerTTS 4 và FastSpeech 6 đã được chuyển từ âm â . Thanh điệu được mang lại các hệ thống TTS chất lượng cao đánh số từ 1 đến 8. cho một người nói với việc sử dụng lượng lớn dữ liệu huấn luyện sạch. Để giảm thiểu . Mô hình chi phí phát triển và triển khai trong thương Cấu trúc tổng quan của mô hình được mô mại việc xây dựng các hệ thống TTS cho tả như hình dưới nhiều người trở nên hấp dẫn. Dựa trên ý Trong đó Hình 1a biểu diễn sơ đồ tổng quát tưởng này và mô hình DelightfulTTS 5 của một hệ thống TTS với đầu vào là văn bản chúng tôi hướng đến một mô hình cho nhiều sau khi qua khối acoustic model sẽ ra được đặc người nói. Bên cạnh đó mô hình này còn có trưng tiếng nói ví dụ như spectrogram . Các thể sử dụng cho nhiều người nói với nhiều đặc trưng này được qua một bộ vocoder để tạo ngôn ngữ khác nhau từ đó có thể tạo ra các ra tiếng nói dạng waveform. audio mà người nói chưa từng nói ngôn ngữ kia trước đó ví dụ người Việt nói tiếng Anh được gọi là bài toán cross-lingual. Đóng góp của chúng tôi trong nghiên cứu này là 1 Huấn luyện mô hình cho nhiều người nói tiếng Việt kết hợp với cả tiếng Anh 2 Sử dụng domain adversarial training DAT với tên gọi speaker classifier để phân biệt người nói tốt hơn. 2. PHƯƠNG PHÁP NGHIÊN CỨU . Dữ liệu và tiền xử lý dữ liệu Dữ liệu được sử dụng là hai bộ dữ liệu sạch cho tiếng Việt và một bộ dữ liệu tiếng Anh cùng với textgrid. Hình 1. Kiến trúc mô hình. Hình a mô Trong

Bấm vào đây để xem trước nội dung
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.