Bài viết đề xuất một mô hình tổng hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương pháp Transfer Learning vào mô hình Deep Convolution Neural Network để sinh ra tiếng nói mới dựa trên tập dữ liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ hơn 45 lần so với khi dùng mô hình Tacotron 2. | Hội nghị Quốc gia lần thứ 24 về Điện tử Truyền thông và Công nghệ Thông tin REV-ECIT2021 Tổng hợp tiếng nói tiếng Việt dựa trên mạng CNN với tập dữ liệu hạn chế Lâm Quang Tường Nguyễn Tấn Đạt Lâm Khả Hân Đỗ Đức Hào Công ty Cổ phần Công nghệ OLLI Technology Trường Đại học Bách Khoa - Đại học Quốc Gia Thành phố Hồ Chí Minh Việt Nam Email tuong han hao @ Tóm tắt nội dung Bài báo đề xuất một mô hình tổng bản chứa nội dung của câu nói đó. Hay trong bài toán hợp tiếng nói tiếng Việt dựa trên việc áp dụng phương phân tích cảm xúc 2 tập dữ liệu cần có đánh giá của pháp Transfer Learning vào mô hình Deep Convolution khách hàng để phân tích cảm xúc của họ đối với từng Neural Network để sinh ra tiếng nói mới dựa trên tập dữ liệu huấn luyện rất nhỏ. Mô hình của chúng tôi có thể sản phẩm khác nhau . Đối với các mô hình tổng hợp tổng hợp giọng nói mới với lượng dữ liệu huấn luyện nhỏ tiếng nói việc xây dựng một tập dữ liệu bao gồm các hơn 45 lần so với khi dùng mô hình Tacotron 2. Mô hình cặp câu và thu âm giọng nói cũng hết sức quan trọng. của chúng tôi gồm hai giai đoạn 1 Huấn luyện một mô Tập dữ liệu huấn luyện sẽ ảnh hưởng trực tiếp đến độ tự hình DC-TTS trên giọng nói ban đầu với nhiều dữ liệu nhiên và độ thông minh của giọng nói sau khi được tổng 2 Áp dụng phương pháp Transfer Learning vào mô hình hợp. Tuy nhiên việc thu thập và xử lý tập dữ liệu với đã được huấn luyện trước đó để sinh giọng mới với lượng nhiều giờ giọng nói thu âm cũng gặp nhiều khó khăn. ít dữ liệu thu âm. Sau quá trình huấn luyện chỉ với 320 câu nói khoảng 1 giờ mô hình sẽ có thể tạo ra giọng nói Ví dụ như việc nghe lại câu nói và đối chiếu với nội mới với chất lượng cao. Độ đo MOS trên giọng nói sinh dung để có thể loại bỏ các sai sót đến từ quá trình thu ra xấp xĩ với kết quả của mô hình Tacotron 2 nhưng chỉ âm. Vì vậy chúng tôi đề xuất một ý tưởng xây dựng một với lượng dữ liệu huấn luyện nhỏ hơn rất nhiều. Điều này mô hình tổng hợp tiếng nói end-to-end .