Đối với ngôn ngữ như tiếng Việt, thanh điệu đóng vai trò quan trọng trong việc cấu tạo nên từ. Nghĩa của các từ có cùng âm vị nhưng có thể khác nhau nếu mang các thanh điệu khác nhau. Để xử lý thanh điệu trong hệ tổng hợp, các tác giả dùng mô hình Fujisaki hiệu chỉnh đường thanh điệu sao cho phù hợp với đường thanh điệu của giong nói tự nhiên. Trong hệ nhận dạng thanh điệu tiếng Việt, các tác giả sử dụng mạng Nơron trên tiếng nói rời rạc phụ thuộc người nói, đại độ chính xác 93%.