Cải thiện mô hình nhận dạng cảm xúc tiếng nói

Để xác minh tính hiệu quả của phương pháp chúng tôi đề xuất cũng như ảnh hưởng của các yếu tố về ngôn ngữ, các thử nghiệm được thực hiện trên 2 bộ dữ liệu: (1) một bộ dữ liệu được tổng hợp từ các bộ dữ liệu công khai, (2) một bộ dữ liệu tiếng Việt nhỏ được thu thập từ YouTube. | Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN 978-604-82-7522-8 CẢI THIỆN MÔ HÌNH NHẬN DẠNG CẢM XÚC TIẾNG NÓI Ngô Thị Thu Huyền1 2 Tạ Bảo Thắng1 2 Đỗ Văn Hải3 1 Trường Đại học Bách khoa Hà Nội email huyenthu432002@ 2 Trung tâm không gian mạng Viettel email tabaothang97@ 3 Trường Đại học Thủy lợi email haidv@ 1. GIỚI THIỆU Nhận dạng cảm xúc tiếng nói Speech Emotion Recognition - SER là một chủ đề nghiên cứu quan trọng cho các hệ thống thông minh tương tác với các ứng dụng rộng rãi trong nhiều nhiệm vụ chẳng hạn như dịch vụ khách hàng phân tích mạng xã hội và giáo dục. Đây là một nhiệm vụ khó khăn vì có nhiều cách để thể hiện cảm xúc. Ngoài ra yếu tố ngôn ngữ cũng ảnh hưởng đến việc xác định cảm xúc. Để giải quyết vấn đề trên việc rút ra những đặc điểm quan trọng từ giọng nói để xác định cảm xúc của người nói là rất cần thiết. Phương pháp được đề xuất là kết hợp các đặc điểm cao độ vào mô hình Wav2Vec 1 - công nghệ trích xuất các đặc điểm âm thanh tiên tiến nhất từ dạng sóng âm thanh. Để xác minh tính hiệu quả của phương pháp chúng tôi đề xuất cũng như ảnh hưởng của các yếu tố về ngôn ngữ các thử nghiệm được thực hiện trên 2 bộ dữ liệu 1 một bộ dữ liệu được tổng hợp từ các bộ dữ liệu công khai 2 một bộ dữ liệu tiếng Việt nhỏ được thu thập từ YouTube. Kết quả cho thấy cảm xúc của tiếng nói bị ảnh hưởng bởi ngôn ngữ và mô hình đề xuất cho kết quả Hình 1. Kiến trúcmô hình đề xuất tốt nhất trên cả bộ dữ liệu tiếng Anh và tiếng Việt với tỷ lệ lần lượt là 91 87 và 75 60 độ . Mô hình pretrained Wav2Vec chính xác. Quá trình huấn luyện trước Wav2Vec 2. MÔ HÌNH ĐỀ XUẤT tương tự như masked language modeling Mô hình baseline là mô hình chỉ sử dụng trong BERT và được thực hiện trong cài đặt Wav2Vec 1 để đoán nhãn cảm xúc. tự giám sát. Mô hình đề xuất của bài báo này Nghiên cứu này đề xuất một mô hình có tên sử dụng mô hình Wav2Vec bản base 12 joint pitch - Wav2Vec tích hợp cao độ - khối transformer với kích thước .

Bấm vào đây để xem trước nội dung
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
5    74    2    30-04-2024
8    62    2    30-04-2024
12    610    4    30-04-2024
62    122    3    30-04-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.