Kết hợp mô hình thừa số hóa ma trận không âm với các nhóm ràng buộc thưa để khai thác mô hình phổ tổng quát trong bài toán tách nguồn âm thanh đơn kênh

Bài viết tập trung giải quyết bài toán phân tách những âm thanh mong muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic source separation). | Kết hợp mô hình thừa số hóa ma trận không âm với các nhóm ràng buộc thưa để khai thác mô hình phổ tổng quát trong bài toán tách nguồn âm thanh đơn kênh Nghiên cứu khoa học công nghệ KẾT HỢP MÔ HÌNH THỪA SỐ HÓA MA TRẬN KHÔNG ÂM VỚI CÁC NHÓM RÀNG BUỘC THƯA ĐỂ KHAI THÁC MÔ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3* Tóm tắt: Bài báo tập trung giải quyết bài toán phân tách những âm thanh mong muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic source separation). Tiếp cận theo hướng sử dụng mô hình thừa số hóa ma trận không âm (Nonnegative Matrix Factorization - NMF) để xử lý thông tin phổ của tín hiệu, bài báo đề xuất giải pháp xây dựng và khai thác mô hình phổ tổng quát cho các tín hiệu nguồn cần tách. Đặc biệt, chúng tôi đề xuất kết hợp mô hình NMF với các nhóm ràng buộc thưa (group sparsity constraint) để hướng dẫn quá trình phân tách. Thí nghiệm được thực hiện cho hai trường hợp: phân tách tiếng nói và âm thanh nhiễu môi trường từ tín hiệu tiếng nói chứa nhiễu, phân tách giọng hát và âm thanh các loại nhạc cụ trong bài hát đã cho thấy hiệu quả của thuật toán đề xuất. Từ khóa: Tách nguồn âm thanh, NMF, Ràng buộc thưa, Mô hình phổ tổng quát. 1. MỞ ĐẦU Trong lĩnh vực xử lý tín hiệu, tách nguồn âm thanh là nhiệm vụ khôi phục những âm thanh mong muốn từ tín hiệu thu âm gồm nhiều âm thanh khác nhau bị trộn lẫn [1, 2]. Một ví dụ điển hình về tách nguồn âm thanh là trong “bữa tiệc cocktail”, nơi có nhiều người cùng nói chuyện, tiếng nhạc, các âm thanh khác và người nghe đang cố gắng theo dõi một trong các cuộc thảo luận. Trong tình huống đó, bộ não của con người cùng với khả năng thính giác bình thường có thể dễ dàng định vị và phân tách

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.