Mô hình mạng nơron tích chập phân tách giọng hát từ hỗn hợp âm nhạc

Bài viết đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, .. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN. | Nguyễn Tấn Phú Nguyễn Nhị Gia Vinh Lê Thị Diễm và Lê Minh Lý 211 Mô Hình Mạng Nơron Tích Chập Phân Tách Giọng Hát Từ Hỗn Hợp Âm Nhạc A Convolutional Neural Network Model to Separate Singing Voice from Music Nguyễn Tấn Phú 1 Nguyễn Nhị Gia Vinh2 Lê Thị Diễm3 Lê Minh Lý4 1 Khoa Công Nghệ Thông Tin Trường Đại Học Kỹ Thuật Công Nghệ Cần Thơ ntanphu@ 2 3 4 Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ nngvinh ltdiem leminhly @ Tóm tắt. Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN Convolutional Neural Network . Phép biến đổi Fourier thời gian ngắn - STFT Short time Fourier Transform được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 Demixing Secrets Dataset 100 gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống bass .. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN. Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là . Từ khóa. Mạng nơron tích chập Convolutional Neural Network Phép biến đổi Fourier thời gian ngắn Short time Fourier Transform Đặc trưng âm thanh audio feature Demixing Secrets Dataset 100 DSD100 . Abstract This study proposes a model to separate singing voice from music by using convolutional neural network CNN . Short time Fourier Transform STFT is applied to extract basic audio features of singing voice. Music database named Demixing Secrets Dataset 100 DSD100 including singing voice music background is used to estimate convolutional neural network performance. Experiental results in this study proves that proposed convolutional neural nework gives precistion of . Keywords. Convolutional Neural Network Short time Fourier Transform audio feature Demixing Secrets Dataset 100 1 Giới thiệu Trong những năm gần đây sự phát triển của khoa học công nghệ cùng với sự bùng nổ của mạng xã hội trong nhiều thập kỷ qua internet đã trở thành nguồn thu thập thông tin đa phương tiện như .

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.