音樂信號中的人聲伴奏分離研究
發(fā)布時間:2020-10-22 16:11
隨著信息化時代的到來,海量數(shù)字音樂下的音樂標(biāo)注、檢索、識別、歌聲基音跟蹤等音樂信號處理技術(shù)的需求不斷增加。其中,音樂信號中的人聲伴奏分離作為這些技術(shù)研究的前期處理,日益受到關(guān)注。一個良好的人聲伴奏分離系統(tǒng)能為后期處理帶來便捷以及提供良好的性能保障,故具有重要的研究價值。然而人聲伴奏分離技術(shù)不同于音頻信號中的去噪分離技術(shù),其間的相互干擾給學(xué)術(shù)研究帶來了不少挑戰(zhàn)。本文主要研究音樂信號中的人聲伴奏分離問題,包括以下幾個方面:(1)為解決非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)在人聲伴奏分離中適應(yīng)性差且過度依賴學(xué)習(xí)樣本的問題,研究了一種結(jié)合諧和與擊打聲源分離(Harmonic Percussive Source Separation,HPSS)的NMF人聲伴奏分離方法。首先,在高分辨率下通過HPSS算法對音樂信號進行聲源分離;其次,保留諧和聲源并利用靈活窗NMF算法對擊打聲源進行二次分離;最后,對結(jié)合理想二元掩蔽模型(Ideal Binary Mask,IBM)分離出的伴奏及人聲的頻譜作相應(yīng)的傅里葉逆變換。研究表明,根據(jù)兩種分離算法在人聲伴奏分離上的優(yōu)缺點,將它們結(jié)合到一起能夠有效地?fù)P長避短,提高分離性能。(2)針對音樂信號中的人聲與伴奏相互關(guān)聯(lián)難以分離的問題,研究了一種基于區(qū)分性訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的人聲伴奏分離方法。首先,在DNN模型的基礎(chǔ)上同時考慮人聲與伴奏間的重建誤差和區(qū)分性信息,研究了一種改進的區(qū)分性目標(biāo)函數(shù);其次,在DNN模型上額外添加一層,引入時頻掩蔽對估計出的人聲與伴奏進行聯(lián)合優(yōu)化,相應(yīng)的時域信號由傅里葉逆變換獲得。研究表明,DNN模型能夠獲取音樂信號的特征,分離性能得到較大的提高。(3)根據(jù)深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network,DRNN)具有強大的動態(tài)建模能力,即利用過去信號的時間依賴關(guān)系分析數(shù)據(jù)特征,從而可以對當(dāng)前或者未來信號進行合理預(yù)測,研究了一種基于DRNN的人聲伴奏分離方法。在DNN結(jié)構(gòu)下的人聲伴奏分離方法的基礎(chǔ)上,利用區(qū)分性目標(biāo)函數(shù)區(qū)分訓(xùn)練DRNN參數(shù),并引入時頻掩蔽模型聯(lián)合優(yōu)化得到DRNN模型。研究表明,基于DRNN結(jié)構(gòu)下的人聲伴奏分離模型能較真實地反應(yīng)音樂本身信息,能較大提高分離性能。
【學(xué)位單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:J614.8;TN912.3
【部分圖文】:
的產(chǎn)生發(fā)音器官產(chǎn)生,是用來進行社會交際的聲音部分,即調(diào)音區(qū)、聲源區(qū)和動力區(qū),如圖 2.//www.51wendang.com/doc/c0baadca57025ca7e產(chǎn)生語音信號。調(diào)音區(qū)由口腔、鼻腔和咽腔組,鼻化音等不同的聲音。聲源區(qū)指位于喉頭中,聲帶肌的活動可以使聲帶收緊或者放松發(fā)膈膜和氣管,它們通過呼吸的氣流為語音的產(chǎn)。語音根據(jù)聲帶的松緊程度可分為濁音,聲帶些輔音;清音,聲帶完全舒展聲道收縮下發(fā)出舒展聲道完全閉合下發(fā)出的音,如 b、p。
【參考文獻】
本文編號:2851818
【學(xué)位單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:J614.8;TN912.3
【部分圖文】:
的產(chǎn)生發(fā)音器官產(chǎn)生,是用來進行社會交際的聲音部分,即調(diào)音區(qū)、聲源區(qū)和動力區(qū),如圖 2.//www.51wendang.com/doc/c0baadca57025ca7e產(chǎn)生語音信號。調(diào)音區(qū)由口腔、鼻腔和咽腔組,鼻化音等不同的聲音。聲源區(qū)指位于喉頭中,聲帶肌的活動可以使聲帶收緊或者放松發(fā)膈膜和氣管,它們通過呼吸的氣流為語音的產(chǎn)。語音根據(jù)聲帶的松緊程度可分為濁音,聲帶些輔音;清音,聲帶完全舒展聲道收縮下發(fā)出舒展聲道完全閉合下發(fā)出的音,如 b、p。
【參考文獻】
相關(guān)期刊論文 前5條
1 王山海;景新幸;楊海燕;;基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J];計算機應(yīng)用研究;2015年08期
2 徐昕;張?zhí)祢U;石穗;張亞娟;;結(jié)合語音增強的基音檢測改進方法[J];計算機工程與設(shè)計;2015年03期
3 屈俊玲;李鴻燕;;基于計算聽覺場景分析的混合語音信號分離算法研究[J];計算機應(yīng)用研究;2014年12期
4 李樂;章毓晉;;非負(fù)矩陣分解算法綜述[J];電子學(xué)報;2008年04期
5 王澤,朱貽盛,王自明,張紅煊;基于ICA的重疊語音基頻提取和語音增強[J];北京生物醫(yī)學(xué)工程;2001年04期
相關(guān)碩士學(xué)位論文 前5條
1 趙天坤;基于深度神經(jīng)網(wǎng)絡(luò)的音樂信息檢索[D];北京郵電大學(xué);2015年
2 吳本谷;音樂中人聲分離研究[D];電子科技大學(xué);2015年
3 李冰瑤;基于聽覺場景分析的主旋律提取[D];北京郵電大學(xué);2015年
4 翟鵬;基于非負(fù)矩陣分解的單通道音樂分離研究[D];西南交通大學(xué);2013年
5 黃雯雯;基于非負(fù)矩陣分解的盲信號分離方法研究[D];杭州電子科技大學(xué);2013年
本文編號:2851818
本文鏈接:http://sikaile.net/kejilunwen/wltx/2851818.html
最近更新
教材專著