基于深度學(xué)習(xí)的目標語音信號提取算法
發(fā)布時間:2021-08-05 23:36
說話人語音提取是說話人語音分離領(lǐng)域中的一部分,有監(jiān)督學(xué)習(xí)的情況下,針對從單聲道觀測語音信號中提取目標說話人語音,本文提出了基于注意機制的說話人語音提取算法,該算法充分利用已知目標源語音信號的輔助信息,針對性的提取我們想要的目標語音信號。近年來隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)模式已廣泛應(yīng)用于圖像和語音信號的處理領(lǐng)域中。本文主要研究了基于深度學(xué)習(xí)的注意機制目標說話人語音的提取。論文主要貢獻如下:1.構(gòu)建兩個深度神經(jīng)網(wǎng)絡(luò):一個時頻掩蔽估計網(wǎng)絡(luò)、一個說話人信息提取的輔助網(wǎng)絡(luò)。將混合語音和不同于混合語音中的目標說話人額外語音分別作為兩個網(wǎng)絡(luò)的輸入。針對輔助網(wǎng)絡(luò)對目標說話人額外語音進行目標說話人的信息參數(shù)提取,采用了語音序列匯總法和帶有注意功能的語音序列匯總法兩種信息參數(shù)提取方法。將輔助網(wǎng)絡(luò)輸出的信息參數(shù)作為權(quán)重向量引入到掩蔽估計網(wǎng)絡(luò)的隱藏層中,對其每一個單元的輸出按照權(quán)重進行縮放,得到對應(yīng)于目標說話人的內(nèi)部嵌入向量。最終利用目標說話人對應(yīng)的嵌入向量在掩蔽估計網(wǎng)絡(luò)中傳遞訓(xùn)練并估計目標說話人的掩蔽。2.構(gòu)建語音分離和提取的統(tǒng)一神經(jīng)網(wǎng)絡(luò)框架,提出了基于嵌入式注意機制的目標說話人語音提取算法。首先該算法將基...
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.3?Xu等人提出的基于DNN的語音分離網(wǎng)絡(luò)模型[44]??目前研宄學(xué)者也提出了很多以DNN基礎(chǔ)的改進的語音分離方法
?第2章語音分離基本理論???t?????g一、??i???H?/w,.,(m?Hr)?k??斗??—?!,wx)?k???±,??????,w丨(m',H:)?\??、W!???H?/w?K=H:)?k??\?w°??m,?H:??圖2.4?Jonathan?Le?Roux等人提出NMF和DNN結(jié)合的語音分離網(wǎng)絡(luò)模型[M]??14??
?第3章基于注意機制DNNs的目標人語音提取算法???第3章基于注意機制DNNs的目標人語音提取算法??本章主要研宄特定單聲道目標說話人的分離,同時利用了目標說話人輔助??語音信息(非訓(xùn)練目標說話人語音),將更多的注意力放到特定目標說話人上。??首先對混合語音信號進行短時傅里葉變換,并求其幅度譜特征和對應(yīng)的相位,??以同樣的方法求出目標說話人輔助語音的幅度譜。然后將混合語音信號的幅度??譜和輔助語音幅度譜分別作為掩蔽預(yù)測網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)的輸入,利用輔助網(wǎng)絡(luò)??的輸出指導(dǎo)掩蔽預(yù)測網(wǎng)絡(luò)的訓(xùn)練。最后將估計的時頻掩蔽用于目標說話人的提??齲分離框架如圖3.1所示。??目標說話人語音?相位??''?V??干擾¥話人語音?iTiiri? ̄? ̄?rziri?時頻掩蔽 ̄?fTTir??混合信號H?求幅麟->???元麵?一?一-4*??f聲?——?提酬標人語音??崎.? ̄—>?求幅度譜-??輔刪絡(luò)??目標說話人輔??助語音?I注意機制??圖3.1注意機制下的DNNs分離系統(tǒng)??3.1深度神經(jīng)網(wǎng)的原理??根據(jù)人們對語音分離的理解,語音分離其實可以看成一個分類問題,傳統(tǒng)??淺層模型的語音分離算法,首先需要提取語音特征,將語音信號轉(zhuǎn)換成易于分??類的表達形式數(shù)據(jù)。如圖3.2所示,同種形狀的圖形表示同類數(shù)據(jù)。??16??
本文編號:3324646
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.3?Xu等人提出的基于DNN的語音分離網(wǎng)絡(luò)模型[44]??目前研宄學(xué)者也提出了很多以DNN基礎(chǔ)的改進的語音分離方法
?第2章語音分離基本理論???t?????g一、??i???H?/w,.,(m?Hr)?k??斗??—?!,wx)?k???±,??????,w丨(m',H:)?\??、W!???H?/w?K=H:)?k??\?w°??m,?H:??圖2.4?Jonathan?Le?Roux等人提出NMF和DNN結(jié)合的語音分離網(wǎng)絡(luò)模型[M]??14??
?第3章基于注意機制DNNs的目標人語音提取算法???第3章基于注意機制DNNs的目標人語音提取算法??本章主要研宄特定單聲道目標說話人的分離,同時利用了目標說話人輔助??語音信息(非訓(xùn)練目標說話人語音),將更多的注意力放到特定目標說話人上。??首先對混合語音信號進行短時傅里葉變換,并求其幅度譜特征和對應(yīng)的相位,??以同樣的方法求出目標說話人輔助語音的幅度譜。然后將混合語音信號的幅度??譜和輔助語音幅度譜分別作為掩蔽預(yù)測網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)的輸入,利用輔助網(wǎng)絡(luò)??的輸出指導(dǎo)掩蔽預(yù)測網(wǎng)絡(luò)的訓(xùn)練。最后將估計的時頻掩蔽用于目標說話人的提??齲分離框架如圖3.1所示。??目標說話人語音?相位??''?V??干擾¥話人語音?iTiiri? ̄? ̄?rziri?時頻掩蔽 ̄?fTTir??混合信號H?求幅麟->???元麵?一?一-4*??f聲?——?提酬標人語音??崎.? ̄—>?求幅度譜-??輔刪絡(luò)??目標說話人輔??助語音?I注意機制??圖3.1注意機制下的DNNs分離系統(tǒng)??3.1深度神經(jīng)網(wǎng)的原理??根據(jù)人們對語音分離的理解,語音分離其實可以看成一個分類問題,傳統(tǒng)??淺層模型的語音分離算法,首先需要提取語音特征,將語音信號轉(zhuǎn)換成易于分??類的表達形式數(shù)據(jù)。如圖3.2所示,同種形狀的圖形表示同類數(shù)據(jù)。??16??
本文編號:3324646
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3324646.html
最近更新
教材專著