合成語音檢測(cè)算法研究
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TN912.3
【部分圖文】:
正是由于具有這些優(yōu)勢(shì),說話人識(shí)別技術(shù)或者說聲紋識(shí)別技術(shù)在聲控領(lǐng)域,基的信息檢索以及法醫(yī)鑒證領(lǐng)域都有著廣泛的應(yīng)用。作為聲紋識(shí)別的一個(gè)重要自動(dòng)說話人認(rèn)證(Automatic?Speaker?Verification,ASV)在現(xiàn)實(shí)生活中被廣泛應(yīng)用??話銀行、個(gè)人安保等各個(gè)領(lǐng)域。??隨著語音處理技術(shù)的發(fā)展,特別是高效的語音合成算法提出,人們可以利用生成與真人語音非常類似的合成語音。語音合成技術(shù)一方面為人們的生活帶便利以及良好的用戶體驗(yàn),例如提供真聲的自動(dòng)語音應(yīng)答服務(wù),以及真聲的務(wù)等。另一方面也對(duì)現(xiàn)有ASV系統(tǒng)的安全性帶來了極大地挑戰(zhàn)。特別是近年互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及社交網(wǎng)絡(luò)的普及壯大,越來越多的用戶有意或無自己的音頻、視頻數(shù)據(jù)泄露到社交網(wǎng)絡(luò)平臺(tái)上。由于用戶對(duì)個(gè)人語音信息保范意識(shí)不強(qiáng),導(dǎo)致犯罪分子可以很容易的通過網(wǎng)絡(luò)平臺(tái)獲取用戶的聲音,并利音合成算法生成與用戶聲音非常近似的合成語音。這些合成語音被用來進(jìn)行電,或者對(duì)用戶的電話銀行、樓宇門禁等由ASV系統(tǒng)進(jìn)行控制的設(shè)備進(jìn)行攻擊,的威脅了用戶的生命財(cái)產(chǎn)安全。??一,ASV,
LSTM單元的內(nèi)部結(jié)構(gòu)如圖2-6(b)所示,包含三個(gè)輸入層與兩個(gè)輸出層。其中xr??表示當(dāng)前時(shí)刻輸入,c,表示當(dāng)前時(shí)刻的單元狀態(tài)輸出,h,表示當(dāng)前時(shí)刻的隱藏層輸??出。c,與b經(jīng)過延時(shí)單元反饋到LSTM單元的輸入端。前一個(gè)時(shí)刻的單兀狀態(tài)輸出??c,_i、隱藏輸出匕^與當(dāng)前時(shí)刻輸入\?一起共同決定了當(dāng)前時(shí)刻的輸出,從而形成??了一種循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)前的輸出不但與當(dāng)前的輸入相關(guān)還與前面時(shí)刻的輸出以??及輸入相關(guān),從而充分的利用了信號(hào)之間的相關(guān)性。??在LSTM單元內(nèi)部,我們采用了?Gers在2000年提出的一種LSTM變種結(jié)構(gòu)【53],??如圖2-6(b)所示,狀態(tài)輸出以及隱藏輸出可以由公式2-20—2-24計(jì)算得到。??f(?=?a(W/h^^x^+b^)?(2-20)??i,?=?W.U,—i,x,]?+?b,.)?(2-2?〇??c,?=?f,??cf_!?+i,??tanh(Wc.???[h,_!,x,]?+bc)?(2-22)??
2.4合成語音檢測(cè)分類器??為了尋求一種能夠?qū)⒆匀徽Z音與合成語音特征進(jìn)行有效區(qū)分的分類器,研宄者??們嘗試了多種不同的分類算法,例如,LDAl2()】,PLDA算法,【2|]等。本節(jié)主要介紹了??善于處理幀級(jí)特征且檢測(cè)效果較好的GMM-LLR分類器I9],以及基于“特征圖”紋??理的LBP-SVM分類器1541。??2.4.1?LBP-SVM?分類器??在進(jìn)行語音合成的過程中,一些比較低層的音頻特征比較容易擬合復(fù)現(xiàn),然而??一些比較高層的特征,比如一個(gè)時(shí)間窗口內(nèi)的變化性信息,則比較難以擬合,因此??提出了一種基于“特征圖”紋理特征的LBP-SVM分類器。??LBP-SVM分類器的基本算法如圖2-7所示。將一段輸入語音進(jìn)行分幀處理后提??取特征,然后將所有的特征幀組合到一起形成一張“特征圖”。該特征閣每一列表示??-幀特征,因此“特征圖”的高度即為特征幀的維度,“特征圖”的寬度為輸入語音??中所包含的特征幀的數(shù)目。??由于圖像的紋理中包含著豐富的局部動(dòng)態(tài)變化信息,因此利用LBP算子對(duì)“特??
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 解焱陸;張蓓;張勁松;;基于音高映射合成語音的漢語雙字調(diào)聲調(diào)訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年02期
2 王立鋒;廖琪梅;苗丹民;;小睡對(duì)合成語音感知學(xué)習(xí)的鞏固效應(yīng)研究[J];中國(guó)行為醫(yī)學(xué)科學(xué);2006年06期
3 趙博,蔡蓮紅;合成語音自然度客觀測(cè)度[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期
4 徐振耀;;聾啞人對(duì)話用的手套[J];中國(guó)醫(yī)療器械雜志;1989年06期
5 玫雅;讓合成語音更像真人說話[J];科學(xué)之友;2005年09期
6 華一滿;;合成語音在智能儀器中的應(yīng)用[J];電子技術(shù);1992年07期
7 霍飛;阿尼·庫珀;;機(jī)械合成語音,能最終實(shí)現(xiàn)嗎?[J];世界科學(xué);2012年02期
8 況鵬;黃海;毛少帥;王康利;;基于TMS320C6678的合成語音檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電子設(shè)計(jì)工程;2016年19期
9 高正平;徐駿宇;黃漢輝;;PWM在合成語音輸出電路中的應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2006年01期
10 戈永侃;于鳳芹;;后置濾波器參數(shù)自適應(yīng)的語音合成改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2017年01期
相關(guān)博士學(xué)位論文 前6條
1 于泓;合成語音檢測(cè)算法研究[D];北京郵電大學(xué);2018年
2 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
3 盧恒;基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
4 凌震華;基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年
5 孟凡博;連續(xù)語流中焦點(diǎn)重音的分析與生成[D];清華大學(xué);2013年
6 黃平牧;中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張立;計(jì)算機(jī)合成語音與自然語音鑒別技術(shù)的研究[D];寧波大學(xué);2017年
2 徐世鵬;藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評(píng)測(cè)[D];西北師范大學(xué);2015年
3 夏咸軍;融合主觀評(píng)價(jià)與反饋的語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
4 王家麗;嵌入式漢語合成語音庫的構(gòu)建與搜索[D];山東大學(xué);2008年
5 張策;漢藏雙語合成語音音質(zhì)評(píng)測(cè)的研究[D];西北師范大學(xué);2016年
6 姚剛;混合激勵(lì)模型語音編碼算法及其軟件仿真[D];青海師范大學(xué);2011年
7 周志平;基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年
8 戈永侃;改進(jìn)語音合成自然度的研究[D];江南大學(xué);2016年
9 張建利;甚低速率語音編碼算法研究[D];西安電子科技大學(xué);2014年
10 宋陽;基于統(tǒng)計(jì)聲學(xué)建模的單元挑選語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
本文編號(hào):2882008
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2882008.html