天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

合成語音檢測(cè)算法研究

發(fā)布時(shí)間:2020-11-13 08:53
   作為一種便捷有效的身份認(rèn)證方案,自動(dòng)說話人認(rèn)證系統(tǒng)在電話及網(wǎng)絡(luò)接入的控制系統(tǒng)中得到了廣泛的使用。隨著語音合成技術(shù)的不斷發(fā)展,現(xiàn)有的說話人認(rèn)證系統(tǒng)非常容易受到合成語音的攻擊。犯罪分子利用語音合成算法可以生成與注冊(cè)用戶非常類似的語音并利用這些合成語音對(duì)說話人認(rèn)證系統(tǒng)進(jìn)行欺詐。大量的實(shí)驗(yàn)表明現(xiàn)有的說話人認(rèn)證系統(tǒng)在合成語音的攻擊下表現(xiàn)非常脆弱,它無法對(duì)合成語音與自然語音進(jìn)行有效的區(qū)分。為了解決這一問題本文對(duì)合成語音檢測(cè)算法進(jìn)行了重點(diǎn)研究。從檢測(cè)魯棒性,檢測(cè)特征提取以及分類器設(shè)計(jì)角度進(jìn)行合成語音檢測(cè)算法的設(shè)計(jì)。融合了合成語音檢測(cè)算法的說話人認(rèn)證系統(tǒng)可以有效的抵抗合成語音攻擊。本文的創(chuàng)新點(diǎn)主要包括:分析了噪聲對(duì)合成檢測(cè)的影響,并提出了一種基于加噪訓(xùn)練的魯棒合成語音檢測(cè)算法;利用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種專門適用于合成語音檢測(cè)任務(wù)的特征;提出了一種新型的基于神經(jīng)網(wǎng)絡(luò)的合成語音檢測(cè)打分算法,提高了合成語音檢測(cè)的準(zhǔn)確率。眾所周知,環(huán)境噪聲會(huì)極大的影響自動(dòng)說話人認(rèn)證系統(tǒng)的表現(xiàn),因此有必要對(duì)噪聲環(huán)境的下的合成語音檢測(cè)算法進(jìn)行有針對(duì)性的研究。研究結(jié)果表明常用的語音增強(qiáng)算法會(huì)降低合成語音檢測(cè)的準(zhǔn)確率。在本文中,我們提出了一種加噪訓(xùn)練的方法,即將含有噪聲語音與干凈的語音混合在一起進(jìn)行檢測(cè)模型的訓(xùn)練,該方法可以一定程度的提高噪聲環(huán)境下合成語音檢測(cè)的準(zhǔn)確率。在特征提取方面,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)濾波器的倒譜系數(shù)特征(Deep Neural Network Filter Bank Cepstral Coefficients,DNN-FBCC)。與普通的倒譜系數(shù)特征不同,DNN-FBCC提取過程中所使用的濾波器是由一個(gè)濾波器組神經(jīng)網(wǎng)絡(luò)(FilterBankNeuralNetwork,FBNN)利用自然語音與合成語音訓(xùn)練生成的。在FBNN的訓(xùn)練過程中,通過加入各種限制條件,可以使得學(xué)習(xí)到的權(quán)值矩陣具體有與普通濾波器組類似的,非負(fù)、帶限、頻域有序等特征。與人工設(shè)計(jì)的濾波器組不同,通過FBNN學(xué)習(xí)得到的濾波器組在不同的頻帶內(nèi)有著不同的形狀,從而能夠更加有效的捕獲自然語音與合成語音之間的區(qū)別。實(shí)驗(yàn)表明,動(dòng)態(tài)DNN-FBCC特征在合成語音檢測(cè)上的表現(xiàn)優(yōu)于基線的線性三角波濾波器組倒譜系數(shù)特征。在分類器設(shè)計(jì)方面基于高斯混合模型(Gaussian Mixture Model,GMM)與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)的分類器,表現(xiàn)較好使用也最為普遍。在合成語音檢測(cè)過程中,利用經(jīng)過訓(xùn)練的分類計(jì)算輸入語音屬于自然語音或者合成語音的似然值,并利用對(duì)數(shù)似然比(Log-LikelihoodRatios,LLR)對(duì)輸入語音進(jìn)行打分。很多實(shí)驗(yàn)表明在基于LLR的打分算法的分類器中,GMM表現(xiàn)好于DNN,特別在檢測(cè)合成算法未知的合成語音方面。本文中作者利用動(dòng)態(tài)聲學(xué)特征訓(xùn)練了一個(gè)五層的DNN,并提出了一種新的僅利用自然語音似然值(Genuine Speech Likelihoods,GSL)進(jìn)行打分的方案,并在數(shù)學(xué)上證明了 GSL打分方法比LLR方法更適用于合成語音檢測(cè)任務(wù)。在ASVspoof2015數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,與基于LLR打分方法GMM分類器相比較,基于GSL打分算法的DNN分類器可以極大的提高合成語音檢測(cè)的準(zhǔn)確率,在平均等錯(cuò)率(EqualErrorRate,EER)上可以獲得接近10倍的提升。將該檢測(cè)器與自動(dòng)說話人認(rèn)證系統(tǒng)相結(jié)合,在對(duì)合成算法未知的語音檢測(cè)方面,錯(cuò)誤接受率(False Acceptance Rate,FAR)從 38.47%降低到 0.41%。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TN912.3
【部分圖文】:

合成語音,算法


正是由于具有這些優(yōu)勢(shì),說話人識(shí)別技術(shù)或者說聲紋識(shí)別技術(shù)在聲控領(lǐng)域,基的信息檢索以及法醫(yī)鑒證領(lǐng)域都有著廣泛的應(yīng)用。作為聲紋識(shí)別的一個(gè)重要自動(dòng)說話人認(rèn)證(Automatic?Speaker?Verification,ASV)在現(xiàn)實(shí)生活中被廣泛應(yīng)用??話銀行、個(gè)人安保等各個(gè)領(lǐng)域。??隨著語音處理技術(shù)的發(fā)展,特別是高效的語音合成算法提出,人們可以利用生成與真人語音非常類似的合成語音。語音合成技術(shù)一方面為人們的生活帶便利以及良好的用戶體驗(yàn),例如提供真聲的自動(dòng)語音應(yīng)答服務(wù),以及真聲的務(wù)等。另一方面也對(duì)現(xiàn)有ASV系統(tǒng)的安全性帶來了極大地挑戰(zhàn)。特別是近年互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及社交網(wǎng)絡(luò)的普及壯大,越來越多的用戶有意或無自己的音頻、視頻數(shù)據(jù)泄露到社交網(wǎng)絡(luò)平臺(tái)上。由于用戶對(duì)個(gè)人語音信息保范意識(shí)不強(qiáng),導(dǎo)致犯罪分子可以很容易的通過網(wǎng)絡(luò)平臺(tái)獲取用戶的聲音,并利音合成算法生成與用戶聲音非常近似的合成語音。這些合成語音被用來進(jìn)行電,或者對(duì)用戶的電話銀行、樓宇門禁等由ASV系統(tǒng)進(jìn)行控制的設(shè)備進(jìn)行攻擊,的威脅了用戶的生命財(cái)產(chǎn)安全。??一,ASV,

狀態(tài)輸出,延時(shí)單元,隱藏層,變種


LSTM單元的內(nèi)部結(jié)構(gòu)如圖2-6(b)所示,包含三個(gè)輸入層與兩個(gè)輸出層。其中xr??表示當(dāng)前時(shí)刻輸入,c,表示當(dāng)前時(shí)刻的單元狀態(tài)輸出,h,表示當(dāng)前時(shí)刻的隱藏層輸??出。c,與b經(jīng)過延時(shí)單元反饋到LSTM單元的輸入端。前一個(gè)時(shí)刻的單兀狀態(tài)輸出??c,_i、隱藏輸出匕^與當(dāng)前時(shí)刻輸入\?一起共同決定了當(dāng)前時(shí)刻的輸出,從而形成??了一種循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)前的輸出不但與當(dāng)前的輸入相關(guān)還與前面時(shí)刻的輸出以??及輸入相關(guān),從而充分的利用了信號(hào)之間的相關(guān)性。??在LSTM單元內(nèi)部,我們采用了?Gers在2000年提出的一種LSTM變種結(jié)構(gòu)【53],??如圖2-6(b)所示,狀態(tài)輸出以及隱藏輸出可以由公式2-20—2-24計(jì)算得到。??f(?=?a(W/h^^x^+b^)?(2-20)??i,?=?W.U,—i,x,]?+?b,.)?(2-2?〇??c,?=?f,??cf_!?+i,??tanh(Wc.???[h,_!,x,]?+bc)?(2-22)??

特征圖,合成語音,檢測(cè)算法,分類器


2.4合成語音檢測(cè)分類器??為了尋求一種能夠?qū)⒆匀徽Z音與合成語音特征進(jìn)行有效區(qū)分的分類器,研宄者??們嘗試了多種不同的分類算法,例如,LDAl2()】,PLDA算法,【2|]等。本節(jié)主要介紹了??善于處理幀級(jí)特征且檢測(cè)效果較好的GMM-LLR分類器I9],以及基于“特征圖”紋??理的LBP-SVM分類器1541。??2.4.1?LBP-SVM?分類器??在進(jìn)行語音合成的過程中,一些比較低層的音頻特征比較容易擬合復(fù)現(xiàn),然而??一些比較高層的特征,比如一個(gè)時(shí)間窗口內(nèi)的變化性信息,則比較難以擬合,因此??提出了一種基于“特征圖”紋理特征的LBP-SVM分類器。??LBP-SVM分類器的基本算法如圖2-7所示。將一段輸入語音進(jìn)行分幀處理后提??取特征,然后將所有的特征幀組合到一起形成一張“特征圖”。該特征閣每一列表示??-幀特征,因此“特征圖”的高度即為特征幀的維度,“特征圖”的寬度為輸入語音??中所包含的特征幀的數(shù)目。??由于圖像的紋理中包含著豐富的局部動(dòng)態(tài)變化信息,因此利用LBP算子對(duì)“特??
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 解焱陸;張蓓;張勁松;;基于音高映射合成語音的漢語雙字調(diào)聲調(diào)訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年02期

2 王立鋒;廖琪梅;苗丹民;;小睡對(duì)合成語音感知學(xué)習(xí)的鞏固效應(yīng)研究[J];中國(guó)行為醫(yī)學(xué)科學(xué);2006年06期

3 趙博,蔡蓮紅;合成語音自然度客觀測(cè)度[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期

4 徐振耀;;聾啞人對(duì)話用的手套[J];中國(guó)醫(yī)療器械雜志;1989年06期

5 玫雅;讓合成語音更像真人說話[J];科學(xué)之友;2005年09期

6 華一滿;;合成語音在智能儀器中的應(yīng)用[J];電子技術(shù);1992年07期

7 霍飛;阿尼·庫珀;;機(jī)械合成語音,能最終實(shí)現(xiàn)嗎?[J];世界科學(xué);2012年02期

8 況鵬;黃海;毛少帥;王康利;;基于TMS320C6678的合成語音檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電子設(shè)計(jì)工程;2016年19期

9 高正平;徐駿宇;黃漢輝;;PWM在合成語音輸出電路中的應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2006年01期

10 戈永侃;于鳳芹;;后置濾波器參數(shù)自適應(yīng)的語音合成改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2017年01期


相關(guān)博士學(xué)位論文 前6條

1 于泓;合成語音檢測(cè)算法研究[D];北京郵電大學(xué);2018年

2 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年

3 盧恒;基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測(cè)的語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

4 凌震華;基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

5 孟凡博;連續(xù)語流中焦點(diǎn)重音的分析與生成[D];清華大學(xué);2013年

6 黃平牧;中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年


相關(guān)碩士學(xué)位論文 前10條

1 張立;計(jì)算機(jī)合成語音與自然語音鑒別技術(shù)的研究[D];寧波大學(xué);2017年

2 徐世鵬;藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評(píng)測(cè)[D];西北師范大學(xué);2015年

3 夏咸軍;融合主觀評(píng)價(jià)與反饋的語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年

4 王家麗;嵌入式漢語合成語音庫的構(gòu)建與搜索[D];山東大學(xué);2008年

5 張策;漢藏雙語合成語音音質(zhì)評(píng)測(cè)的研究[D];西北師范大學(xué);2016年

6 姚剛;混合激勵(lì)模型語音編碼算法及其軟件仿真[D];青海師范大學(xué);2011年

7 周志平;基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年

8 戈永侃;改進(jìn)語音合成自然度的研究[D];江南大學(xué);2016年

9 張建利;甚低速率語音編碼算法研究[D];西安電子科技大學(xué);2014年

10 宋陽;基于統(tǒng)計(jì)聲學(xué)建模的單元挑選語音合成方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年



本文編號(hào):2882008

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2882008.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶16728***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com