合成語音檢測算法研究

發(fā)布時(shí)間：2020-11-13 08:53

　　作為一種便捷有效的身份認(rèn)證方案,自動(dòng)說話人認(rèn)證系統(tǒng)在電話及網(wǎng)絡(luò)接入的控制系統(tǒng)中得到了廣泛的使用。隨著語音合成技術(shù)的不斷發(fā)展,現(xiàn)有的說話人認(rèn)證系統(tǒng)非常容易受到合成語音的攻擊。犯罪分子利用語音合成算法可以生成與注冊用戶非常類似的語音并利用這些合成語音對說話人認(rèn)證系統(tǒng)進(jìn)行欺詐。大量的實(shí)驗(yàn)表明現(xiàn)有的說話人認(rèn)證系統(tǒng)在合成語音的攻擊下表現(xiàn)非常脆弱,它無法對合成語音與自然語音進(jìn)行有效的區(qū)分。為了解決這一問題本文對合成語音檢測算法進(jìn)行了重點(diǎn)研究。從檢測魯棒性,檢測特征提取以及分類器設(shè)計(jì)角度進(jìn)行合成語音檢測算法的設(shè)計(jì)。融合了合成語音檢測算法的說話人認(rèn)證系統(tǒng)可以有效的抵抗合成語音攻擊。本文的創(chuàng)新點(diǎn)主要包括:分析了噪聲對合成檢測的影響,并提出了一種基于加噪訓(xùn)練的魯棒合成語音檢測算法;利用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種專門適用于合成語音檢測任務(wù)的特征;提出了一種新型的基于神經(jīng)網(wǎng)絡(luò)的合成語音檢測打分算法,提高了合成語音檢測的準(zhǔn)確率。眾所周知,環(huán)境噪聲會極大的影響自動(dòng)說話人認(rèn)證系統(tǒng)的表現(xiàn),因此有必要對噪聲環(huán)境的下的合成語音檢測算法進(jìn)行有針對性的研究。研究結(jié)果表明常用的語音增強(qiáng)算法會降低合成語音檢測的準(zhǔn)確率。在本文中,我們提出了一種加噪訓(xùn)練的方法,即將含有噪聲語音與干凈的語音混合在一起進(jìn)行檢測模型的訓(xùn)練,該方法可以一定程度的提高噪聲環(huán)境下合成語音檢測的準(zhǔn)確率。在特征提取方面,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)濾波器的倒譜系數(shù)特征(Deep Neural Network Filter Bank Cepstral Coefficients,DNN-FBCC)。與普通的倒譜系數(shù)特征不同,DNN-FBCC提取過程中所使用的濾波器是由一個(gè)濾波器組神經(jīng)網(wǎng)絡(luò)(FilterBankNeuralNetwork,FBNN)利用自然語音與合成語音訓(xùn)練生成的。在FBNN的訓(xùn)練過程中,通過加入各種限制條件,可以使得學(xué)習(xí)到的權(quán)值矩陣具體有與普通濾波器組類似的,非負(fù)、帶限、頻域有序等特征。與人工設(shè)計(jì)的濾波器組不同,通過FBNN學(xué)習(xí)得到的濾波器組在不同的頻帶內(nèi)有著不同的形狀,從而能夠更加有效的捕獲自然語音與合成語音之間的區(qū)別。實(shí)驗(yàn)表明,動(dòng)態(tài)DNN-FBCC特征在合成語音檢測上的表現(xiàn)優(yōu)于基線的線性三角波濾波器組倒譜系數(shù)特征。在分類器設(shè)計(jì)方面基于高斯混合模型(Gaussian Mixture Model,GMM)與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)的分類器,表現(xiàn)較好使用也最為普遍。在合成語音檢測過程中,利用經(jīng)過訓(xùn)練的分類計(jì)算輸入語音屬于自然語音或者合成語音的似然值,并利用對數(shù)似然比(Log-LikelihoodRatios,LLR)對輸入語音進(jìn)行打分。很多實(shí)驗(yàn)表明在基于LLR的打分算法的分類器中,GMM表現(xiàn)好于DNN,特別在檢測合成算法未知的合成語音方面。本文中作者利用動(dòng)態(tài)聲學(xué)特征訓(xùn)練了一個(gè)五層的DNN,并提出了一種新的僅利用自然語音似然值(Genuine Speech Likelihoods,GSL)進(jìn)行打分的方案,并在數(shù)學(xué)上證明了 GSL打分方法比LLR方法更適用于合成語音檢測任務(wù)。在ASVspoof2015數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,與基于LLR打分方法GMM分類器相比較,基于GSL打分算法的DNN分類器可以極大的提高合成語音檢測的準(zhǔn)確率,在平均等錯(cuò)率(EqualErrorRate,EER)上可以獲得接近10倍的提升。將該檢測器與自動(dòng)說話人認(rèn)證系統(tǒng)相結(jié)合,在對合成算法未知的語音檢測方面,錯(cuò)誤接受率(False Acceptance Rate,FAR)從 38.47%降低到 0.41%。
【學(xué)位單位】：北京郵電大學(xué)
【學(xué)位級別】：博士
【學(xué)位年份】：2018
【中圖分類】：TN912.3
【部分圖文】：

合成語音,算法

正是由于具有這些優(yōu)勢，說話人識別技術(shù)或者說聲紋識別技術(shù)在聲控領(lǐng)域，基的信息檢索以及法醫(yī)鑒證領(lǐng)域都有著廣泛的應(yīng)用。作為聲紋識別的一個(gè)重要自動(dòng)說話人認(rèn)證（Ａｕｔｏｍａｔｉｃ?Ｓｐｅａｋｅｒ?Ｖｅｒｉｆｉｃａｔｉｏｎ，ＡＳＶ）在現(xiàn)實(shí)生活中被廣泛應(yīng)用??話銀行、個(gè)人安保等各個(gè)領(lǐng)域。??隨著語音處理技術(shù)的發(fā)展，特別是高效的語音合成算法提出，人們可以利用生成與真人語音非常類似的合成語音。語音合成技術(shù)一方面為人們的生活帶便利以及良好的用戶體驗(yàn)，例如提供真聲的自動(dòng)語音應(yīng)答服務(wù)，以及真聲的務(wù)等。另一方面也對現(xiàn)有ＡＳＶ系統(tǒng)的安全性帶來了極大地挑戰(zhàn)。特別是近年互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及社交網(wǎng)絡(luò)的普及壯大，越來越多的用戶有意或無自己的音頻、視頻數(shù)據(jù)泄露到社交網(wǎng)絡(luò)平臺上。由于用戶對個(gè)人語音信息保范意識不強(qiáng)，導(dǎo)致犯罪分子可以很容易的通過網(wǎng)絡(luò)平臺獲取用戶的聲音，并利音合成算法生成與用戶聲音非常近似的合成語音。這些合成語音被用來進(jìn)行電，或者對用戶的電話銀行、樓宇門禁等由ＡＳＶ系統(tǒng)進(jìn)行控制的設(shè)備進(jìn)行攻擊，的威脅了用戶的生命財(cái)產(chǎn)安全。??一，ＡＳＶ，

狀態(tài)輸出,延時(shí)單元,隱藏層,變種

ＬＳＴＭ單元的內(nèi)部結(jié)構(gòu)如圖２－６（ｂ）所示，包含三個(gè)輸入層與兩個(gè)輸出層。其中ｘｒ??表示當(dāng)前時(shí)刻輸入，ｃ，表示當(dāng)前時(shí)刻的單元狀態(tài)輸出，ｈ，表示當(dāng)前時(shí)刻的隱藏層輸??出。ｃ，與ｂ經(jīng)過延時(shí)單元反饋到ＬＳＴＭ單元的輸入端。前一個(gè)時(shí)刻的單兀狀態(tài)輸出??ｃ，＿ｉ、隱藏輸出匕＾與當(dāng)前時(shí)刻輸入＼?一起共同決定了當(dāng)前時(shí)刻的輸出，從而形成??了一種循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu)，當(dāng)前的輸出不但與當(dāng)前的輸入相關(guān)還與前面時(shí)刻的輸出以??及輸入相關(guān)，從而充分的利用了信號之間的相關(guān)性。??在ＬＳＴＭ單元內(nèi)部，我們采用了?Ｇｅｒｓ在２０００年提出的一種ＬＳＴＭ變種結(jié)構(gòu)【５３］，??如圖２－６（ｂ）所示，狀態(tài)輸出以及隱藏輸出可以由公式２－２０—２－２４計(jì)算得到。??ｆ（?＝?ａ（Ｗ／ｈ＾＾ｘ＾＋ｂ＾）?（２－２０）??ｉ，?＝?Ｗ．Ｕ，—ｉ，ｘ，］?＋?ｂ，．）?（２－２?〇??ｃ，?＝?ｆ，?？ｃｆ＿！?＋ｉ，?？ｔａｎｈ（Ｗｃ．?？?［ｈ，＿！，ｘ，］?＋ｂｃ）?（２－２２）??

特征圖,合成語音,檢測算法,分類器

２．４合成語音檢測分類器??為了尋求一種能夠?qū)⒆匀徽Z音與合成語音特征進(jìn)行有效區(qū)分的分類器，研宄者??們嘗試了多種不同的分類算法，例如，ＬＤＡｌ２（）】，ＰＬＤＡ算法，【２｜］等。本節(jié)主要介紹了??善于處理幀級特征且檢測效果較好的ＧＭＭ－ＬＬＲ分類器Ｉ９］，以及基于“特征圖”紋??理的ＬＢＰ－ＳＶＭ分類器１５４１。??２．４．１?ＬＢＰ－ＳＶＭ?分類器??在進(jìn)行語音合成的過程中，一些比較低層的音頻特征比較容易擬合復(fù)現(xiàn)，然而??一些比較高層的特征，比如一個(gè)時(shí)間窗口內(nèi)的變化性信息，則比較難以擬合，因此??提出了一種基于“特征圖”紋理特征的ＬＢＰ－ＳＶＭ分類器。??ＬＢＰ－ＳＶＭ分類器的基本算法如圖２－７所示。將一段輸入語音進(jìn)行分幀處理后提??取特征，然后將所有的特征幀組合到一起形成一張“特征圖”。該特征閣每一列表示??－幀特征，因此“特征圖”的高度即為特征幀的維度，“特征圖”的寬度為輸入語音??中所包含的特征幀的數(shù)目。??由于圖像的紋理中包含著豐富的局部動(dòng)態(tài)變化信息，因此利用ＬＢＰ算子對“特??
【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 解焱陸;張蓓;張勁松;;基于音高映射合成語音的漢語雙字調(diào)聲調(diào)訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年02期

2 王立鋒;廖琪梅;苗丹民;;小睡對合成語音感知學(xué)習(xí)的鞏固效應(yīng)研究[J];中國行為醫(yī)學(xué)科學(xué);2006年06期

3 趙博,蔡蓮紅;合成語音自然度客觀測度[J];計(jì)算機(jī)工程與應(yīng)用;2005年07期

4 徐振耀;;聾啞人對話用的手套[J];中國醫(yī)療器械雜志;1989年06期

5 玫雅;讓合成語音更像真人說話[J];科學(xué)之友;2005年09期

6 華一滿;;合成語音在智能儀器中的應(yīng)用[J];電子技術(shù);1992年07期

7 霍飛;阿尼·庫珀;;機(jī)械合成語音,能最終實(shí)現(xiàn)嗎?[J];世界科學(xué);2012年02期

8 況鵬;黃海;毛少帥;王康利;;基于TMS320C6678的合成語音檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電子設(shè)計(jì)工程;2016年19期

9 高正平;徐駿宇;黃漢輝;;PWM在合成語音輸出電路中的應(yīng)用[J];電子科技大學(xué)學(xué)報(bào);2006年01期

10 戈永侃;于鳳芹;;后置濾波器參數(shù)自適應(yīng)的語音合成改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2017年01期

相關(guān)博士學(xué)位論文前6條

1 于泓;合成語音檢測算法研究[D];北京郵電大學(xué);2018年

2 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年

3 盧恒;基于統(tǒng)計(jì)模型與發(fā)音錯(cuò)誤檢測的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年

4 凌震華;基于統(tǒng)計(jì)聲學(xué)建模的語音合成技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2008年

5 孟凡博;連續(xù)語流中焦點(diǎn)重音的分析與生成[D];清華大學(xué);2013年

6 黃平牧;中文TTS系統(tǒng)中若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2008年

相關(guān)碩士學(xué)位論文前10條

1 張立;計(jì)算機(jī)合成語音與自然語音鑒別技術(shù)的研究[D];寧波大學(xué);2017年

2 徐世鵬;藏語統(tǒng)計(jì)參數(shù)語音合成的合成語音的音質(zhì)評測[D];西北師范大學(xué);2015年

3 夏咸軍;融合主觀評價(jià)與反饋的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

4 王家麗;嵌入式漢語合成語音庫的構(gòu)建與搜索[D];山東大學(xué);2008年

5 張策;漢藏雙語合成語音音質(zhì)評測的研究[D];西北師范大學(xué);2016年

6 姚剛;混合激勵(lì)模型語音編碼算法及其軟件仿真[D];青海師范大學(xué);2011年

7 周志平;基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2017年

8 戈永侃;改進(jìn)語音合成自然度的研究[D];江南大學(xué);2016年

9 張建利;甚低速率語音編碼算法研究[D];西安電子科技大學(xué);2014年

10 宋陽;基于統(tǒng)計(jì)聲學(xué)建模的單元挑選語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

本文編號：2882008

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2882008.html

上一篇：超奈奎斯特速率光傳輸系統(tǒng)的時(shí)頻域壓縮調(diào)制與接收處理技術(shù)研究
下一篇：高鐵用戶的QoS功率分配算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

合成語音檢測算法研究