當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于CNN的短語音識別技術(shù)和應(yīng)用研究

發(fā)布時間：2020-09-27 21:33

　　語音作為一種生物特征,具有活性高、區(qū)分度高和不容易被復(fù)制的特點。相比其他的生物特征(人臉、指紋、指靜脈和虹膜等),語音特征在身份認(rèn)證方面有很大的優(yōu)勢。隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)安全成為了現(xiàn)下網(wǎng)絡(luò)環(huán)境中尤為重要的一個環(huán)節(jié)。各大互聯(lián)網(wǎng)公司都投入了大量的資源用于網(wǎng)絡(luò)身份認(rèn)證的發(fā)展,并取得了一定的成果,如支付寶公司的人臉認(rèn)證系統(tǒng)、蘋果公司的語音解鎖功能等。語音智能識別,可分為語音識別和說話人識別。前者用于語音內(nèi)容的識別后者用于說話人身份的識別,都可以應(yīng)用于安全認(rèn)證系統(tǒng)。本文主要進(jìn)行基于卷積神經(jīng)網(wǎng)絡(luò)的短語音識別和應(yīng)用研究。首先,論文基于小數(shù)據(jù)集深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練不充分的問題,提出數(shù)據(jù)二值化擴增處理方式。基于ASVD數(shù)據(jù)集,該方法使網(wǎng)絡(luò)識別率增加了2.1個百分點,并且收斂過程更加平滑,即不容易陷入局部最優(yōu)。并進(jìn)行了仿真與性能分析。然后,論文基于ASVD數(shù)據(jù)集,搭建了分類卷積神經(jīng)網(wǎng)絡(luò)(Classified-Convolution Neural Network,C-CNN),并提出一種連續(xù)片段短語音身份認(rèn)證的模式。通過實驗,進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),C-CNN網(wǎng)絡(luò)在ASVD數(shù)據(jù)集上有98.3%識別率。并進(jìn)行了仿真與性能分析。最后,論文基于SVD數(shù)據(jù)集,搭建了攻擊性判定卷積神經(jīng)網(wǎng)絡(luò)(Aggressive Decision-Convolution Neural Network,AD-CNN)。并結(jié)合C-CNN網(wǎng)絡(luò)提出了一種基于攻擊性判定的身份認(rèn)證的模式。通過實驗,進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),AD-CNN網(wǎng)絡(luò)在SVD數(shù)據(jù)集上的識別率達(dá)到99.4%。并進(jìn)行了仿真與性能分析。
【學(xué)位單位】：杭州電子科技大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2018
【中圖分類】：TP183;TN912.34
【部分圖文】：

流程圖,說話人識別,流程圖

在多元混合高斯分布中，如果變量 x 的維度 D 很大那么使用全協(xié)方差矩陣[56]（非對角）將引入大量參數(shù)（大約為2M × D）。為了減少這個數(shù)量，可以使用對角協(xié)方差矩陣mΣ 。當(dāng)M 很大時，也可以限制所有的協(xié)方差矩陣為相同矩陣，對所有的混合成分m ，將參數(shù)mΣ 綁定在一起。另一個使用對角協(xié)方差的優(yōu)勢是極大地簡化了混合高斯分布所需的計算量。將全協(xié)方差矩陣近似為對角協(xié)方差矩陣可能看似對數(shù)據(jù)向量使用了各個維度不相關(guān)的假設(shè)，但這其實是一種誤導(dǎo)。因為混合高斯模型具有多個高斯成分，雖然每個成分都使用了對角協(xié)方差矩陣，但總體上至少可以有效地描述由一個使用全協(xié)方差矩陣地單高斯模型所描述地向量維度相關(guān)信息。2.3GMM-UBM 聲學(xué)建模GMM-UBM 聲學(xué)模型的出現(xiàn)是說話人識別系統(tǒng)的一個歷程碑。傳統(tǒng)系統(tǒng)中的說話人識別模塊幾乎都是基于 GMM-UBM 模型演變而來的�；� GMM-UBM的說話人識別流程如圖 2.2 所示，主要包括兩個步驟：基于 EM 算法[57]的 UBM訓(xùn)練和基于最大后驗概率（MaximumAPosterior，MAP）的說話人模型訓(xùn)練。

關(guān)系圖,關(guān)系圖,閾值,說話人

統(tǒng)錯誤接受非目標(biāo)說話人。正常情況下，隨著閾值的增加，F(xiàn)RR 的曲線是單調(diào)上升的，F(xiàn)AR 的曲線是單調(diào)下降的。等錯誤率就是 FRR 和 FAR 曲線的焦點，對應(yīng)的閾值點，就是系統(tǒng)閾值的取值。FAR 和 FRR 的關(guān)系曲線圖如圖 2.3 所示：13

結(jié)構(gòu)圖,聲學(xué)模型,結(jié)構(gòu)圖

圖 2.3 FAR 和 FRR 曲線的關(guān)系圖由圖 2.4 可知，H 點為系統(tǒng)最優(yōu)閾值點。GMM-UBM 是目前說話人識別的主流模型。但是在實際應(yīng)用中，幾乎很少看到用于說話人身份認(rèn)證的語音系統(tǒng)，需要新的技術(shù)來加強這方面的研究。2.4GMM-HMM 聲學(xué)建模GMM-HMM 模型是目前聲學(xué)領(lǐng)域中，語音識別系統(tǒng)普遍采用的建模方案。它能夠很好地描述語言內(nèi)容中的隱含狀態(tài)和特征序列之間的關(guān)系。圖 2.4 為GMM-HMM 聲學(xué)模型結(jié)構(gòu)圖。

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 胡悅;;金融市場中的神經(jīng)網(wǎng)絡(luò)拐點預(yù)測法[J];金融經(jīng)濟;2017年18期

2 馬猛;王明紅;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的304不銹鋼車削加工表面粗糙度預(yù)測[J];輕工機械;2019年06期

3 王方;苗放;陳墾;;基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的地質(zhì)災(zāi)害監(jiān)測預(yù)警仿真[J];計算機仿真;2019年11期

4 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會述評[J];國際學(xué)術(shù)動態(tài);1996年01期

5 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識別[J];通訊世界;2018年12期

6 林嘉應(yīng);鄭柏倫;劉捷;;基于卷積神經(jīng)網(wǎng)絡(luò)的船舶分類模型[J];信息技術(shù)與信息化;2019年02期

7 俞頌華;;卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展與應(yīng)用綜述[J];信息通信;2019年02期

8 韓真;凱文·哈特尼特;;為神經(jīng)網(wǎng)絡(luò)的通用理論建造基石[J];世界科學(xué);2019年04期

9 鮑偉強;陳娟;熊濤;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的短期電力負(fù)荷預(yù)測研究[J];電工技術(shù);2019年11期

10 陳曉燕;;淺析簡單神經(jīng)網(wǎng)絡(luò)的發(fā)展及簡單模型[J];數(shù)字技術(shù)與應(yīng)用;2019年05期

相關(guān)會議論文前10條

1 孫軍田;張U

本文編號：2828398

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/2828398.html

上一篇：基于輪廓波DLN的極化SAR影像目標(biāo)檢測
下一篇：寬帶寬角覆蓋低副瓣陣列設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN的短語音識別技術(shù)和應(yīng)用研究