天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN的短語音識別技術(shù)和應(yīng)用研究

發(fā)布時間:2020-09-27 21:33
   語音作為一種生物特征,具有活性高、區(qū)分度高和不容易被復(fù)制的特點。相比其他的生物特征(人臉、指紋、指靜脈和虹膜等),語音特征在身份認(rèn)證方面有很大的優(yōu)勢。隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)安全成為了現(xiàn)下網(wǎng)絡(luò)環(huán)境中尤為重要的一個環(huán)節(jié)。各大互聯(lián)網(wǎng)公司都投入了大量的資源用于網(wǎng)絡(luò)身份認(rèn)證的發(fā)展,并取得了一定的成果,如支付寶公司的人臉認(rèn)證系統(tǒng)、蘋果公司的語音解鎖功能等。語音智能識別,可分為語音識別和說話人識別。前者用于語音內(nèi)容的識別后者用于說話人身份的識別,都可以應(yīng)用于安全認(rèn)證系統(tǒng)。本文主要進(jìn)行基于卷積神經(jīng)網(wǎng)絡(luò)的短語音識別和應(yīng)用研究。首先,論文基于小數(shù)據(jù)集深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練不充分的問題,提出數(shù)據(jù)二值化擴增處理方式。基于ASVD數(shù)據(jù)集,該方法使網(wǎng)絡(luò)識別率增加了2.1個百分點,并且收斂過程更加平滑,即不容易陷入局部最優(yōu)。并進(jìn)行了仿真與性能分析。然后,論文基于ASVD數(shù)據(jù)集,搭建了分類卷積神經(jīng)網(wǎng)絡(luò)(Classified-Convolution Neural Network,C-CNN),并提出一種連續(xù)片段短語音身份認(rèn)證的模式。通過實驗,進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),C-CNN網(wǎng)絡(luò)在ASVD數(shù)據(jù)集上有98.3%識別率。并進(jìn)行了仿真與性能分析。最后,論文基于SVD數(shù)據(jù)集,搭建了攻擊性判定卷積神經(jīng)網(wǎng)絡(luò)(Aggressive Decision-Convolution Neural Network,AD-CNN)。并結(jié)合C-CNN網(wǎng)絡(luò)提出了一種基于攻擊性判定的身份認(rèn)證的模式。通過實驗,進(jìn)行網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),AD-CNN網(wǎng)絡(luò)在SVD數(shù)據(jù)集上的識別率達(dá)到99.4%。并進(jìn)行了仿真與性能分析。
【學(xué)位單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP183;TN912.34
【部分圖文】:

流程圖,說話人識別,流程圖


在多元混合高斯分布中,如果變量 x 的維度 D 很大那么使用全協(xié)方差矩陣[56](非對角)將引入大量參數(shù)(大約為2M × D)。為了減少這個數(shù)量,可以使用對角協(xié)方差矩陣mΣ 。當(dāng)M 很大時,也可以限制所有的協(xié)方差矩陣為相同矩陣,對所有的混合成分m ,將參數(shù)mΣ 綁定在一起。另一個使用對角協(xié)方差的優(yōu)勢是極大地簡化了混合高斯分布所需的計算量。將全協(xié)方差矩陣近似為對角協(xié)方差矩陣可能看似對數(shù)據(jù)向量使用了各個維度不相關(guān)的假設(shè),但這其實是一種誤導(dǎo)。因為混合高斯模型具有多個高斯成分,雖然每個成分都使用了對角協(xié)方差矩陣,但總體上至少可以有效地描述由一個使用全協(xié)方差矩陣地單高斯模型所描述地向量維度相關(guān)信息。2.3GMM-UBM 聲學(xué)建模GMM-UBM 聲學(xué)模型的出現(xiàn)是說話人識別系統(tǒng)的一個歷程碑。傳統(tǒng)系統(tǒng)中的說話人識別模塊幾乎都是基于 GMM-UBM 模型演變而來的; GMM-UBM的說話人識別流程如圖 2.2 所示,主要包括兩個步驟:基于 EM 算法[57]的 UBM訓(xùn)練和基于最大后驗概率(MaximumAPosterior,MAP)的說話人模型訓(xùn)練。

關(guān)系圖,關(guān)系圖,閾值,說話人


統(tǒng)錯誤接受非目標(biāo)說話人。正常情況下,隨著閾值的增加,F(xiàn)RR 的曲線是單調(diào)上升的,F(xiàn)AR 的曲線是單調(diào)下降的。等錯誤率就是 FRR 和 FAR 曲線的焦點,對應(yīng)的閾值點,就是系統(tǒng)閾值的取值。FAR 和 FRR 的關(guān)系曲線圖如圖 2.3 所示:13

結(jié)構(gòu)圖,聲學(xué)模型,結(jié)構(gòu)圖


圖 2.3 FAR 和 FRR 曲線的關(guān)系圖由圖 2.4 可知,H 點為系統(tǒng)最優(yōu)閾值點。GMM-UBM 是目前說話人識別的主流模型。但是在實際應(yīng)用中,幾乎很少看到用于說話人身份認(rèn)證的語音系統(tǒng),需要新的技術(shù)來加強這方面的研究。2.4GMM-HMM 聲學(xué)建模GMM-HMM 模型是目前聲學(xué)領(lǐng)域中,語音識別系統(tǒng)普遍采用的建模方案。它能夠很好地描述語言內(nèi)容中的隱含狀態(tài)和特征序列之間的關(guān)系。圖 2.4 為GMM-HMM 聲學(xué)模型結(jié)構(gòu)圖。

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡悅;;金融市場中的神經(jīng)網(wǎng)絡(luò)拐點預(yù)測法[J];金融經(jīng)濟;2017年18期

2 馬猛;王明紅;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的304不銹鋼車削加工表面粗糙度預(yù)測[J];輕工機械;2019年06期

3 王方;苗放;陳墾;;基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的地質(zhì)災(zāi)害監(jiān)測預(yù)警仿真[J];計算機仿真;2019年11期

4 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會述評[J];國際學(xué)術(shù)動態(tài);1996年01期

5 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識別[J];通訊世界;2018年12期

6 林嘉應(yīng);鄭柏倫;劉捷;;基于卷積神經(jīng)網(wǎng)絡(luò)的船舶分類模型[J];信息技術(shù)與信息化;2019年02期

7 俞頌華;;卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展與應(yīng)用綜述[J];信息通信;2019年02期

8 韓真;凱文·哈特尼特;;為神經(jīng)網(wǎng)絡(luò)的通用理論建造基石[J];世界科學(xué);2019年04期

9 鮑偉強;陳娟;熊濤;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的短期電力負(fù)荷預(yù)測研究[J];電工技術(shù);2019年11期

10 陳曉燕;;淺析簡單神經(jīng)網(wǎng)絡(luò)的發(fā)展及簡單模型[J];數(shù)字技術(shù)與應(yīng)用;2019年05期

相關(guān)會議論文 前10條

1 孫軍田;張U

本文編號:2828398


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2828398.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ef43***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com