基于CNN的短語音識別技術和應用研究
【學位單位】:杭州電子科技大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP183;TN912.34
【部分圖文】:
在多元混合高斯分布中,如果變量 x 的維度 D 很大那么使用全協(xié)方差矩陣[56](非對角)將引入大量參數(shù)(大約為2M × D)。為了減少這個數(shù)量,可以使用對角協(xié)方差矩陣mΣ 。當M 很大時,也可以限制所有的協(xié)方差矩陣為相同矩陣,對所有的混合成分m ,將參數(shù)mΣ 綁定在一起。另一個使用對角協(xié)方差的優(yōu)勢是極大地簡化了混合高斯分布所需的計算量。將全協(xié)方差矩陣近似為對角協(xié)方差矩陣可能看似對數(shù)據(jù)向量使用了各個維度不相關的假設,但這其實是一種誤導。因為混合高斯模型具有多個高斯成分,雖然每個成分都使用了對角協(xié)方差矩陣,但總體上至少可以有效地描述由一個使用全協(xié)方差矩陣地單高斯模型所描述地向量維度相關信息。2.3GMM-UBM 聲學建模GMM-UBM 聲學模型的出現(xiàn)是說話人識別系統(tǒng)的一個歷程碑。傳統(tǒng)系統(tǒng)中的說話人識別模塊幾乎都是基于 GMM-UBM 模型演變而來的。基于 GMM-UBM的說話人識別流程如圖 2.2 所示,主要包括兩個步驟:基于 EM 算法[57]的 UBM訓練和基于最大后驗概率(MaximumAPosterior,MAP)的說話人模型訓練。
統(tǒng)錯誤接受非目標說話人。正常情況下,隨著閾值的增加,F(xiàn)RR 的曲線是單調(diào)上升的,F(xiàn)AR 的曲線是單調(diào)下降的。等錯誤率就是 FRR 和 FAR 曲線的焦點,對應的閾值點,就是系統(tǒng)閾值的取值。FAR 和 FRR 的關系曲線圖如圖 2.3 所示:13
圖 2.3 FAR 和 FRR 曲線的關系圖由圖 2.4 可知,H 點為系統(tǒng)最優(yōu)閾值點。GMM-UBM 是目前說話人識別的主流模型。但是在實際應用中,幾乎很少看到用于說話人身份認證的語音系統(tǒng),需要新的技術來加強這方面的研究。2.4GMM-HMM 聲學建模GMM-HMM 模型是目前聲學領域中,語音識別系統(tǒng)普遍采用的建模方案。它能夠很好地描述語言內(nèi)容中的隱含狀態(tài)和特征序列之間的關系。圖 2.4 為GMM-HMM 聲學模型結(jié)構圖。
【相似文獻】
相關期刊論文 前10條
1 胡悅;;金融市場中的神經(jīng)網(wǎng)絡拐點預測法[J];金融經(jīng)濟;2017年18期
2 馬猛;王明紅;;基于進化神經(jīng)網(wǎng)絡的304不銹鋼車削加工表面粗糙度預測[J];輕工機械;2019年06期
3 王方;苗放;陳墾;;基于優(yōu)化神經(jīng)網(wǎng)絡的地質(zhì)災害監(jiān)測預警仿真[J];計算機仿真;2019年11期
4 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡大會述評[J];國際學術動態(tài);1996年01期
5 吳立可;;脈沖神經(jīng)網(wǎng)絡和行為識別[J];通訊世界;2018年12期
6 林嘉應;鄭柏倫;劉捷;;基于卷積神經(jīng)網(wǎng)絡的船舶分類模型[J];信息技術與信息化;2019年02期
7 俞頌華;;卷積神經(jīng)網(wǎng)絡的發(fā)展與應用綜述[J];信息通信;2019年02期
8 韓真;凱文·哈特尼特;;為神經(jīng)網(wǎng)絡的通用理論建造基石[J];世界科學;2019年04期
9 鮑偉強;陳娟;熊濤;;基于進化神經(jīng)網(wǎng)絡的短期電力負荷預測研究[J];電工技術;2019年11期
10 陳曉燕;;淺析簡單神經(jīng)網(wǎng)絡的發(fā)展及簡單模型[J];數(shù)字技術與應用;2019年05期
相關會議論文 前10條
1 孫軍田;張U
本文編號:2828398
本文鏈接:http://sikaile.net/kejilunwen/wltx/2828398.html