天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于深度學(xué)習(xí)的說話人識別建模研究

發(fā)布時間:2017-12-11 17:12

  本文關(guān)鍵詞:基于深度學(xué)習(xí)的說話人識別建模研究


  更多相關(guān)文章: 說話人識別 深度學(xué)習(xí) 受限玻爾茲曼機(jī) 獨(dú)立子空間分析 度量學(xué)習(xí)


【摘要】:說話人識別是利用人的發(fā)聲特點(diǎn)自動對說話人進(jìn)行區(qū)分,從而鑒別說話人身份的技術(shù)。由于其實(shí)用性,在金融、安防、公安、司法、軍事和信息服務(wù)等領(lǐng)域都具有廣泛的應(yīng)用前景。目前,復(fù)雜背景(多環(huán)境、多傳輸通道)下的說話人識別中,i-vector模型框架融合了高斯混合-通用背景GMM-UBM模型、總體變化i-vector模型和線性判別分析LDA模型等三種模型,其中GMM-UBM模型得到的高斯超向量較好的描述了語音特征的數(shù)據(jù)分布,i-vector模型通過因子分析將高維的高斯超向量降維得到能表征說話人身份的低維的總體變化因子(即i-vector),LDA模型通過通道補(bǔ)償將總體變化因子進(jìn)一步類內(nèi)距離最小類間距離最大,取得了較好的識別效果,是當(dāng)前的主流技術(shù)。然而,i-vector模型框架中總體變化模型和線性判別分析模型都是建立在說話人信息和通道信息線性可分的假設(shè)之上,但實(shí)際上僅通過線性空間關(guān)系,難于準(zhǔn)確地將兩者有效分離。這就限制了模型在復(fù)雜實(shí)際環(huán)境中的性能。近年來,得益于深度學(xué)習(xí)較強(qiáng)的深層信息抽取和非線性建模能力,深度學(xué)習(xí)理論在諸多機(jī)器學(xué)習(xí)領(lǐng)域都取得了成功的應(yīng)用。為了進(jìn)一步提高文本無關(guān)說話人識別的性能和魯棒性,本文將深度學(xué)習(xí)引入到說話人識別的建?蚣苤,利用深度學(xué)習(xí)模型具有的深度非線性結(jié)構(gòu)特征,在因子分析建模層面和通道補(bǔ)償建模層面分別進(jìn)行了探索,并對這些方法在海量數(shù)據(jù)及大規(guī)模人群條件下的說話人識別應(yīng)用進(jìn)行了性能評估和分析。所取得的主要工作成果和創(chuàng)新點(diǎn)如下:1.在因子分析建模層面,針對i-vector模型基于線性降維難以保留原始數(shù)據(jù)中非線性特征的問題,提出了一種基于受限玻爾茲曼機(jī)的總體變化因子建模方法來替代傳統(tǒng)i-vector模型。該方法通過假設(shè)受限玻爾茲曼機(jī)的可見層和隱層服從高斯分布或伯努利分布,經(jīng)推導(dǎo)后得到類似i-vector的數(shù)學(xué)表達(dá)式,并在此基礎(chǔ)上構(gòu)建了基于高斯-伯努利和高斯-高斯受限玻爾茲曼機(jī)的說話人特征向量提取器(RBM-i-vector),將高維的高斯超向量通過非線性降維映射到低維表示,并附加LDA線性判別分析模型,獲得了較好的性能。在增加受限玻爾茲曼機(jī)網(wǎng)絡(luò)層數(shù)的條件下,識別性能可進(jìn)一步提升。此外,基于該建模方法的說話人系統(tǒng)與傳統(tǒng)的i-vector系統(tǒng)進(jìn)行系統(tǒng)融合后,識別性能還可進(jìn)一步提升。2.在通道補(bǔ)償建模層面,針對線性判別分析LDA模型線性區(qū)分能力不足的問題,提出了一種i-vector空間下基于深度神經(jīng)網(wǎng)絡(luò)的非線性度量學(xué)習(xí)建模方法來替代傳統(tǒng)LDA模型。區(qū)別于傳統(tǒng)的線性度量學(xué)習(xí)方法,該方法分別采用受限玻爾茲曼機(jī)和獨(dú)立子空間分析網(wǎng)絡(luò)來堆疊成深度神經(jīng)網(wǎng)絡(luò),通過深度神經(jīng)網(wǎng)絡(luò)的非線性函數(shù)特性,將特征從原始i-vector空間變換到其它子空間進(jìn)行通道補(bǔ)償,同時將度量學(xué)習(xí)的側(cè)信息約束和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,在此基礎(chǔ)上計算兩條語音之間的相似性,以獲得更好的區(qū)分特性。實(shí)驗(yàn)證明,該方法可以有效的提高說話人識別建模的區(qū)分性,提升說話人識別系統(tǒng)的性能。3.將上述兩種基于深度學(xué)習(xí)的建模方法融合,提出了基于深度受限玻爾茲曼機(jī)的總體變化因子建模和基于獨(dú)立子空間分析網(wǎng)絡(luò)的深度非線性學(xué)習(xí)建模相結(jié)合的建模方法(RBM_ISA模型),完整替代傳統(tǒng)i-vector模型和LDA模型,實(shí)現(xiàn)將高維的高斯超向量通過非線性降維得到能表征說話人身份的低維的總體變化因子RBM-i-vector,再采用非線性度量學(xué)習(xí)分類,進(jìn)一步提升了說話人識別系統(tǒng)的區(qū)分能力,相比上述兩種基于深度學(xué)習(xí)的模型和傳統(tǒng)i-vector框架模型,均獲得了更好的說話人確認(rèn)性能。4.針對現(xiàn)有說話人識別系統(tǒng)多是在中小規(guī)模數(shù)據(jù)集基礎(chǔ)上進(jìn)行性能評估,鮮有面向幾十萬大規(guī)模數(shù)據(jù)集的說話人識別性能評估和分析研究的問題,通過構(gòu)建一個40萬級的大規(guī)模真實(shí)說話人語音庫,對傳統(tǒng)基于i-vector模型框架的說話人識別系統(tǒng)以及本文所提出的基于RBM_ISA模型的說話人識別系統(tǒng)的性能進(jìn)行了評估,給出了40萬人大規(guī)模聲紋庫條件下和40萬人大規(guī)模測試語音條件下的兩種說話人識別系統(tǒng)的說話人辨認(rèn)性能,并分析了信道失配對海量語音說話人識別性能的影響,為說話人識別技術(shù)真正走向?qū)嵱锰峁┝擞袃r值的分析和參考。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TN912.34

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 瞿濤;鄧德祥;劉慧;鄒煉;劉弋鋒;;多層獨(dú)立子空間分析時空特征的人體行為識別方法[J];武漢大學(xué)學(xué)報(信息科學(xué)版);2016年04期

2 王明合;唐振民;張二華;;基于i-vector局部加權(quán)線性判別分析的說話人識別[J];儀器儀表學(xué)報;2015年12期

3 沈媛媛;嚴(yán)嚴(yán);王菡子;;有監(jiān)督的距離度量學(xué)習(xí)算法研究進(jìn)展[J];自動化學(xué)報;2014年12期

4 陳麗萍;王爾玉;戴禮榮;宋彥;;基于深層置信網(wǎng)絡(luò)的說話人信息提取方法[J];模式識別與人工智能;2013年12期



本文編號:1279258

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1279258.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶65407***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com