基于深度學(xué)習(xí)的與文本無關(guān)話者確認(rèn)研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)的與文本無關(guān)話者確認(rèn)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科學(xué)技術(shù)的不斷進步,電話已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧T谏矸菡J(rèn)證技術(shù)研究領(lǐng)域,越來越多的研究人員開始關(guān)注如何使用電話語音進行身份認(rèn)證,因為相對于其它身份認(rèn)證技術(shù)來說,使用電話語音進行身份認(rèn)證所需的設(shè)備簡單、成本低、易獲取,更重要的是在使用電話語音進行身份認(rèn)證的過程中,用戶不需要接觸設(shè)備,只需要簡單的說一句話,便可完成認(rèn)證,大大提高了用戶的接受率。另外,說話人確認(rèn)技術(shù)還是語音識別技術(shù)研究領(lǐng)域的一個重要研究方向,所以說話人確認(rèn)技術(shù)的研究不僅具有重要的理論研究意義而且還具有廣泛的應(yīng)用前景。目前在說話人確認(rèn)研究領(lǐng)域中,主流的說話人建模方法都是基于概率統(tǒng)計模型的,其中最具代表性的概率統(tǒng)計說話人模型當(dāng)屬高斯混合模型(Gaussian Mixture Model, GMM)。高斯混合模型采用非常多的高斯概率密度函數(shù)分量,對說話人的語音特征分布進行了較好的描述,從而取得了不錯的效果:但說話人確認(rèn)是一個二元分類問題,而高斯混合模型只是一種概率生成性模型,其區(qū)分能力非常有限,所以需要尋找同時具有強大表征能力和很強區(qū)分能力的模型進行說話人建模。近年來,深度學(xué)習(xí)(Deep Learning,,DL)理論在模式識別領(lǐng)域掀起了一股非常大的研究熱潮,其出發(fā)點是想構(gòu)建一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來模擬人腦的思維方式,然后對數(shù)據(jù)進行分析和處理。目前深度學(xué)習(xí)理論所依托的實現(xiàn)載體是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)。深度神經(jīng)網(wǎng)絡(luò)憑借多隱層的結(jié)構(gòu)特點,使得其具有很好的表征能力和區(qū)分能力,目前在模式識別的諸多研究方向都取得了成功應(yīng)用。本文主要研究內(nèi)容就是將具有強大表征能力及區(qū)分能力的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于說話人確認(rèn)系統(tǒng)中進行說話人建模,構(gòu)建基于深度神經(jīng)網(wǎng)絡(luò)的話者確認(rèn)系統(tǒng),針對建模過程中深度神經(jīng)網(wǎng)絡(luò)輸入特征的選擇、網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)訓(xùn)練方法等關(guān)鍵問題進行了深入的研究,并對多種基于深度神經(jīng)網(wǎng)絡(luò)的說話人確認(rèn)系統(tǒng)的結(jié)構(gòu)及性能進行對比。首先,介紹了目前說話人確認(rèn)技術(shù)研究領(lǐng)域最為經(jīng)典的概率統(tǒng)計模型——高斯混合模型,并對其原理進行了詳細闡述。針對其應(yīng)用于說話人確認(rèn)系統(tǒng)中使用的GMM-UBM結(jié)構(gòu)進行了深入的討論,并對GMM-UBM說話人模型訓(xùn)練過程中使用的MAP算法進行介紹,然后通過實驗分析了混合度的選取對GMM-UBM說話人確認(rèn)系統(tǒng)整體性能的影響,同時構(gòu)建了本文研究所需的基線系統(tǒng)。接著,對深度神經(jīng)網(wǎng)絡(luò)相關(guān)內(nèi)容展開了討論,介紹了深度神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,詳細闡述了深度神經(jīng)網(wǎng)絡(luò)的原理及其訓(xùn)練算法,并對深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中常出現(xiàn)的問題進行了重點討論。本文針對基于GMM-UBM的說話人模型區(qū)分能力差,表征能力不足等問題,引入了深度神經(jīng)網(wǎng)絡(luò)進行說話人建模,構(gòu)建了基于DNN-SPK說話人確認(rèn)系統(tǒng)。為了進一步的減弱語音倒譜中語義信息的干擾,采用GMM對語音的原始倒譜特征進行聚類變換,抽取原始倒譜特征的統(tǒng)計特征參數(shù),從而進一步突顯說話人的個性信息,然后將其與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建基于GMM-DNN說話人確認(rèn)系統(tǒng),大大提高了確認(rèn)的效果。最后,語音作為一種時序信號,當(dāng)前時刻的信息在一定程度上是受其歷史信息影響的。采用DNN進行說話人建模時,DNN對語音歷史信息的記憶是非常有限的,所以引入了能夠記住長歷史信息的長短時記憶(Long Short Term Memory,LSTM)模型,構(gòu)建了基于LSTM-SPK說話人確認(rèn)系統(tǒng),針對采用LSTM進行說話人建模過程中,模型結(jié)構(gòu)的選擇以及如何選取輸入特征參數(shù)和輸出說話人標(biāo)簽等關(guān)鍵問題進行詳細討論。另外,針對LSTM計算復(fù)雜度比較高的問題,探討了采用LSTMP模型替換LSTM模型進行說話人建模的策略,最終使得話者確認(rèn)系統(tǒng)的性能獲得了明顯的提升。
【關(guān)鍵詞】:說話人確認(rèn) 高斯混合模型 深度學(xué)習(xí) 深度神經(jīng)網(wǎng)絡(luò) 長短時記憶模型
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要5-7
- ABSTRACT7-13
- 第一章 緒論13-25
- 1.1 引言13
- 1.2 說話人確認(rèn)研究概述13-16
- 1.2.1 說話人確認(rèn)研究的意義14
- 1.2.2 說話人確認(rèn)的發(fā)展和現(xiàn)狀14-16
- 1.2.3 說話人確認(rèn)的分類16
- 1.3 說話人確認(rèn)系統(tǒng)總體框架16-21
- 1.3.1 前端處理17-19
- 1.3.2 說話人建模19-20
- 1.3.3 評估準(zhǔn)則20-21
- 1.4 論文的主要研究內(nèi)容21-25
- 第二章 基于概率統(tǒng)計模型的說話人確認(rèn)25-41
- 2.1 概述25-26
- 2.2 貝葉斯決策理論26-28
- 2.3 高斯混合模型28-33
- 2.3.1 高斯混合模型概述28
- 2.3.2 高斯混合模型的結(jié)構(gòu)28-30
- 2.3.3 高斯混合模型的參數(shù)估計30-33
- 2.4 基于GMM-UBM的說話人確認(rèn)33-37
- 2.4.1 GMM-UBM系統(tǒng)結(jié)構(gòu)33-34
- 2.4.2 MAP自適應(yīng)算法34-37
- 2.5 實驗結(jié)果與分析37-39
- 2.5.1 實驗語音庫37
- 2.5.2 語音預(yù)處理37-38
- 2.5.3 特征提取38-39
- 2.5.4 混合度的影響39
- 2.6 本章小結(jié)39-41
- 第三章 深度學(xué)習(xí)的基本理論41-59
- 3.1 概述41
- 3.2 神經(jīng)網(wǎng)絡(luò)發(fā)展歷程41-42
- 3.3 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)42-45
- 3.4 DNN參數(shù)估計45-49
- 3.5 DNN訓(xùn)練中常見問題49-56
- 3.5.1 數(shù)據(jù)預(yù)處理50-51
- 3.5.2 模型初始化51-54
- 3.5.3 權(quán)值衰減策略54-55
- 3.5.4 Momentum策略55
- 3.5.5 Dropout策略55-56
- 3.6 DNN隱藏層的作用56-58
- 3.7 本章小結(jié)58-59
- 第四章 基于DNN的說話人確認(rèn)59-69
- 4.1 引言59
- 4.2 基于DNN-SPK的說話人確認(rèn)59-65
- 4.2.1 DNN作為特征提取器60-61
- 4.2.2 注冊和測試61-62
- 4.2.3 實驗與分析62-65
- 4.3 基于GMM-DNN的說話人確認(rèn)65-68
- 4.3.1 系統(tǒng)結(jié)構(gòu)65-66
- 4.3.2 注冊和測試66-67
- 4.3.3 實驗與分析67-68
- 4.4 本章小結(jié)68-69
- 第五章 基于LSTM的說話人確認(rèn)69-83
- 5.1 引言69
- 5.2 RNN的簡單介紹69-73
- 5.2.1 單向RNN70-71
- 5.2.2 雙向RNN71-73
- 5.3 LSTM73-78
- 5.3.1 網(wǎng)絡(luò)結(jié)構(gòu)74-75
- 5.3.2 網(wǎng)絡(luò)訓(xùn)練75-77
- 5.3.3 改進型LSTM77-78
- 5.4 基于LSTM的說話人確認(rèn)78-81
- 5.4.1 系統(tǒng)結(jié)構(gòu)78-79
- 5.4.2 注冊和測試79
- 5.4.3 實驗與分析79-81
- 5.5 本章小結(jié)81-83
- 第六章 總結(jié)與展望83-85
- 參考文獻85-89
- 致謝89-91
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果91
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭偉;李輝;許敏強;劉青松;;基于高維空間映射失配補償方法的說話人確認(rèn)[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2010年02期
2 張怡穎,朱小燕,張鈸;一種新的說話人確認(rèn)方法[J];軟件學(xué)報;1999年04期
3 翁武斌,方棣棠;應(yīng)用分段辨認(rèn)序列頻度信息的說話人確認(rèn)方法[J];中文信息學(xué)報;2000年05期
4 文學(xué),劉加,劉潤生;一種改進的新型說話人確認(rèn)算法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2003年01期
5 陳繼旭;劉明輝;戴蓓劏;李輝;;文本無關(guān)說話人確認(rèn)中的一種新的評分規(guī)整方法[J];信號處理;2006年04期
6 劉明輝;戴蓓劏;解焱陸;;基于GMM多維概率輸出的SVM話者確認(rèn)[J];模式識別與人工智能;2008年01期
7 解焱陸;劉青松;戴蓓劏;李輝;;一種用于魯棒性說話人確認(rèn)的分段概率分布參數(shù)規(guī)整方法[J];電路與系統(tǒng)學(xué)報;2008年06期
8 郭武;李軼杰;戴禮榮;王仁華;;采用非監(jiān)督得分規(guī)整和因子分析的說話人確認(rèn)[J];電子學(xué)報;2009年04期
9 許東星;戴蓓劏;許敏強;劉青松;;聲母發(fā)聲特點參數(shù)的提取及其提高說話人確認(rèn)魯棒性的研究[J];信號處理;2009年09期
10 陳存寶;趙力;;嵌入時延網(wǎng)絡(luò)的高斯混合背景模型說話人確認(rèn)[J];信號處理;2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳璽宏;遲惠生;;一種高性能的限定文本說話人確認(rèn)系統(tǒng)[A];第三屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1994年
2 洪青陽;陳毅東;;一種用于說話人確認(rèn)的區(qū)別性訓(xùn)練方法[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
3 許云飛;黃厚軍;金怡珠;李桂蓮;周若華;;基于PLDA的“一對多”下的說話人確認(rèn)方法研究[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 展領(lǐng);景新幸;;矢量量化和VQ-UBM在說話人確認(rèn)中的應(yīng)用[A];中國聲學(xué)學(xué)會2009年青年學(xué)術(shù)會議[CYCA’09]論文集[C];2009年
5 趙賢宇;董遠;張雪峰;楊浩;王海拉;;說話人確認(rèn)系統(tǒng)中基于高斯混合分布相似度選擇TNorm背景模型的研究[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
6 趙亞麗;付中華;謝磊;張健;張艷寧;;雙麥克風(fēng)語音增強和雜混模型訓(xùn)練相結(jié)合的頑健說話人確認(rèn)[A];第十一屆全國人機語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
7 楊藝敏;景新幸;楊海燕;;PSO-SVM在說話人確認(rèn)系統(tǒng)中的研究[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年
8 張濤;王嵐;遲惠生;;基于VQ的說話人確認(rèn)系統(tǒng)的硬件實現(xiàn)[A];第六屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2001年
9 尹聰;白靜;龔[
本文編號:290714
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/290714.html