基于深度學(xué)習(xí)的說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-04 15:03
本文關(guān)鍵詞:基于深度學(xué)習(xí)的說話人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 說話人識(shí)別 深度學(xué)習(xí) 梅爾倒譜系數(shù) 深度信念網(wǎng)絡(luò)
【摘要】:說話人識(shí)別是根據(jù)說話人提供的語音信號(hào)的特性來自動(dòng)識(shí)別說話人身份的一種技術(shù)。作為一種生物認(rèn)證技術(shù),它具有用戶的接受度高、所需的設(shè)備成本低以及便于移植等優(yōu)勢,相對(duì)于其他的技術(shù),它體現(xiàn)了更方便、經(jīng)濟(jì)和安全的特點(diǎn),因此被廣泛應(yīng)用到網(wǎng)絡(luò)、國防系統(tǒng)及科研等領(lǐng)域,從而使說話人識(shí)別技術(shù)具有普遍的使用價(jià)值和重要意義。說話人識(shí)別系統(tǒng)的終極目標(biāo)是使人與機(jī)器之間能夠像人與人之間一樣自如地交流。首先,本文對(duì)說話人識(shí)別的基本原理和識(shí)別系統(tǒng)的結(jié)構(gòu)以及實(shí)現(xiàn)的過程進(jìn)行了簡單的介紹,分析了說話人識(shí)別系統(tǒng)中常用的主流特征參數(shù)—梅爾倒譜系數(shù)(MFCC),還在借助MFCC的基礎(chǔ)上描述了高斯混合模型(GMM)的說話人識(shí)別的過程;其次,對(duì)于本文需要做的工作所用到的理論背景知識(shí)—深度學(xué)習(xí)理論中的深度信念網(wǎng)絡(luò)系統(tǒng)做出了充分而詳細(xì)的介紹,深度信念網(wǎng)絡(luò)可以彌補(bǔ)淺層學(xué)習(xí)附有的學(xué)習(xí)不充分和網(wǎng)絡(luò)的深度不足的缺點(diǎn),因此被廣泛地運(yùn)用到模式的識(shí)別和目標(biāo)的檢測等諸多領(lǐng)域內(nèi),本文就是在深度信念網(wǎng)絡(luò)的基礎(chǔ)上來實(shí)現(xiàn)的說話人識(shí)別;最后,在Matlab軟件上對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行仿真性的模擬。因?yàn)槊窢柕棺V系數(shù)(MFCC)在反映人耳的聽覺特性上表現(xiàn)出別具一格的優(yōu)勢,所以本文選用了MFCC作為待識(shí)別說話人的語音信號(hào)的特征參數(shù),并把它作為系統(tǒng)模型訓(xùn)練和識(shí)別的輸入向量。本文的說話人識(shí)別系統(tǒng)是借助深度學(xué)習(xí)的相關(guān)算法得以實(shí)現(xiàn)的,實(shí)驗(yàn)結(jié)果表明了基于深度學(xué)習(xí)的說話人識(shí)別系統(tǒng)有很好的可行性。
【關(guān)鍵詞】:說話人識(shí)別 深度學(xué)習(xí) 梅爾倒譜系數(shù) 深度信念網(wǎng)絡(luò)
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.34
【目錄】:
- 中文摘要4-5
- Abstract5-8
- 第1章 緒論8-18
- 1.1 說話人識(shí)別的背景和研究意義8-13
- 1.1.1 說話人識(shí)別技術(shù)的研究背景8-9
- 1.1.2 說話人識(shí)別研究的意義9-13
- 1.2 說話人識(shí)別技術(shù)研究的現(xiàn)狀13-14
- 1.3 說話人識(shí)別技術(shù)的應(yīng)用14-16
- 1.4 論文的組織結(jié)構(gòu)16-18
- 第2章 語音信號(hào)的特征參數(shù)的分析及提取18-35
- 2.1 說話人識(shí)別模型18-25
- 2.1.1 說話人語音信號(hào)產(chǎn)生的原理18-22
- 2.1.2 說話人識(shí)別的模型種類22-25
- 2.2 語音信號(hào)的預(yù)處理介紹25-30
- 2.2.1 語音信號(hào)預(yù)加重處理25-26
- 2.2.2 語音端點(diǎn)檢測26-29
- 2.2.3 語音信號(hào)的降噪處理29-30
- 2.3 說話人特征參數(shù)的分析和提取30-32
- 2.3.1 MFCC的分析30-31
- 2.3.2 MFCC的提取流程31-32
- 2.4 MFCC在高斯混合模型上的說話人識(shí)別32-34
- 2.5 本章小結(jié)34-35
- 第3章 深度學(xué)習(xí)的基本理論35-42
- 3.1 深度學(xué)習(xí)的深度35-36
- 3.2 深度學(xué)習(xí)的動(dòng)機(jī)36-37
- 3.3 深度學(xué)習(xí)的示意圖37-38
- 3.4 深度學(xué)習(xí)的背景和發(fā)展38-41
- 3.5 本章小結(jié)41-42
- 第4章 基于深度學(xué)習(xí)的說話人識(shí)別42-50
- 4.1 引入RBM42-43
- 4.2 說話人識(shí)別用到的深度學(xué)習(xí)算法43-48
- 4.3 基于深度學(xué)習(xí)的說話人識(shí)別系統(tǒng)的實(shí)現(xiàn)48-49
- 4.4 本章小結(jié)49-50
- 第5章 說話人識(shí)別系統(tǒng)的實(shí)驗(yàn)50-59
- 5.1 實(shí)驗(yàn)的前提條件50-51
- 5.1.1 實(shí)驗(yàn)的軟硬件環(huán)境50
- 5.1.2 語音信號(hào)的采集50-51
- 5.1.3 說話人識(shí)別系統(tǒng)識(shí)別率的計(jì)算51
- 5.2 基于深度學(xué)習(xí)的說話人識(shí)別系統(tǒng)性能的驗(yàn)證51-58
- 5.2.1 測試選取不同的語音單位長度對(duì)系統(tǒng)識(shí)別率的影響53-55
- 5.2.2 測試選取不同的語音特征參數(shù)對(duì)說話人識(shí)別系統(tǒng)性能的影響55-56
- 5.2.3 測試不同的輸出層神經(jīng)元的個(gè)數(shù)對(duì)系統(tǒng)性能的影響56-58
- 5.3 本章小結(jié)58-59
- 結(jié)論59-61
- 參考文獻(xiàn)61-68
- 致謝68
本文編號(hào):971289
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/971289.html
最近更新
教材專著