基于深度學(xué)習(xí)的說話人性別特征識別研究
發(fā)布時間:2022-08-07 21:34
說話人性別識別是語音識別的一個重要領(lǐng)域,是基于說話人的聲學(xué)特征進(jìn)行說話人性別識別的技術(shù)。它最早是說話人識別領(lǐng)域的一個子研究課題,對語音信號先進(jìn)行性別識別,再依據(jù)男女類別分別進(jìn)行說話人識別,可以顯著減少搜索空間和時間,在提高說話人辨別的準(zhǔn)確率、提高系統(tǒng)的處理速度等方面都具有極大的意義。并且,基于性別相關(guān)的情感識別技術(shù)也一直是研究者處理情感計算的方法。傳統(tǒng)的說話人性別識別系統(tǒng),在純凈語音環(huán)境下以音素或單元音作為性別識別的訓(xùn)練語料的識別率較高,針對電話語音的性別識別也能達(dá)到較好的效果;而應(yīng)用在連續(xù)語音或短時語音段上的識別率大大降低。在說話人性別識別系統(tǒng)中,特征參數(shù)的選取對系統(tǒng)的識別影響重大,單一的語音特征對識別率的提高有著局限性。本文嘗試使用多種特征組合的方法來提升對連續(xù)語音的識別率。首先,對比了不同維數(shù)下的梅爾倒譜系數(shù)特征對識別率的影響;其次,選取了識別率較高的特征系數(shù)與基音和共振峰作為組合特征進(jìn)行識別來進(jìn)一步提高系統(tǒng)的識別率。另外,由于淺層的分類模型對于高維數(shù)據(jù)的處理能力不足,難以提取深層的特征信息,容易陷入局部最優(yōu)解等問題。因此,引入深度學(xué)習(xí)的方法來進(jìn)行分類識別,它使得深層神經(jīng)網(wǎng)絡(luò)的性...
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 說話人性別識別的研究現(xiàn)狀
1.3 深度學(xué)習(xí)對說話人識別研究的意義
1.4 研究問題及內(nèi)容
1.4.1 研究問題
1.4.2 研究內(nèi)容
1.5 論文結(jié)構(gòu)
第二章 說話人識別基礎(chǔ)理論及實驗分析
2.1 說話人識別模型
2.1.1 說話人識別原理
2.1.2 說話人識別分類
2.1.3 說話人性別識別
2.1.4 識別模型的種類
2.2 語音信號特征提取
2.2.1 語音信號預(yù)處理
2.2.2 基音的的提取
2.2.3 共振峰的提取
2.2.4 MFCC的提取
2.3 男女聲的區(qū)分依據(jù)
2.4 男女聲語音特征實驗分析
2.4.1 語音信號的預(yù)處理
2.4.2 基音的提取和比較
2.4.3 共振峰的提取和比較
2.4.4 MFCC系數(shù)的提取和比較
2.5 本章小結(jié)
第三章 深度學(xué)習(xí)基礎(chǔ)理論
3.1 深度學(xué)習(xí)背景
3.2 BP神經(jīng)網(wǎng)絡(luò)原理
3.2.1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
3.2.2 反向傳播算法
3.3 深度學(xué)習(xí)中的關(guān)鍵技術(shù)
3.3.1 梯度消失
3.3.2 過度擬合
3.3.3 計算負(fù)載
3.4 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
3.4.1 CNN的結(jié)構(gòu)
3.4.2 卷積層
3.4.3 池化層
3.5 本章小結(jié)
第四章 基于深度學(xué)習(xí)的說話人性別識別模型的建立
4.1 基于深度學(xué)習(xí)的說話人性別識別模型
4.1.1 深度學(xué)習(xí)模型的選取
4.1.2 激勵函數(shù)
4.1.3 Softmax分類器
4.2 網(wǎng)絡(luò)的訓(xùn)練
4.2.1 代價函數(shù)
4.2.2 學(xué)習(xí)規(guī)則
4.2.3 網(wǎng)絡(luò)的訓(xùn)練過程
4.3 網(wǎng)絡(luò)的性能判定
4.4 本章小結(jié)
第五章 基于深度學(xué)習(xí)的說話人性別識別模型的性能分析
5.1 實驗環(huán)境介紹
5.1.1 實驗的硬件環(huán)境
5.1.2 實驗的軟件環(huán)境
5.2 實驗語音庫建立
5.2.1 自建語音庫的建立
5.2.2 對照組語音庫的介紹
5.3 網(wǎng)絡(luò)參數(shù)的確定
5.3.1 特征數(shù)據(jù)的預(yù)處理
5.3.2 學(xué)習(xí)率的確定
5.3.3 網(wǎng)絡(luò)結(jié)構(gòu)的確定
5.3.4 迭代次數(shù)的確定
5.4 網(wǎng)絡(luò)的性能分析
5.4.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
5.4.2 不同語音特征的識別性能比較
5.4.3 不同分類模型的識別性能比較
5.4.4 不同語音庫的識別性能比較
5.5 實驗結(jié)果分析
5.6 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間學(xué)術(shù)成果
附錄B 實驗所用語音庫及提取的特征
附錄C 論文核心代碼
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的圖像描述研究[J]. 楊楠,南琳,張丁一,庫濤. 紅外與激光工程. 2018(02)
[2]基于深度循環(huán)網(wǎng)絡(luò)的聲紋識別方法研究及應(yīng)用[J]. 余玲飛,劉強(qiáng). 計算機(jī)應(yīng)用研究. 2019(01)
[3]基于深度學(xué)習(xí)的藏文分詞方法[J]. 李博涵,劉匯丹,龍從軍,吳健. 計算機(jī)工程與設(shè)計. 2018(01)
[4]基于CNN的連續(xù)語音說話人聲紋識別[J]. 吳震東,潘樹誠,章堅武. 電信科學(xué). 2017(03)
[5]基于VQ和HMM的雙層聲紋識別算法[J]. 趙峰,于洋. 桂林電子科技大學(xué)學(xué)報. 2017(01)
[6]面向聲紋識別的藏語特征提取研究[J]. 李亞瑩,周雁. 西藏科技. 2016(11)
[7]基于MFCC與共振峰的聲紋識別算法研究[J]. 王正創(chuàng). 電腦知識與技術(shù). 2016(04)
[8]聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 鄭方,李藍(lán)天,張慧,艾斯卡爾·肉孜. 信息安全研究. 2016(01)
[9]基于GMM模型的聲紋識別模式匹配研究[J]. 于嫻,賀松,彭亞雄,周晚. 通信技術(shù). 2015(01)
[10]基于VQ和GMM的實時聲紋識別研究[J]. 魯曉倩,關(guān)勝曉. 計算機(jī)系統(tǒng)應(yīng)用. 2014(09)
碩士論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在聲紋識別中的應(yīng)用研究[D]. 胡青.貴州大學(xué) 2016
[2]基于深度學(xué)習(xí)的語音識別研究[D]. 劉帆.河北工業(yè)大學(xué) 2015
[3]聲紋識別中的基音檢測算法研究[D]. 龐玄萌.遼寧大學(xué) 2013
[4]基于GMM的聲紋識別系統(tǒng)研究[D]. 向權(quán).哈爾濱理工大學(xué) 2012
[5]基于聲紋識別的身份認(rèn)證技術(shù)研究[D]. 彭詩雅.南京航空航天大學(xué) 2010
本文編號:3671082
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 說話人性別識別的研究現(xiàn)狀
1.3 深度學(xué)習(xí)對說話人識別研究的意義
1.4 研究問題及內(nèi)容
1.4.1 研究問題
1.4.2 研究內(nèi)容
1.5 論文結(jié)構(gòu)
第二章 說話人識別基礎(chǔ)理論及實驗分析
2.1 說話人識別模型
2.1.1 說話人識別原理
2.1.2 說話人識別分類
2.1.3 說話人性別識別
2.1.4 識別模型的種類
2.2 語音信號特征提取
2.2.1 語音信號預(yù)處理
2.2.2 基音的的提取
2.2.3 共振峰的提取
2.2.4 MFCC的提取
2.3 男女聲的區(qū)分依據(jù)
2.4 男女聲語音特征實驗分析
2.4.1 語音信號的預(yù)處理
2.4.2 基音的提取和比較
2.4.3 共振峰的提取和比較
2.4.4 MFCC系數(shù)的提取和比較
2.5 本章小結(jié)
第三章 深度學(xué)習(xí)基礎(chǔ)理論
3.1 深度學(xué)習(xí)背景
3.2 BP神經(jīng)網(wǎng)絡(luò)原理
3.2.1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
3.2.2 反向傳播算法
3.3 深度學(xué)習(xí)中的關(guān)鍵技術(shù)
3.3.1 梯度消失
3.3.2 過度擬合
3.3.3 計算負(fù)載
3.4 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
3.4.1 CNN的結(jié)構(gòu)
3.4.2 卷積層
3.4.3 池化層
3.5 本章小結(jié)
第四章 基于深度學(xué)習(xí)的說話人性別識別模型的建立
4.1 基于深度學(xué)習(xí)的說話人性別識別模型
4.1.1 深度學(xué)習(xí)模型的選取
4.1.2 激勵函數(shù)
4.1.3 Softmax分類器
4.2 網(wǎng)絡(luò)的訓(xùn)練
4.2.1 代價函數(shù)
4.2.2 學(xué)習(xí)規(guī)則
4.2.3 網(wǎng)絡(luò)的訓(xùn)練過程
4.3 網(wǎng)絡(luò)的性能判定
4.4 本章小結(jié)
第五章 基于深度學(xué)習(xí)的說話人性別識別模型的性能分析
5.1 實驗環(huán)境介紹
5.1.1 實驗的硬件環(huán)境
5.1.2 實驗的軟件環(huán)境
5.2 實驗語音庫建立
5.2.1 自建語音庫的建立
5.2.2 對照組語音庫的介紹
5.3 網(wǎng)絡(luò)參數(shù)的確定
5.3.1 特征數(shù)據(jù)的預(yù)處理
5.3.2 學(xué)習(xí)率的確定
5.3.3 網(wǎng)絡(luò)結(jié)構(gòu)的確定
5.3.4 迭代次數(shù)的確定
5.4 網(wǎng)絡(luò)的性能分析
5.4.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
5.4.2 不同語音特征的識別性能比較
5.4.3 不同分類模型的識別性能比較
5.4.4 不同語音庫的識別性能比較
5.5 實驗結(jié)果分析
5.6 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間學(xué)術(shù)成果
附錄B 實驗所用語音庫及提取的特征
附錄C 論文核心代碼
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的圖像描述研究[J]. 楊楠,南琳,張丁一,庫濤. 紅外與激光工程. 2018(02)
[2]基于深度循環(huán)網(wǎng)絡(luò)的聲紋識別方法研究及應(yīng)用[J]. 余玲飛,劉強(qiáng). 計算機(jī)應(yīng)用研究. 2019(01)
[3]基于深度學(xué)習(xí)的藏文分詞方法[J]. 李博涵,劉匯丹,龍從軍,吳健. 計算機(jī)工程與設(shè)計. 2018(01)
[4]基于CNN的連續(xù)語音說話人聲紋識別[J]. 吳震東,潘樹誠,章堅武. 電信科學(xué). 2017(03)
[5]基于VQ和HMM的雙層聲紋識別算法[J]. 趙峰,于洋. 桂林電子科技大學(xué)學(xué)報. 2017(01)
[6]面向聲紋識別的藏語特征提取研究[J]. 李亞瑩,周雁. 西藏科技. 2016(11)
[7]基于MFCC與共振峰的聲紋識別算法研究[J]. 王正創(chuàng). 電腦知識與技術(shù). 2016(04)
[8]聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 鄭方,李藍(lán)天,張慧,艾斯卡爾·肉孜. 信息安全研究. 2016(01)
[9]基于GMM模型的聲紋識別模式匹配研究[J]. 于嫻,賀松,彭亞雄,周晚. 通信技術(shù). 2015(01)
[10]基于VQ和GMM的實時聲紋識別研究[J]. 魯曉倩,關(guān)勝曉. 計算機(jī)系統(tǒng)應(yīng)用. 2014(09)
碩士論文
[1]卷積神經(jīng)網(wǎng)絡(luò)在聲紋識別中的應(yīng)用研究[D]. 胡青.貴州大學(xué) 2016
[2]基于深度學(xué)習(xí)的語音識別研究[D]. 劉帆.河北工業(yè)大學(xué) 2015
[3]聲紋識別中的基音檢測算法研究[D]. 龐玄萌.遼寧大學(xué) 2013
[4]基于GMM的聲紋識別系統(tǒng)研究[D]. 向權(quán).哈爾濱理工大學(xué) 2012
[5]基于聲紋識別的身份認(rèn)證技術(shù)研究[D]. 彭詩雅.南京航空航天大學(xué) 2010
本文編號:3671082
本文鏈接:http://sikaile.net/kejilunwen/wltx/3671082.html
最近更新
教材專著