基于語音處理的說話人身份識別研究
發(fā)布時間:2021-07-05 13:17
隨著科技的發(fā)展,基于生物特征的人臉、虹膜、瞳孔、指紋以及聲紋識別不斷發(fā)展并取得了重大進展。由于語音數(shù)據(jù)采集方便、簡單、成本低且難以模仿,基于說話人語音信號特征從而實現(xiàn)說話人身份識別的新技術(shù)不斷涌現(xiàn),使說話人識別技術(shù)的應(yīng)用越來越多,如公安司法查證、銀行交易系統(tǒng)、手機智能支付和聲控門等。最近新冠疫情席卷全球,人們紛紛響應(yīng)專家建議佩戴口罩以防止感染,但是卻讓以人臉識別來進行身份識別的系統(tǒng)陷入困境;此時說話人識別的優(yōu)勢則得以凸顯,因此開展基于語音處理的說話人識別研究具有重要理論價值和實用意義。基于傳統(tǒng)特征參數(shù)提取和模式匹配的說話人識別存在著太多人為因素,且在數(shù)據(jù)量增多時模型無法擬合說話人特性。論文開展了利用卷積神經(jīng)網(wǎng)絡(luò)算法對增強的語譜圖進行訓(xùn)練學習和識別的說話人識別方法研究,主要工作如下:(1)介紹了說話人識別的研究意義,概述了其發(fā)展現(xiàn)狀,闡述了常用的語音特征提取算法和傳統(tǒng)的說話人識別模型,討論了不同說話人識別模型的優(yōu)缺點。(2)分析討論了不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的說話人識別算法。介紹了人工神經(jīng)網(wǎng)絡(luò)的原理,討論了基于深度神經(jīng)網(wǎng)絡(luò)、延時神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的說話人識別,同時討論了不同激活函數(shù)和防...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
圖2.1兩種窗函數(shù)特性圖??圖2.1為兩種窗函數(shù)特性圖,由圖可知,漢明窗具有更平滑的低通特性,可防??止語音出現(xiàn)截斷,獲得較為平滑的能量函數(shù)
Neural?Network,??TDNN)以及卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional?Neural?Network,CNN)?[42][43][44]。??人工神經(jīng)網(wǎng)絡(luò)(Artificial?Neural?Network,?ANN)是一個通過模仿人腦處理數(shù)據(jù)??的功能來分析和處理數(shù)據(jù)的數(shù)學模型。ANN具有多層網(wǎng)絡(luò)結(jié)構(gòu)且多個神經(jīng)元與節(jié)??點相結(jié)合來處理信息。下圖為單個神經(jīng)元模型圖:??\??X2?\?\??私—分個-一;??\?—?/?/??+1?????圖3.1單個神經(jīng)元模型示意圖??17??
:??Hw,b{^)?=?f{wTx)?=?f{iwiXi+b^?(3.1)??由上式可知,在沒有激活函數(shù)時,每層神經(jīng)網(wǎng)絡(luò)的輸出可由其輸入數(shù)據(jù)線性組??合得到,不論網(wǎng)絡(luò)層數(shù)有幾層,輸出都可由輸入數(shù)據(jù)線性組合得到,但這種網(wǎng)絡(luò)結(jié)??構(gòu)擬合效果較差。在網(wǎng)絡(luò)中加入激活函數(shù),即向網(wǎng)絡(luò)中增加非線性元素,使網(wǎng)絡(luò)模??型變?yōu)橐粋非線性模型,這可以增加網(wǎng)絡(luò)學習能力和擬合能力。接下來將分析三種??常見的激活函數(shù):Sigmoid函數(shù),Tanh函數(shù)和ReLU函數(shù)。??1.?Sigmoid?函數(shù)??在生物學中Sigmoid函數(shù)是一種通用的S型函數(shù),在神經(jīng)網(wǎng)絡(luò)中被作為閾值函??數(shù)使用。其數(shù)學表達式和幾何圖形為:??
【參考文獻】:
期刊論文
[1]深度學習框架下說話人識別研究綜述[J]. 曾春艷,馬超峰,王志鋒,朱棟梁,趙楠,王娟,劉聰. 計算機工程與應(yīng)用. 2020(07)
[2]改進的Dropout正則化卷積神經(jīng)網(wǎng)絡(luò)[J]. 滿鳳環(huán),陳秀宏,何佳佳. 傳感器與微系統(tǒng). 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[4]基于DTW模型補償?shù)膫窝b語音說話人識別研究[J]. 李燕萍,陶定元,林樂. 計算機技術(shù)與發(fā)展. 2017(01)
[5]基于改進的卷積神經(jīng)網(wǎng)絡(luò)的中文情感分類[J]. 張綺琦,張樹群,雷兆宜. 計算機工程與應(yīng)用. 2017(22)
[6]基于CNN的錄音設(shè)備判別研究[J]. 高沖紅,叢韞,鄭義,侍孝一,童茜雯,徐欣鋮. 信息化研究. 2016(02)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)分類的說話人識別算法[J]. 胡青,劉本永. 信息網(wǎng)絡(luò)安全. 2016(04)
[8]聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 鄭方,李藍天,張慧,艾斯卡爾·肉孜. 信息安全研究. 2016(01)
[9]基于歸一化自相關(guān)的語音基頻特征提取[J]. 曹夢霞,鄭永果,鄭尚新. 信息技術(shù)與信息化. 2014(02)
[10]聲紋識別技術(shù)及其應(yīng)用前景分析[J]. 陳擁權(quán),張羽,胡翀豪,楚瑾. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2013(11)
碩士論文
[1]基于深度特征的說話人辨認技術(shù)研究[D]. 顧婷.南京郵電大學 2019
[2]面向說話人識別的深度學習方法研究[D]. 樊云云.南昌航空大學 2019
[3]基于神經(jīng)網(wǎng)絡(luò)的聲紋識別研究[D]. 邱子璇.電子科技大學 2019
[4]基于深度學習的說話人識別系統(tǒng)[D]. 張競丹.西安郵電大學 2018
[5]基于聚類算法的個性化新聞推薦技術(shù)研究與實現(xiàn)[D]. 楊如冰.北京郵電大學 2017
[6]基于GMM的說話人識別系統(tǒng)研究與實現(xiàn)[D]. 陳強.武漢理工大學 2010
本文編號:3266139
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
圖2.1兩種窗函數(shù)特性圖??圖2.1為兩種窗函數(shù)特性圖,由圖可知,漢明窗具有更平滑的低通特性,可防??止語音出現(xiàn)截斷,獲得較為平滑的能量函數(shù)
Neural?Network,??TDNN)以及卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional?Neural?Network,CNN)?[42][43][44]。??人工神經(jīng)網(wǎng)絡(luò)(Artificial?Neural?Network,?ANN)是一個通過模仿人腦處理數(shù)據(jù)??的功能來分析和處理數(shù)據(jù)的數(shù)學模型。ANN具有多層網(wǎng)絡(luò)結(jié)構(gòu)且多個神經(jīng)元與節(jié)??點相結(jié)合來處理信息。下圖為單個神經(jīng)元模型圖:??\??X2?\?\??私—分個-一;??\?—?/?/??+1?????圖3.1單個神經(jīng)元模型示意圖??17??
:??Hw,b{^)?=?f{wTx)?=?f{iwiXi+b^?(3.1)??由上式可知,在沒有激活函數(shù)時,每層神經(jīng)網(wǎng)絡(luò)的輸出可由其輸入數(shù)據(jù)線性組??合得到,不論網(wǎng)絡(luò)層數(shù)有幾層,輸出都可由輸入數(shù)據(jù)線性組合得到,但這種網(wǎng)絡(luò)結(jié)??構(gòu)擬合效果較差。在網(wǎng)絡(luò)中加入激活函數(shù),即向網(wǎng)絡(luò)中增加非線性元素,使網(wǎng)絡(luò)模??型變?yōu)橐粋非線性模型,這可以增加網(wǎng)絡(luò)學習能力和擬合能力。接下來將分析三種??常見的激活函數(shù):Sigmoid函數(shù),Tanh函數(shù)和ReLU函數(shù)。??1.?Sigmoid?函數(shù)??在生物學中Sigmoid函數(shù)是一種通用的S型函數(shù),在神經(jīng)網(wǎng)絡(luò)中被作為閾值函??數(shù)使用。其數(shù)學表達式和幾何圖形為:??
【參考文獻】:
期刊論文
[1]深度學習框架下說話人識別研究綜述[J]. 曾春艷,馬超峰,王志鋒,朱棟梁,趙楠,王娟,劉聰. 計算機工程與應(yīng)用. 2020(07)
[2]改進的Dropout正則化卷積神經(jīng)網(wǎng)絡(luò)[J]. 滿鳳環(huán),陳秀宏,何佳佳. 傳感器與微系統(tǒng). 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[4]基于DTW模型補償?shù)膫窝b語音說話人識別研究[J]. 李燕萍,陶定元,林樂. 計算機技術(shù)與發(fā)展. 2017(01)
[5]基于改進的卷積神經(jīng)網(wǎng)絡(luò)的中文情感分類[J]. 張綺琦,張樹群,雷兆宜. 計算機工程與應(yīng)用. 2017(22)
[6]基于CNN的錄音設(shè)備判別研究[J]. 高沖紅,叢韞,鄭義,侍孝一,童茜雯,徐欣鋮. 信息化研究. 2016(02)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)分類的說話人識別算法[J]. 胡青,劉本永. 信息網(wǎng)絡(luò)安全. 2016(04)
[8]聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 鄭方,李藍天,張慧,艾斯卡爾·肉孜. 信息安全研究. 2016(01)
[9]基于歸一化自相關(guān)的語音基頻特征提取[J]. 曹夢霞,鄭永果,鄭尚新. 信息技術(shù)與信息化. 2014(02)
[10]聲紋識別技術(shù)及其應(yīng)用前景分析[J]. 陳擁權(quán),張羽,胡翀豪,楚瑾. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2013(11)
碩士論文
[1]基于深度特征的說話人辨認技術(shù)研究[D]. 顧婷.南京郵電大學 2019
[2]面向說話人識別的深度學習方法研究[D]. 樊云云.南昌航空大學 2019
[3]基于神經(jīng)網(wǎng)絡(luò)的聲紋識別研究[D]. 邱子璇.電子科技大學 2019
[4]基于深度學習的說話人識別系統(tǒng)[D]. 張競丹.西安郵電大學 2018
[5]基于聚類算法的個性化新聞推薦技術(shù)研究與實現(xiàn)[D]. 楊如冰.北京郵電大學 2017
[6]基于GMM的說話人識別系統(tǒng)研究與實現(xiàn)[D]. 陳強.武漢理工大學 2010
本文編號:3266139
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3266139.html
最近更新
教材專著