基于改進的深度神經(jīng)網(wǎng)絡(luò)的說話人辨認研究
本文關(guān)鍵詞: 說話人辨認 堆疊降噪自編碼 深度信念網(wǎng)絡(luò) 整流線性單元 出處:《電子器件》2017年05期 論文類型:期刊論文
【摘要】:說話人辨認技術(shù)在許多領(lǐng)域有著廣泛的應(yīng)用前景。首先研究了兩種基本的深度神經(jīng)網(wǎng)絡(luò)模型(深度信念網(wǎng)絡(luò)和降噪自編碼)在說話人辨認上的應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)通過逐層無監(jiān)督的預訓練和有監(jiān)督的反向微調(diào)避免了反向傳播容易陷入局部最小值的缺陷,通過實驗證明了當神經(jīng)元個數(shù)達到一定數(shù)量之后深度網(wǎng)絡(luò)模型是優(yōu)于普通BP網(wǎng)絡(luò)的,并且其性能隨著網(wǎng)絡(luò)規(guī)模的擴大而提升。考慮到大規(guī)模的深度網(wǎng)絡(luò)訓練時間較長的缺點,提出使用整流線性單元(Re LU)代替?zhèn)鹘y(tǒng)的sigmoid類函數(shù)對說話人識別的深度模型進行改進,實驗結(jié)果表明改進后的深度模型平均訓練時間減少了35%,平均誤識率降低了8.3%。
[Abstract]:Speaker identification technology has a wide application prospect in many fields. Firstly, two basic depth neural network models (depth belief network and noise reduction self-coding) are studied. The depth neural network avoids the defect that backpropagation is prone to fall into local minimum by layer by layer unsupervised pre-training and supervised reverse fine-tuning. The experiments show that the depth network model is superior to the common BP network when the number of neurons reaches a certain number, and its performance is improved with the expansion of the network size. This paper proposes an improved depth model for speaker recognition using rectifier linear unit re LU instead of the traditional sigmoid class function. The experimental results show that the average training time of the improved depth model is reduced by 35% and the average error rate is reduced by 8.3%.
【作者單位】: 南京工程學院電力工程學院;東南大學信息科學與工程學院;
【基金】:國家自然科學基金項目(61301219) 南京工程學院校級項目(YKJ201107) 2014年青藍工程項目
【分類號】:TN912.3;TP183
【相似文獻】
相關(guān)期刊論文 前10條
1 劉文舉,孫兵,鐘秋海;基于說話人分類技術(shù)的分級說話人識別研究[J];電子學報;2005年07期
2 丁輝;唐振民;錢博;李燕萍;;易擴展小樣本環(huán)境說話人辨認系統(tǒng)的研究[J];系統(tǒng)仿真學報;2008年10期
3 劉明輝;黃中偉;熊繼平;;用于說話人辨識的評分規(guī)整[J];計算機工程與應(yīng)用;2010年12期
4 陳雪芳;楊繼臣;;一種三層判決的說話人索引算法[J];計算機工程;2012年02期
5 楊繼臣;何俊;李艷雄;;一種基于性別的說話人索引算法[J];計算機工程與科學;2012年06期
6 何致遠,胡起秀,徐光yP;兩級決策的開集說話人辨認方法[J];清華大學學報(自然科學版);2003年04期
7 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說話人辨認[J];云南民族學院學報(自然科學版);2003年04期
8 呂聲,尹俊勛;同語種說話人轉(zhuǎn)換的實現(xiàn)[J];移動通信;2004年S3期
9 董明,劉加,劉潤生;快速口音自適應(yīng)的動態(tài)說話人選擇性訓練[J];清華大學學報(自然科學版);2005年07期
10 曹敏;王浩川;;說話人自動識別技術(shù)研究[J];中州大學學報;2007年02期
相關(guān)會議論文 前10條
1 司羅;胡起秀;金琴;;完全無監(jiān)督的雙人對話中的說話人分隔[A];第九屆全國信號處理學術(shù)年會(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學輝;李非墨;;基于主動感知的音視頻聯(lián)合說話人跟蹤方法[A];2010年通信理論與信號處理學術(shù)年會論文集[C];2010年
3 馬勇;鮑長春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說話人分割[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹武;徐波;;廣播電視中的目標說話人跟蹤技術(shù)[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說話人跟蹤系統(tǒng)[A];第八屆全國人機語音通訊學術(shù)會議論文集[C];2005年
6 羅海風;龍長才;;多話者環(huán)境下說話人辨識聽覺線索研究[A];中國聲學學會2009年青年學術(shù)會議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認快速算法[A];第十一屆全國人機語音通訊學術(shù)會議論文集(一)[C];2011年
8 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說話人模型和雙層結(jié)構(gòu)的說話人辨認[A];第十一屆全國人機語音通訊學術(shù)會議論文集(二)[C];2011年
9 何磊;方棣棠;吳文虎;;說話人聚類與模型自適應(yīng)結(jié)合的說話人自適應(yīng)方法[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年
10 張彬橋;;基于主分量分析的說話人特征提取[A];2006北京地區(qū)高校研究生學術(shù)交流會——通信與信息技術(shù)會議論文集(上)[C];2006年
相關(guān)博士學位論文 前10條
1 李威;多人會話語音中的說話人角色分析[D];華南理工大學;2015年
2 楊繼臣;說話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學;2010年
3 鄭建煒;基于核方法的說話人辨認模型研究[D];浙江工業(yè)大學;2010年
4 呂聲;說話人轉(zhuǎn)換方法的研究[D];華南理工大學;2004年
5 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學技術(shù)大學;2013年
6 玄成君;基于語音頻率特性抑制音素影響的說話人特征提取[D];天津大學;2014年
7 李燕萍;說話人辨認中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學;2009年
8 徐利敏;說話人辨認中的特征變換和魯棒性技術(shù)研究[D];南京理工大學;2008年
9 王堅;語音識別中的說話人自適應(yīng)研究[D];北京郵電大學;2007年
10 侯代文;非線性濾波及其在說話人跟蹤中的應(yīng)用研究[D];大連理工大學;2008年
相關(guān)碩士學位論文 前10條
1 楊浩;基于廣義音素的文本無關(guān)說話人認證的研究[D];北京郵電大學;2008年
2 蔣博;特定目標說話人的語音轉(zhuǎn)換系統(tǒng)設(shè)計[D];電子科技大學;2015年
3 陳雨鶯;基于EMD的說話人特征參數(shù)提取方法研究[D];湘潭大學;2015年
4 單燕燕;變音環(huán)境下魯棒性說話人辨認關(guān)鍵技術(shù)研究[D];南京郵電大學;2015年
5 肖澤蘋;無線電對講語音的說話人分割聚類研究[D];北京理工大學;2016年
6 李銳;基于因子分析的說話人分離技術(shù)研究[D];中國科學技術(shù)大學;2016年
7 張亞明;說話人性別識別和年齡估計的系統(tǒng)研制[D];華南理工大學;2016年
8 倪冬琴;基于特征子空間量化的文本無關(guān)說話人年齡識別[D];蘇州大學;2016年
9 李灣灣;說話人聲紋識別的算法研究[D];浙江大學;2017年
10 唐郅;語音驅(qū)動虛擬說話人研究[D];西南交通大學;2017年
,本文編號:1520364
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1520364.html