基于回歸神經(jīng)網(wǎng)絡(luò)的語音識別抗噪研究
本文關(guān)鍵詞:基于回歸神經(jīng)網(wǎng)絡(luò)的語音識別抗噪研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著移動互聯(lián)網(wǎng)時代的快速發(fā)展,語音識別應(yīng)用變得越來越普及,語音交互由于其便捷性也逐漸被大眾所接受。但是語音識別過程中環(huán)境噪聲以及不同設(shè)備的信道多樣性制約著自動語音識別系統(tǒng)的大規(guī)模應(yīng)用。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)被成功應(yīng)用到自動語音識別系統(tǒng)中,基于大數(shù)據(jù)訓(xùn)練,DNN相對于傳統(tǒng)方法有著更好的魯棒性,但是DNN在噪聲環(huán)境下仍面臨著識別率差的問題。而且,由于深度神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn),許多傳統(tǒng)的抗噪方法很難被直接使用。為此,本文主要做了如下工作:(一)本文在800小時的大規(guī)模訓(xùn)練數(shù)據(jù)下探索不同回歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的建模能力,包括輸入輸出結(jié)構(gòu),DNN-Autoencoder結(jié)構(gòu),激活函數(shù)選擇等,通過實(shí)驗(yàn)對比得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該方法通過DNN強(qiáng)大的非線性建模能力學(xué)習(xí)噪聲語音特征與干凈語音特征的映射關(guān)系,然后將處理后的帶躁語音輸入至語音識別系統(tǒng)中進(jìn)行語音識別從而提高語音識別率。本文的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)將噪聲語音的詞錯誤率從23.8%降低到18.2%,性能相對提升23.5%。(二)本文首次將混合密度網(wǎng)絡(luò)(Mixture Density Network, MDN)應(yīng)用到抗噪語音識別;旌厦芏染W(wǎng)絡(luò)將目標(biāo)特征擬合為混合高斯分布,通過最大似然函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)表明,MDN能夠帶來相對DNN有5.0%的詞錯誤率下降,相對DNN有更強(qiáng)的擬合能力。(三)本文將回歸神經(jīng)網(wǎng)絡(luò)應(yīng)用到了遠(yuǎn)場語音識別以及頻譜擴(kuò)寬中。遠(yuǎn)場語音主要為卷積噪聲,本文實(shí)驗(yàn)表明回歸神經(jīng)網(wǎng)絡(luò)對遠(yuǎn)程語音建模能夠帶來識別性能相對55.5%詞錯誤率下降。同時若將回歸神經(jīng)網(wǎng)絡(luò)與后端聲學(xué)模型進(jìn)行匹配性訓(xùn)練則又能夠帶來相對4.9%的性能提升。同時本文將回歸神經(jīng)網(wǎng)絡(luò)應(yīng)用在頻譜擴(kuò)寬領(lǐng)域中,將8千赫茲語音特征通過回歸神經(jīng)網(wǎng)絡(luò)映射成16千赫茲語音特征,并對偽16千赫茲特征輸入到16千赫茲語音識別系統(tǒng)中進(jìn)行語音識別,實(shí)驗(yàn)表明,該方法可使得8k識別率性能降低在5%以下的可容忍范圍內(nèi),而訓(xùn)練資源可減少一半。
【關(guān)鍵詞】:回歸神經(jīng)網(wǎng)絡(luò) 語音識別抗噪 混合神經(jīng)網(wǎng)絡(luò) 大規(guī)模連續(xù)語音識別 頻譜擴(kuò)寬
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34;TP183
【目錄】:
- 摘要5-6
- ABSTRACT6-12
- 第一章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 研究現(xiàn)狀13-15
- 1.3 本文的主要工作與創(chuàng)新點(diǎn)15-16
- 1.4 本文的組織結(jié)構(gòu)16-18
- 第二章 語音識別系統(tǒng)綜述18-36
- 2.1 語音識別概述18-22
- 2.1.1 語音特征19-20
- 2.1.2 聲學(xué)模型20-21
- 2.1.3 詞典與語言模型21-22
- 2.1.4 解碼器22
- 2.2 基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型22-29
- 2.2.1 深度神經(jīng)網(wǎng)絡(luò)23-26
- 2.2.2 CD-DNN-HMM聲學(xué)模型26-29
- 2.3 魯棒語音識別29-34
- 2.3.1 特征空間30-32
- 2.3.2 模型空間32-34
- 2.4 本章小結(jié)34-36
- 第三章 基于回歸神經(jīng)網(wǎng)絡(luò)的語音識別抗噪前端36-46
- 3.1 回歸神經(jīng)網(wǎng)絡(luò)及目標(biāo)函數(shù)36-38
- 3.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇38-44
- 3.2.1 實(shí)驗(yàn)及結(jié)果41-44
- 3.3 本章小結(jié)44-46
- 第四章 基于混合密度神經(jīng)網(wǎng)絡(luò)的語音抗噪前端46-54
- 4.1 混合密度神經(jīng)網(wǎng)絡(luò)46-50
- 4.1.1 目標(biāo)函數(shù)分析49-50
- 4.2 實(shí)驗(yàn)及結(jié)果50-53
- 4.2.1 實(shí)驗(yàn)結(jié)果50-53
- 4.3 本章小結(jié)53-54
- 第五章 回歸神經(jīng)網(wǎng)絡(luò)在語音識別領(lǐng)域其他應(yīng)用54-62
- 5.1 遠(yuǎn)場語音識別前端54-57
- 5.1.1 實(shí)驗(yàn)及結(jié)果55-57
- 5.2 基于頻譜擴(kuò)展的語音識別57-59
- 5.2.1 實(shí)驗(yàn)及結(jié)果58
- 5.2.2 實(shí)驗(yàn)結(jié)果58-59
- 5.3 本章小結(jié)59-62
- 第六章 總結(jié)與展望62-64
- 6.1 總結(jié)62-63
- 6.2 展望63-64
- 參考文獻(xiàn)64-68
- 致謝68
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭遠(yuǎn)瓊;提高語音識別率點(diǎn)滴[J];電腦技術(shù);2000年03期
2 邢文;語音識別[J];個人電腦;2000年02期
3 ;語音識別的真相[J];個人電腦;2001年12期
4 ;語音識別漸入佳境[J];個人電腦;2002年03期
5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期
6 ;語音識別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語音識別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報學(xué)刊;2004年03期
8 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期
9 陳孝強(qiáng);語音識別擬起新潮[J];微電腦世界;2005年07期
10 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語音識別方法[J];計(jì)算機(jī)科學(xué);2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應(yīng)用[A];第十屆全國信號處理學(xué)術(shù)年會(CCSP-2001)論文集[C];2001年
2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學(xué)術(shù)年會論文集[C];2009年
3 李楨;高萬林;歐文浩;徐山川;;基于關(guān)鍵詞語音識別的農(nóng)業(yè)信息語音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機(jī)工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年
4 張冰;龍長才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語音識別[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉(zhuǎn)換[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應(yīng)方法研究[A];第四屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1996年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年
2 閆婷;語音識別 理想與現(xiàn)實(shí)的距離[N];計(jì)算機(jī)世界;2007年
3 劉喜喜;語音識別將把鼠標(biāo)鍵盤打入冷宮?[N];中國計(jì)算機(jī)報;2008年
4 樂天;語音識別:讓你的手機(jī)更聰明[N];計(jì)算機(jī)世界;2011年
5 特約作者 王佳彬;語音識別漸入佳境[N];電腦報;2002年
6 雨夏;語音識別重在應(yīng)用[N];計(jì)算機(jī)世界;2001年
7 ;語音識別企業(yè)應(yīng)用前景光明[N];計(jì)算機(jī)世界;2003年
8 王向東 欒煥博 林守勛 錢躍良;語音識別:抗噪音能力有待加強(qiáng)[N];計(jì)算機(jī)世界;2006年
9 上海 高博;讓電腦“聽懂”人話[N];電腦報;2008年
10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學(xué)院;2015年
2 包希日莫;面向蒙古語的語音識別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年
3 吳斌;語音識別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年
4 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年
5 孫f,
本文編號:297792
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/297792.html