基于結構化深度學習的語音識別自適應技術研究
【圖文】:
圖 1 1 語音識別詞錯誤率變遷圖 (截止 2009 年)Fig 1 1 History of WER on several tasks (until 2009)音識別架構今為止最為成功的基于統(tǒng)計的語音識別的框架中,語音識別過程可以公式:w argmaxww O 所有可能的候選假設 中尋找擁有最大后驗概率 w O 的詞序列n是詞序列,O o1oT是特征向量序列。w argmaxww OargmaxwO w wO
圖 1 2 語音識別框架Fig 1 2 Framework of an automatic speech recognition system圖 1 2是對當前流行的語音識別系統(tǒng)的框架的描述,它主要由四個部分組成,包括前端信號處理、聲學模型、語言模型和解碼器。前端信號處理:原始模擬信號首先經(jīng)錄入器件轉化為數(shù)字信號。前端信號處理部分負責從數(shù)字化后的語音中提取魯棒的聲學特征信息,主要包括多麥克風陣列降噪和提取符合人耳聽覺感知的聲學特征等。詳細內容將在章節(jié) 2.1.1中介紹。聲學模型(AcousticModel,AM):聲學模型是語音識別系統(tǒng)中最核心的模型之一。聲學模型的好壞直接決定了語音識別系統(tǒng)的性能,也是本論文的研究重點之一。聲學模型建模的是給定的詞序列生成出所觀測到的特征向量序列的條件概率 O w目前主流的語音識別系統(tǒng)通常使用隱馬爾可夫模型(Hidden Markov Model, HMM來做為聲學模型。在 HMM 中,存在一個概率分布被稱為狀態(tài)輸出概率,這個概率可以通過使用混合高斯模型來建模,也可以通過深度神經(jīng)網(wǎng)絡來建模。使用前
【學位授予單位】:上海交通大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TN912.34;TP18
【相似文獻】
相關期刊論文 前10條
1 張晗;;淺談語音識別[J];內蒙古科技與經(jīng)濟;2019年18期
2 周弘燁;;語音識別大揭秘:計算機如何處理聲音?[J];中國新通信;2019年04期
3 程建軍;胡立志;;關于深度學習的語音識別應用研究[J];科技經(jīng)濟導刊;2019年12期
4 桑亞超;李龍杰;袁傳青;霍慶磊;張樂;;關于語音識別在空調上的應用與改善[J];日用電器;2019年07期
5 牛洪波;王婉君;劉華楠;;語音識別專利技術綜述[J];河南科技;2019年24期
6 向暉;;數(shù)字語音識別與合成[J];電子世界;2019年15期
7 姜姝姝;;語音識別64年大突破[J];機器人產業(yè);2016年06期
8 吳俊宇;;語音識別為何“叫好不叫座”?[J];通信世界;2016年16期
9 徐鑫;;語音識別的未來之路[J];通信世界;2016年16期
10 張連仲;;帶著使命感出發(fā)[J];英語學習;2017年01期
相關會議論文 前10條
1 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術會議論文集[C];2010年
2 于東;賈磊;徐波;;面向語音識別錯誤恢復的澄清式疑問句生成[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 邢安昊;黎塔;顏永紅;;利用二重打分方法的激活詞語音識別[A];中國聲學學會第十屆青年學術會議論文集[C];2013年
4 文成義;何海燕;張玉扶;;基于新型神經(jīng)網(wǎng)絡的不定人語音識別[A];第二屆全國人機語音通訊學術會議(NCMMSC1992)論文集[C];1992年
5 杜笑平;楊啟綱;楊家沅;;過零周期轉移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術會議(NCMMSC1992)論文集[C];1992年
6 潘勝昔;劉加;江金濤;王作英;陸大金;;基于多模式及集成判決的穩(wěn)健電話語音識別算法研究[A];第五屆全國人機語音通訊學術會議(NCMMSC1998)論文集[C];1998年
7 杜利民;;語音識別中的魯棒性問題[A];第六屆全國人機語音通訊學術會議論文集[C];2001年
8 宋君;葛余博;;應用于魯棒語音識別的置信度加權特征丟失法[A];第七屆全國人機語音通訊學術會議(NCMMSC7)論文集[C];2003年
9 張明新;倪宏;陳國平;張東濱;;一種用于并行模型噪聲魯棒語音識別的特征構造方法[A];第八屆全國人機語音通訊學術會議論文集[C];2005年
10 熊軍軍;馬瑞堂;李成榮;;兒童語音識別的研究現(xiàn)狀[A];第九屆全國人機語音通訊學術會議論文集[C];2007年
相關重要報紙文章 前10條
1 特約撰稿人 Lamont Wood 編譯 Charles;語音識別成長起來,并走向移動應用[N];計算機世界;2018年
2 本報記者 陶力;阿里全資收購先聲互聯(lián) 推動語音識別場景落地[N];21世紀經(jīng)濟報道;2018年
3 洪蕾;阿里研發(fā)高工業(yè)噪聲環(huán)境下語音識別及傳輸技術[N];中國信息化周報;2018年
4 本報記者 郭科;登月早已實現(xiàn),同期啟動的語音識別還在路上[N];科技日報;2018年
5 本報記者 王星平;語音識別商用尷尬 應用場景垂直化路有多遠[N];中國企業(yè)報;2016年
6 本報記者 余建華;從“綠皮車時代”邁入“高鐵時代”[N];人民法院報;2017年
7 陳宗周;機器在聆聽[N];電腦報;2017年
8 本報記者 黃旭 熊雯琳;云知聲:與巨頭共舞,成為AI領域BAT的密碼[N];電腦報;2017年
9 本報記者 錢一彬;手機“黑科技”為何叫好不叫座[N];人民日報;2017年
10 《機器人產業(yè)》雜志副總編輯 姜姝姝;語音識別距人類只差0.4%?[N];北京日報;2017年
相關博士學位論文 前10條
1 譚天;基于結構化深度學習的語音識別自適應技術研究[D];上海交通大學;2018年
2 屠彥輝;復雜場景下基于深度學習的魯棒性語音識別的研究[D];中國科學技術大學;2019年
3 賀蘇寧;基于語音識別基元聲學整體結構特征的識別模型研究[D];電子科技大學;2005年
4 陳立偉;基于HMM和ANN的漢語語音識別[D];哈爾濱工程大學;2005年
5 徐金甫;基于特征提取的抗噪聲語音識別研究[D];華南理工大學;2000年
6 寧更新;抗噪聲語音識別新技術的研究[D];華南理工大學;2006年
7 沈海峰;語音識別中的環(huán)境補償研究[D];北京郵電大學;2006年
8 李小兵;高效簡約的語音識別聲學模型[D];中國科學技術大學;2006年
9 孫f,
本文編號:2680341
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2680341.html