基于深度神經網絡的語音識別模型研究
本文關鍵詞: 語音識別 深度學習 深度神經網絡 聯(lián)合優(yōu)化正交投影和估計 固定長度依次遺忘編碼 前饋序列記憶神經網絡 出處:《中國科學技術大學》2017年博士論文 論文類型:學位論文
【摘要】:語音作為最自然、最有效的交流途徑,一直是人機通信和交互領域最受關注的研究內容之一。自動語音識別的主要目的是讓計算機能夠"聽懂"人類的語音.將語音波形信號轉化成文本。它是實現(xiàn)智能的人機交互的關鍵技術之一。聲學模型和語言模型是語音識別系統(tǒng)的兩個核心模塊。傳統(tǒng)的語音識別系統(tǒng)普遍采用基于高斯混合模型和隱馬爾科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)的聲學模型以及n-gram語言模型。近年來,隨著深度學習的興起,基于深度神經網絡的聲學模型和語言模型相比于傳統(tǒng)的GMM-HMM和n-gram模型分別都獲得了顯著的性能提升。在此背景下,本論文從深度神經網絡的模型結構出發(fā),展開了較為系統(tǒng)和深入的研究,一方面對現(xiàn)有的模型進行優(yōu)化,另一方面結合語音及語言信號的特性探究新的網絡結構模型,從而提高基于深度神經網絡的語音識別系統(tǒng)的性能和訓練效率。首先,本文研究了基于前饋全連接深度神經網絡(Deep Neural Networks,DNN)的語音聲學建模。我們分別探索了基于sigmoid非線性激活函數(shù)的DNN(sigmoid-DNN)和基于整流線性單元(Rectified Linear Units,ReLU)的 DNN(RL-DNN)的大詞匯量連續(xù)語音識別。首先針對傳統(tǒng)的sigmoid-DNN,我們通過研究發(fā)現(xiàn)其隱層權重越往高層稀疏性越強的特性,提出了一種隱層節(jié)點遞減的DNN結構,命名為sDNN。實驗結果表明sDNN可以在保持性能基本不變的情況下將模型參數(shù)量減少到45%,從而獲得2倍的訓練加速。進一步地我們提出將dropout預訓練作為一種神經網絡的初始化方法,可以獲得相比于傳統(tǒng)的無監(jiān)督Pre-training更好的性能。然后我們針對RL-DNN的研究發(fā)現(xiàn),通過合理的參數(shù)配置,可以采用基于大批量的隨機梯度下降算法來訓練RL-DNN,從而能夠利用多個圖形處理單元(Graphic Processing Unit,GPU)進行并行化訓練,可以獲得超過10倍的訓練加速。進一步地我們提出了一種綁定標量規(guī)整的方法用于優(yōu)化RL-DNN的訓練,不僅使得訓練更加穩(wěn)定,而且能夠獲得顯著的性能提升。其次,本文提出一種固定長度依次遺忘編碼(Fixed-size Ordinally Forgetting Encoding,FOFE)方法用于語言模型建模。FOFE通過簡單的順序遺忘機制來對序列中的單詞位置進行建模,可以將任何可變長度的單詞序列唯一地編碼成固定大小的表達。本研究中,我們提出基于FOFE的前饋神經網絡語言模型(FOFE-FNNLM)。實驗結果表明,在不使用任何反饋連接的情況下,基于FOFE的FNNLM顯著的優(yōu)于標準的基于1-of-k編碼作為輸入的FNNLM,同時也優(yōu)于基于循環(huán)神經網絡(Recurrent Neural Networks,RNN)的語言模型。再次,本文提出了一種新穎的神經網絡結構,命名為前饋序列記憶神經網絡(Feedforward Sequential Memory Networks,FSMN)。FSMN 可以對時序信號中的長時相關性(long-term dependency)進行建模而不需要使用反饋連接。本研究所提出來的FSMN可以認為是在標準的前饋全連接神經網絡的隱藏層中配備了一些可學習的記憶模塊。這些記憶模塊使用抽頭延遲線結構將長時上下文信息編碼成固定大小的表達作為一種短時記憶機制。我們在語音識別聲學建模以及語言模型建模任務上驗證了所提出的FSMN模型。實驗結果表明,FSMN不僅可以取得相比于當前最流行的循環(huán)神經網絡更好的性能,而且訓練更加高效。在此基礎上,我們探索了 FSMN模型的改進,通過結合低秩矩陣分解的思路以及修改記憶模塊的編碼方式提出了一種結構簡化的FSMN,命名為cFSMN。同時通過在cFSMN的記憶模塊之間添加跳轉連接,避免深層網絡訓練過程梯度消失的問題,實現(xiàn)了非常深層的cFSMN的訓練。我們在Switchboard數(shù)據(jù)庫以及Fisher數(shù)據(jù)庫進行的聲學建模實驗驗證了所提出的模型的性能。Fisher數(shù)據(jù)庫的實驗結果表明基于深層的cFSMN的識別系統(tǒng)相比于主流的基于BLSTM的識別系統(tǒng)可以獲得13.8%的相對詞錯誤率下降。最后,本文提出一種用于高維數(shù)據(jù)建模的新模型,稱之為聯(lián)合優(yōu)化正交投影和估計(Hybrid Orthogonal Projection and Estimation,HOPE)模型。HOPE 將線性正交投影和混合模型融合為一個生成模型。HOpe模型本身可以從無標注的數(shù)據(jù)中通過無監(jiān)督最大似然估計方法進行無監(jiān)督學習,同時也可以采用帶標注的數(shù)據(jù)進行有監(jiān)督學習。更為有趣的是,我們的研究闡述了 HOPE模型和神經網絡之間的密切關系。HOPE可以作為一個新的工具用于探究深度學習的黑盒子,以及用于有監(jiān)督和無監(jiān)督深度神經網絡的訓練。我們在語音識別TIM1T數(shù)據(jù)庫以及圖像分類MNIST數(shù)據(jù)庫驗證了基于HOPE模型的無監(jiān)督、半監(jiān)督以及有監(jiān)督學習。實驗結果表明,基于HOPE框架訓練的神經網絡相比于現(xiàn)有的神經網絡在無監(jiān)督、半監(jiān)督以及有監(jiān)督學習任務上都獲得顯著的性能提升。
[Abstract]:In this paper , we propose a kind of neural network initialization method to train RL - DNN , which is based on Gaussian Mixture Model - Hidden Markov Model ( GMHMM ) , which can be used to train RL - DNN . In recent years , we propose a method to improve the performance and training efficiency of speech recognition system based on the advanced neural network . This paper presents a novel neural network structure named Feedforward Sequential Memory Networks ( FSMN ) . This paper proposes a new model for the modeling of high - dimensional data . The experimental results show that FSMN can be used as a new tool for studying deep - learning black boxes and training more efficiently . The experimental results show that FSMN can not only get better performance than the current most popular neural network , but also can be used for supervised learning .
【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:TN912.34;TP183
【相似文獻】
相關期刊論文 前10條
1 楊曉帥 ,付玫;神經網絡技術讓管理更輕松[J];軟件世界;2000年11期
2 云中客;新的神經網絡來自于仿生學[J];物理;2001年10期
3 唐春明,高協(xié)平;進化神經網絡的研究進展[J];系統(tǒng)工程與電子技術;2001年10期
4 李智;一種基于神經網絡的煤炭調運優(yōu)化方法[J];長沙鐵道學院學報;2003年02期
5 程科,王士同,楊靜宇;新型模糊形態(tài)神經網絡及其應用研究[J];計算機工程與應用;2004年21期
6 王凡,孟立凡;關于使用神經網絡推定操作者疲勞的研究[J];人類工效學;2004年03期
7 周麗暉;從統(tǒng)計角度看神經網絡[J];統(tǒng)計教育;2005年06期
8 趙奇 ,劉開第 ,龐彥軍;灰色補償神經網絡及其應用研究[J];微計算機信息;2005年14期
9 袁婷;;神經網絡在股票市場預測中的應用[J];軟件導刊;2006年05期
10 尚晉;楊有;;從神經網絡的過去談科學發(fā)展觀[J];重慶三峽學院學報;2006年03期
相關會議論文 前10條
1 徐春玉;;基于泛集的神經網絡的混沌性[A];1996中國控制與決策學術年會論文集[C];1996年
2 周樹德;王巖;孫增圻;孫富春;;量子神經網絡[A];2003年中國智能自動化會議論文集(上冊)[C];2003年
3 羅山;張琳;范文新;;基于神經網絡和簡單規(guī)劃的識別融合算法[A];2009系統(tǒng)仿真技術及其應用學術會議論文集[C];2009年
4 郭愛克;馬盡文;丁康;;序言(二)[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
5 鐘義信;;知識論:神經網絡的新機遇——紀念中國神經網絡10周年[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
6 許進;保錚;;神經網絡與圖論[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
7 金龍;朱詩武;趙成志;陳寧;;數(shù)值預報產品的神經網絡釋用預報應用[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
8 田金亭;;神經網絡在中學生創(chuàng)造力評估中的應用[A];第十二屆全國心理學學術大會論文摘要集[C];2009年
9 唐墨;王科俊;;自發(fā)展神經網絡的混沌特性研究[A];2009年中國智能自動化會議論文集(第七分冊)[南京理工大學學報(增刊)][C];2009年
10 張廣遠;萬強;曹海源;田方濤;;基于遺傳算法優(yōu)化神經網絡的故障診斷方法研究[A];第十二屆全國設備故障診斷學術會議論文集[C];2010年
相關重要報紙文章 前10條
1 美國明尼蘇達大學社會學博士 密西西比州立大學國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護好創(chuàng)新的“神經網絡硬件”[N];中國教師報;2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計算機世界;2001年
3 葛一鳴 路邊文;人工神經網絡將大顯身手[N];中國紡織報;2003年
4 中國科技大學計算機系 邢方亮;神經網絡挑戰(zhàn)人類大腦[N];計算機世界;2003年
5 記者 孫剛;“神經網絡”:打開復雜工藝“黑箱”[N];解放日報;2007年
6 本報記者 劉霞;美用DNA制造出首個人造神經網絡[N];科技日報;2011年
7 健康時報特約記者 張獻懷;干細胞移植:修復受損的神經網絡[N];健康時報;2006年
8 劉力;我半導體神經網絡技術及應用研究達國際先進水平[N];中國電子報;2001年
9 ;神經網絡和模糊邏輯[N];世界金屬導報;2002年
10 鄒麗梅 陳耀群;江蘇科大神經網絡應用研究通過鑒定[N];中國船舶報;2006年
相關博士學位論文 前10條
1 楊旭華;神經網絡及其在控制中的應用研究[D];浙江大學;2004年
2 李素芳;基于神經網絡的無線通信算法研究[D];山東大學;2015年
3 石艷超;憶阻神經網絡的混沌性及幾類時滯神經網絡的同步研究[D];電子科技大學;2014年
4 王新迎;基于隨機映射神經網絡的多元時間序列預測方法研究[D];大連理工大學;2015年
5 付愛民;極速學習機的訓練殘差、穩(wěn)定性及泛化能力研究[D];中國農業(yè)大學;2015年
6 李輝;基于粒計算的神經網絡及集成方法研究[D];中國礦業(yè)大學;2015年
7 王衛(wèi)蘋;復雜網絡幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學;2015年
8 張海軍;基于云計算的神經網絡并行實現(xiàn)及其學習方法研究[D];華南理工大學;2015年
9 李艷晴;風速時間序列預測算法研究[D];北京科技大學;2016年
10 陳輝;多維超精密定位系統(tǒng)建模與控制關鍵技術研究[D];東南大學;2015年
相關碩士學位論文 前10條
1 章穎;混合不確定性模塊化神經網絡與高校效益預測的研究[D];華南理工大學;2015年
2 賈文靜;基于改進型神經網絡的風力發(fā)電系統(tǒng)預測及控制研究[D];燕山大學;2015年
3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學;2015年
4 陳彥至;神經網絡降維算法研究與應用[D];華南理工大學;2015年
5 董哲康;基于憶阻器的組合電路及神經網絡研究[D];西南大學;2015年
6 武創(chuàng)舉;基于神經網絡的遙感圖像分類研究[D];昆明理工大學;2015年
7 李志杰;基于神經網絡的上證指數(shù)預測研究[D];華南理工大學;2015年
8 陳少吉;基于神經網絡血壓預測研究與系統(tǒng)實現(xiàn)[D];華南理工大學;2015年
9 張韜;幾類時滯神經網絡穩(wěn)定性分析[D];渤海大學;2015年
10 邵雪瑩;幾類時滯不確定神經網絡的穩(wěn)定性分析[D];渤海大學;2015年
,本文編號:1465412
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1465412.html