基于深度學(xué)習(xí)的中文唇語識(shí)別與關(guān)鍵詞檢測(cè)
發(fā)布時(shí)間:2021-04-02 16:01
唇語識(shí)別是一項(xiàng)集計(jì)算機(jī)視覺與自然語言處理于一體的技術(shù),通過視覺信息識(shí)別講話人所說的內(nèi)容。傳統(tǒng)的唇語識(shí)別方法需要人為設(shè)計(jì)特征,分類器訓(xùn)練難度大,研究進(jìn)展緩慢。近年來,深度學(xué)習(xí)在諸多領(lǐng)域取得重大進(jìn)展,使用深度學(xué)習(xí)方法研究唇語識(shí)別問題也逐漸成為研究熱點(diǎn)。漢字?jǐn)?shù)量多,比其它由字母組成的語言復(fù)雜,使得中文唇語識(shí)別任務(wù)更加困難,F(xiàn)實(shí)中,由于某些場(chǎng)景只需要識(shí)別關(guān)鍵詞語,因此關(guān)鍵詞檢測(cè)識(shí)別在實(shí)際應(yīng)用中非常重要。本論文的研究?jī)?nèi)容主要包括以下兩個(gè)部分:(1)中文句子級(jí)唇語識(shí)別方法研究。分兩個(gè)階段對(duì)中文句子級(jí)唇語識(shí)別進(jìn)行研究。第一階段將唇部圖片序列識(shí)別為拼音序列,該階段使用融合的三維卷積和二維DenseNet來提取視覺信息,并用resBi-LSTM(residual bidirectional Long Short-Term Memory)解碼視覺特征。該方法在中文數(shù)據(jù)集NSTDB上有效降低了拼音錯(cuò)誤率,并在英文數(shù)據(jù)集GRID上降低了單詞錯(cuò)誤率。第二階段將拼音序列識(shí)別為漢字序列,使用堆疊的多頭注意力(Multi-head attention)學(xué)習(xí)拼音序列中的上下文信息,并建立與漢字序列之間的映射關(guān)系。由于預(yù)...
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
左圖為全局連接,右圖為局部連接
華僑大學(xué)碩士學(xué)位論文14兩個(gè)對(duì)應(yīng)的偏置項(xiàng)0、1,例如,輸出矩陣中第一個(gè)結(jié)果5,就是由卷積核與窗口矩陣的對(duì)應(yīng)位分別相乘后相加得到4,然后加上偏置項(xiàng)0=1,最后得到5。圖2.2三維卷積計(jì)算示意圖(2)池化層卷積神經(jīng)網(wǎng)絡(luò)通常會(huì)包含池化層,通常緊跟在卷積層之后使用,負(fù)責(zé)特征選擇。池化是一種非線性變換,池化函數(shù)使用某位置相鄰輸出的總體統(tǒng)計(jì)特征作為網(wǎng)絡(luò)在該位置的輸出。池化層主要是為了壓縮數(shù)據(jù)和參數(shù)量,因此,池化層也是為了選擇較為重要的特征點(diǎn),這可以降低維度,能夠在一定程度上防止過擬合的發(fā)生。常見的數(shù)據(jù)壓縮的池化方法有最大池化和平均池化。最大池化選擇每個(gè)窗
華僑大學(xué)碩士學(xué)位論文16到下一時(shí)刻狀態(tài)轉(zhuǎn)移的權(quán)重矩陣,是隱含層到輸出層的權(quán)重矩陣。從圖中可以看到,不僅相鄰的層之間(例如輸入層到隱藏層)存在連接,在時(shí)間維度上的隱藏層之間(1到,反饋鏈接)也存在連接。在時(shí)刻,隱狀態(tài)不僅和當(dāng)前時(shí)刻的輸入有關(guān),還和上一個(gè)時(shí)刻的隱狀態(tài)1有關(guān),從而就和過去的全部輸入序列(1,2,,)有關(guān)。隱狀態(tài)的計(jì)算過程如公式2.2所示,b表示偏置項(xiàng),()表示非線性激活函數(shù),通常選用Sigmoid函數(shù)、ReLU函數(shù)或Tanh函數(shù)。=(1++)(2.2)圖2.3循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖時(shí)刻的輸出值如公式2.3所示,其中()表示激活函數(shù),可使用Softmax函數(shù)。=()(2.3)上述的循環(huán)神經(jīng)網(wǎng)絡(luò)模型建立在當(dāng)前時(shí)間步取決于前面較早時(shí)間步的序列的基礎(chǔ)上,因此,RNN中的信息都是通過隱藏狀態(tài)從前向后傳遞。但是,在一些任務(wù)中,當(dāng)前時(shí)間步的輸出不僅僅和前面較早時(shí)間步的信息有關(guān),還與后續(xù)時(shí)間步的信息相關(guān)。比如給定一個(gè)句子,句子中每個(gè)詞的詞性都和上下文有關(guān)。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetwork,Bi-RNN)由此而生,通過增加從后往前傳遞信息的隱藏層來更靈活地處理這類信息。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-RNN的結(jié)構(gòu)圖如圖2.4所示,由兩層循環(huán)神經(jīng)網(wǎng)絡(luò)組成,這兩層網(wǎng)絡(luò)都輸入序列,信息傳遞方向相反。假設(shè)隱含層的第1層按照時(shí)間順序傳遞信息,第2層按照時(shí)間逆序傳遞信息,這兩層在時(shí)刻的隱狀態(tài)分別為(1)和(2),則隱含層的隱狀態(tài)是這兩個(gè)隱狀態(tài)的拼接,可以表示為:
【參考文獻(xiàn)】:
期刊論文
[1]用于可靠身份認(rèn)證的唇語識(shí)別[J]. 楊龍生,賈振堂. 電視技術(shù). 2018(10)
[2]在DCT域進(jìn)行LDA的唇讀特征提取方法[J]. 何俊,張華,劉繼忠. 計(jì)算機(jī)工程與應(yīng)用. 2009(32)
[3]基于多色彩空間的自適應(yīng)嘴唇區(qū)域定位算法[J]. 奉小慧,王偉凝,吳緒鎮(zhèn),潘爵雨. 計(jì)算機(jī)應(yīng)用. 2009(07)
[4]視覺驅(qū)動(dòng)的語音合成系統(tǒng)中唇形輪廓的正交變換描述[J]. 李剛,王蒙軍,林凌,曾銳利. 光學(xué)精密工程. 2007(07)
[5]基于SVD的唇動(dòng)視覺語音特征提取技術(shù)[J]. 張建明,陶宏,王良民,詹永照,宋順林. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版). 2004(05)
[6]基于色度分析的唇動(dòng)特征提取與識(shí)別[J]. 姚鴻勛,呂雅娟,高文. 電子學(xué)報(bào). 2002(02)
[7]用于口型識(shí)別的實(shí)時(shí)唇定位方法[J]. 姚鴻勛,高文,李靜梅,呂雅娟,王瑞. 軟件學(xué)報(bào). 2000(08)
[8]基于彩色圖像的色系坐標(biāo)變換的面部定位與跟蹤法[J]. 姚鴻勛,劉明寶,高文,范旭彤,張洪明,呂雅娟. 計(jì)算機(jī)學(xué)報(bào). 2000(02)
[9]漢語聽覺視覺雙模態(tài)數(shù)據(jù)庫CAVSR1.0[J]. 徐彥君,杜利民,李國(guó)強(qiáng),張欣,周治. 聲學(xué)學(xué)報(bào). 2000(01)
博士論文
[1]唇讀識(shí)別中若干問題的研究[D]. 張澤梁.吉林大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的中文唇語識(shí)別研究[D]. 蔡微微.華僑大學(xué) 2019
[2]基于隱馬爾可夫模型的唇語識(shí)別方法研究[D]. 蔡瀛.北方工業(yè)大學(xué) 2018
[3]基于深度學(xué)習(xí)的唇語識(shí)別應(yīng)用的研究與實(shí)現(xiàn)[D]. 楊帆.電子科技大學(xué) 2018
[4]基于Kinect三維視覺的實(shí)時(shí)唇讀技術(shù)研究[D]. 岳帥.天津大學(xué) 2017
[5]唇讀系統(tǒng)關(guān)鍵技術(shù)的研究[D]. 焦曉暉.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3115543
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
左圖為全局連接,右圖為局部連接
華僑大學(xué)碩士學(xué)位論文14兩個(gè)對(duì)應(yīng)的偏置項(xiàng)0、1,例如,輸出矩陣中第一個(gè)結(jié)果5,就是由卷積核與窗口矩陣的對(duì)應(yīng)位分別相乘后相加得到4,然后加上偏置項(xiàng)0=1,最后得到5。圖2.2三維卷積計(jì)算示意圖(2)池化層卷積神經(jīng)網(wǎng)絡(luò)通常會(huì)包含池化層,通常緊跟在卷積層之后使用,負(fù)責(zé)特征選擇。池化是一種非線性變換,池化函數(shù)使用某位置相鄰輸出的總體統(tǒng)計(jì)特征作為網(wǎng)絡(luò)在該位置的輸出。池化層主要是為了壓縮數(shù)據(jù)和參數(shù)量,因此,池化層也是為了選擇較為重要的特征點(diǎn),這可以降低維度,能夠在一定程度上防止過擬合的發(fā)生。常見的數(shù)據(jù)壓縮的池化方法有最大池化和平均池化。最大池化選擇每個(gè)窗
華僑大學(xué)碩士學(xué)位論文16到下一時(shí)刻狀態(tài)轉(zhuǎn)移的權(quán)重矩陣,是隱含層到輸出層的權(quán)重矩陣。從圖中可以看到,不僅相鄰的層之間(例如輸入層到隱藏層)存在連接,在時(shí)間維度上的隱藏層之間(1到,反饋鏈接)也存在連接。在時(shí)刻,隱狀態(tài)不僅和當(dāng)前時(shí)刻的輸入有關(guān),還和上一個(gè)時(shí)刻的隱狀態(tài)1有關(guān),從而就和過去的全部輸入序列(1,2,,)有關(guān)。隱狀態(tài)的計(jì)算過程如公式2.2所示,b表示偏置項(xiàng),()表示非線性激活函數(shù),通常選用Sigmoid函數(shù)、ReLU函數(shù)或Tanh函數(shù)。=(1++)(2.2)圖2.3循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖時(shí)刻的輸出值如公式2.3所示,其中()表示激活函數(shù),可使用Softmax函數(shù)。=()(2.3)上述的循環(huán)神經(jīng)網(wǎng)絡(luò)模型建立在當(dāng)前時(shí)間步取決于前面較早時(shí)間步的序列的基礎(chǔ)上,因此,RNN中的信息都是通過隱藏狀態(tài)從前向后傳遞。但是,在一些任務(wù)中,當(dāng)前時(shí)間步的輸出不僅僅和前面較早時(shí)間步的信息有關(guān),還與后續(xù)時(shí)間步的信息相關(guān)。比如給定一個(gè)句子,句子中每個(gè)詞的詞性都和上下文有關(guān)。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetwork,Bi-RNN)由此而生,通過增加從后往前傳遞信息的隱藏層來更靈活地處理這類信息。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-RNN的結(jié)構(gòu)圖如圖2.4所示,由兩層循環(huán)神經(jīng)網(wǎng)絡(luò)組成,這兩層網(wǎng)絡(luò)都輸入序列,信息傳遞方向相反。假設(shè)隱含層的第1層按照時(shí)間順序傳遞信息,第2層按照時(shí)間逆序傳遞信息,這兩層在時(shí)刻的隱狀態(tài)分別為(1)和(2),則隱含層的隱狀態(tài)是這兩個(gè)隱狀態(tài)的拼接,可以表示為:
【參考文獻(xiàn)】:
期刊論文
[1]用于可靠身份認(rèn)證的唇語識(shí)別[J]. 楊龍生,賈振堂. 電視技術(shù). 2018(10)
[2]在DCT域進(jìn)行LDA的唇讀特征提取方法[J]. 何俊,張華,劉繼忠. 計(jì)算機(jī)工程與應(yīng)用. 2009(32)
[3]基于多色彩空間的自適應(yīng)嘴唇區(qū)域定位算法[J]. 奉小慧,王偉凝,吳緒鎮(zhèn),潘爵雨. 計(jì)算機(jī)應(yīng)用. 2009(07)
[4]視覺驅(qū)動(dòng)的語音合成系統(tǒng)中唇形輪廓的正交變換描述[J]. 李剛,王蒙軍,林凌,曾銳利. 光學(xué)精密工程. 2007(07)
[5]基于SVD的唇動(dòng)視覺語音特征提取技術(shù)[J]. 張建明,陶宏,王良民,詹永照,宋順林. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版). 2004(05)
[6]基于色度分析的唇動(dòng)特征提取與識(shí)別[J]. 姚鴻勛,呂雅娟,高文. 電子學(xué)報(bào). 2002(02)
[7]用于口型識(shí)別的實(shí)時(shí)唇定位方法[J]. 姚鴻勛,高文,李靜梅,呂雅娟,王瑞. 軟件學(xué)報(bào). 2000(08)
[8]基于彩色圖像的色系坐標(biāo)變換的面部定位與跟蹤法[J]. 姚鴻勛,劉明寶,高文,范旭彤,張洪明,呂雅娟. 計(jì)算機(jī)學(xué)報(bào). 2000(02)
[9]漢語聽覺視覺雙模態(tài)數(shù)據(jù)庫CAVSR1.0[J]. 徐彥君,杜利民,李國(guó)強(qiáng),張欣,周治. 聲學(xué)學(xué)報(bào). 2000(01)
博士論文
[1]唇讀識(shí)別中若干問題的研究[D]. 張澤梁.吉林大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的中文唇語識(shí)別研究[D]. 蔡微微.華僑大學(xué) 2019
[2]基于隱馬爾可夫模型的唇語識(shí)別方法研究[D]. 蔡瀛.北方工業(yè)大學(xué) 2018
[3]基于深度學(xué)習(xí)的唇語識(shí)別應(yīng)用的研究與實(shí)現(xiàn)[D]. 楊帆.電子科技大學(xué) 2018
[4]基于Kinect三維視覺的實(shí)時(shí)唇讀技術(shù)研究[D]. 岳帥.天津大學(xué) 2017
[5]唇讀系統(tǒng)關(guān)鍵技術(shù)的研究[D]. 焦曉暉.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3115543
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3115543.html
最近更新
教材專著