基于深度學(xué)習(xí)的唇語識別技術(shù)研究
發(fā)布時間:2021-01-04 23:11
聽覺作為人類一種重要的能力,是與人交流的重要媒介,但很多人因?yàn)橄忍旎蛘吆筇斓娜毕轃o法通過聽覺來與人交流。唇語作為一種通過視覺判斷說話內(nèi)容的技術(shù)可以幫助他們實(shí)現(xiàn)快速溝通。除此之外,唇語的識別對于嘈雜環(huán)境語音識別、安防系統(tǒng)認(rèn)證和公共安全分析中都有重要應(yīng)用。這些因素決定了唇語識別研究的重要價值。如今,深度學(xué)習(xí)的發(fā)展,推動著唇語識別的快速發(fā)展。本文著重對基于深度學(xué)習(xí)的唇語識別技術(shù)進(jìn)行了研究。由于深度學(xué)習(xí)本質(zhì)是由數(shù)據(jù)驅(qū)動的算法,越來越多成功的深度學(xué)習(xí)例子都說明了數(shù)據(jù)集的質(zhì)量決定著深度學(xué)習(xí)算法模型訓(xùn)練結(jié)果的好壞,對于唇語的識別也不例外。本文從唇語數(shù)據(jù)集出發(fā),針對唇語識別數(shù)據(jù)集構(gòu)建時的難點(diǎn),設(shè)計(jì)了一種基于金字塔LK(Lucas-Kanade)光流法的唇語自動標(biāo)注系統(tǒng)。該系統(tǒng)首先利用語音處理技術(shù)和人臉唇部區(qū)域定位技術(shù)對視頻進(jìn)行預(yù)處理,再利用光流法計(jì)算出相鄰幀之間嘴唇的運(yùn)動信息來精確地標(biāo)注出嘴唇變化所對應(yīng)的時間,完成標(biāo)注任務(wù)。相比于單單利用語音識別標(biāo)注的方法,本系統(tǒng)標(biāo)注出的唇語樣本更為精確,數(shù)據(jù)集質(zhì)量更高。為實(shí)現(xiàn)中文的唇語識別,本文采用該系統(tǒng)建立了一種中文常用語唇語數(shù)據(jù)集CPLDS(Chinese Ph...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機(jī)械研究所)陜西省
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元
第2章深度學(xué)習(xí)理論9該多層感知器中含有一個隱藏層,該層有5個隱藏單元,多層感知器按以下方式計(jì)算輸出:()hhHXWb...(2.1)ooOHWb...(2.2)其中輸入樣本Xnd,n為批量大小,批量n是一次輸入供模型計(jì)算的數(shù)據(jù)量(通常情況下,n越大模型訓(xùn)練速度越快),輸入樣本特征數(shù)為d(在本例中d4)。由于該多層感知機(jī)中只有一個隱藏層,其中隱藏層單元個數(shù)為h(本例中h5),記H為隱藏層的輸出,有Hnh。隱藏層的權(quán)重參數(shù)和偏差參數(shù)分別為dhhW和1hhb,輸出層的權(quán)重和偏差參數(shù)分別為hqoW與1qob。為激活函數(shù),激活函數(shù)是一種非線性函數(shù)。神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)的線性回歸相比,最大的區(qū)別在于引入了激活函數(shù)。激活函數(shù)是一種非線性映射,將輸入的值非線性映射到激活函數(shù)的值域中。通過激活函數(shù)的作用,多層神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)中學(xué)習(xí)到更為復(fù)雜的函數(shù)表達(dá)[26]。深度學(xué)習(xí)中激活函數(shù)主要有以下幾種:(1)Relu函數(shù)公式(2.3)為Relu(RectifiedLinearUnit)函數(shù)的表達(dá)式,圖2.4表示Relu函數(shù)的曲線圖。Relu(x)max(x,0)...(2.3)圖2.4Relu函數(shù)曲線圖Figure2.4Relufunctiongraph
基于深度學(xué)習(xí)的唇語識別技術(shù)研究10(2)Sigmoid函數(shù)Sigmoid函數(shù)可以將元素的值非線性變換到0和1之間,公式(2.4)為Sigmoid函數(shù)的表達(dá)式,圖2.5為Sigmoid函數(shù)的曲線圖。1()1exp()Sigmoidxx...(2.4)圖2.5Sigmoid函數(shù)曲線圖Figure2.5Sigmoidfunctiongraph(3)雙曲正切函數(shù)雙曲正切函數(shù)(Tanh)可以將元素變換到-1和1之間。公式(2.5)為Tanh函數(shù)的表達(dá)式,圖2.6為Tanh函數(shù)的曲線圖。1exp(2)Tanh()1exp(2)xxx...(2.5)圖2.6Tanh函數(shù)曲線圖Figure2.6Tanhfunctiongraph
【參考文獻(xiàn)】:
期刊論文
[1]一種基于long short-term memory的唇語識別方法[J]. 馬寧,田國棟,周曦. 中國科學(xué)院大學(xué)學(xué)報. 2018(01)
[2]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[3]高安全性人臉識別系統(tǒng)中的唇語識別算法研究[J]. 任玉強(qiáng),田國棟,周祥東,呂江靖,周曦. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[4]圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安. 自動化學(xué)報. 2016(09)
[5]唇語識別關(guān)鍵技術(shù)研究進(jìn)展[J]. 榮傳振,岳振軍,賈永興,王淵,楊宇. 數(shù)據(jù)采集與處理. 2012(S2)
[6]基于改進(jìn)光流法的運(yùn)動目標(biāo)檢測[J]. 楊葉梅. 計(jì)算機(jī)與數(shù)字工程. 2011(09)
[7]語音端點(diǎn)檢測技術(shù)研究進(jìn)展[J]. 韓立華,王博,段淑鳳. 計(jì)算機(jī)應(yīng)用研究. 2010(04)
[8]一種改進(jìn)的光流算法[J]. 楊國亮,王志良,牟世堂,解侖,劉冀偉. 計(jì)算機(jī)工程. 2006(15)
[9]基于句子級的唇語識別技術(shù)[J]. 徐銘輝,姚鴻勛. 計(jì)算機(jī)工程與應(yīng)用. 2005(08)
碩士論文
[1]基于時序深度學(xué)習(xí)模型的語音情感識別方法研究[D]. 陳曉敏.哈爾濱工業(yè)大學(xué) 2018
[2]基于深度學(xué)習(xí)的唇語識別應(yīng)用的研究與實(shí)現(xiàn)[D]. 楊帆.電子科技大學(xué) 2018
[3]基于HMM與深度學(xué)習(xí)的唇讀識別研究[D]. 宋文明.大連理工大學(xué) 2017
[4]基于遷移學(xué)習(xí)的單樣本人臉識別[D]. 張琦.哈爾濱工程大學(xué) 2016
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別研究與實(shí)現(xiàn)[D]. 萬士寧.電子科技大學(xué) 2016
[6]基于深度神經(jīng)網(wǎng)絡(luò)的用戶會話推薦算法研究[D]. 俞騁超.浙江大學(xué) 2016
[7]卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D]. 李飛騰.大連理工大學(xué) 2014
[8]基于隱含馬爾可夫模型的計(jì)算機(jī)唇讀算法研究[D]. 閆龍.哈爾濱工業(yè)大學(xué) 2013
[9]卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D]. 許可.浙江大學(xué) 2012
[10]多層感知器神經(jīng)網(wǎng)絡(luò)的局部泛化誤差模型[D]. 楊飛.哈爾濱工業(yè)大學(xué) 2008
本文編號:2957538
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機(jī)械研究所)陜西省
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元
第2章深度學(xué)習(xí)理論9該多層感知器中含有一個隱藏層,該層有5個隱藏單元,多層感知器按以下方式計(jì)算輸出:()hhHXWb...(2.1)ooOHWb...(2.2)其中輸入樣本Xnd,n為批量大小,批量n是一次輸入供模型計(jì)算的數(shù)據(jù)量(通常情況下,n越大模型訓(xùn)練速度越快),輸入樣本特征數(shù)為d(在本例中d4)。由于該多層感知機(jī)中只有一個隱藏層,其中隱藏層單元個數(shù)為h(本例中h5),記H為隱藏層的輸出,有Hnh。隱藏層的權(quán)重參數(shù)和偏差參數(shù)分別為dhhW和1hhb,輸出層的權(quán)重和偏差參數(shù)分別為hqoW與1qob。為激活函數(shù),激活函數(shù)是一種非線性函數(shù)。神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)的線性回歸相比,最大的區(qū)別在于引入了激活函數(shù)。激活函數(shù)是一種非線性映射,將輸入的值非線性映射到激活函數(shù)的值域中。通過激活函數(shù)的作用,多層神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)中學(xué)習(xí)到更為復(fù)雜的函數(shù)表達(dá)[26]。深度學(xué)習(xí)中激活函數(shù)主要有以下幾種:(1)Relu函數(shù)公式(2.3)為Relu(RectifiedLinearUnit)函數(shù)的表達(dá)式,圖2.4表示Relu函數(shù)的曲線圖。Relu(x)max(x,0)...(2.3)圖2.4Relu函數(shù)曲線圖Figure2.4Relufunctiongraph
基于深度學(xué)習(xí)的唇語識別技術(shù)研究10(2)Sigmoid函數(shù)Sigmoid函數(shù)可以將元素的值非線性變換到0和1之間,公式(2.4)為Sigmoid函數(shù)的表達(dá)式,圖2.5為Sigmoid函數(shù)的曲線圖。1()1exp()Sigmoidxx...(2.4)圖2.5Sigmoid函數(shù)曲線圖Figure2.5Sigmoidfunctiongraph(3)雙曲正切函數(shù)雙曲正切函數(shù)(Tanh)可以將元素變換到-1和1之間。公式(2.5)為Tanh函數(shù)的表達(dá)式,圖2.6為Tanh函數(shù)的曲線圖。1exp(2)Tanh()1exp(2)xxx...(2.5)圖2.6Tanh函數(shù)曲線圖Figure2.6Tanhfunctiongraph
【參考文獻(xiàn)】:
期刊論文
[1]一種基于long short-term memory的唇語識別方法[J]. 馬寧,田國棟,周曦. 中國科學(xué)院大學(xué)學(xué)報. 2018(01)
[2]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[3]高安全性人臉識別系統(tǒng)中的唇語識別算法研究[J]. 任玉強(qiáng),田國棟,周祥東,呂江靖,周曦. 計(jì)算機(jī)應(yīng)用研究. 2017(04)
[4]圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安. 自動化學(xué)報. 2016(09)
[5]唇語識別關(guān)鍵技術(shù)研究進(jìn)展[J]. 榮傳振,岳振軍,賈永興,王淵,楊宇. 數(shù)據(jù)采集與處理. 2012(S2)
[6]基于改進(jìn)光流法的運(yùn)動目標(biāo)檢測[J]. 楊葉梅. 計(jì)算機(jī)與數(shù)字工程. 2011(09)
[7]語音端點(diǎn)檢測技術(shù)研究進(jìn)展[J]. 韓立華,王博,段淑鳳. 計(jì)算機(jī)應(yīng)用研究. 2010(04)
[8]一種改進(jìn)的光流算法[J]. 楊國亮,王志良,牟世堂,解侖,劉冀偉. 計(jì)算機(jī)工程. 2006(15)
[9]基于句子級的唇語識別技術(shù)[J]. 徐銘輝,姚鴻勛. 計(jì)算機(jī)工程與應(yīng)用. 2005(08)
碩士論文
[1]基于時序深度學(xué)習(xí)模型的語音情感識別方法研究[D]. 陳曉敏.哈爾濱工業(yè)大學(xué) 2018
[2]基于深度學(xué)習(xí)的唇語識別應(yīng)用的研究與實(shí)現(xiàn)[D]. 楊帆.電子科技大學(xué) 2018
[3]基于HMM與深度學(xué)習(xí)的唇讀識別研究[D]. 宋文明.大連理工大學(xué) 2017
[4]基于遷移學(xué)習(xí)的單樣本人臉識別[D]. 張琦.哈爾濱工程大學(xué) 2016
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別研究與實(shí)現(xiàn)[D]. 萬士寧.電子科技大學(xué) 2016
[6]基于深度神經(jīng)網(wǎng)絡(luò)的用戶會話推薦算法研究[D]. 俞騁超.浙江大學(xué) 2016
[7]卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D]. 李飛騰.大連理工大學(xué) 2014
[8]基于隱含馬爾可夫模型的計(jì)算機(jī)唇讀算法研究[D]. 閆龍.哈爾濱工業(yè)大學(xué) 2013
[9]卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D]. 許可.浙江大學(xué) 2012
[10]多層感知器神經(jīng)網(wǎng)絡(luò)的局部泛化誤差模型[D]. 楊飛.哈爾濱工業(yè)大學(xué) 2008
本文編號:2957538
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2957538.html
最近更新
教材專著