基于深度學(xué)習(xí)的視頻手語識(shí)別研究
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2020
【中圖分類】:TP391.41;TP18
【部分圖文】:
?等多模態(tài)表征?|? ̄基于多模態(tài)特征的孤立詞識(shí)別?i??|???:?|建模識(shí)別方法|?;??繁認(rèn)f??認(rèn)篇產(chǎn)P雜蓮S?||=>丨基于空洞卷積和迭代優(yōu)化的連續(xù)語句識(shí)別;????I??和優(yōu)化??I?I?[ ̄基于迭代對(duì)齊網(wǎng)絡(luò)的連續(xù)語句識(shí)別 ̄?I??|?V?v?I??1?r?\?|??|???;?J?|增廣學(xué)習(xí)方法|??I深度當(dāng)|爲(wèi)III語數(shù)基于跨模態(tài)數(shù)據(jù)增廣的手語識(shí)別?I??I??I?;?基干多語言協(xié)同的手語識(shí)別??、、、?/?*?V?V?/??圖1.1本文研宄內(nèi)容總覽。??結(jié)合上述創(chuàng)新點(diǎn),本文具體章節(jié)安排如下:??第2章介紹了基于多模態(tài)手語特征表達(dá)的孤立詞識(shí)別方法。該方法主要由兩??個(gè)支路構(gòu)成,分別是用于表征手部形狀和手部運(yùn)動(dòng)軌跡。手部運(yùn)動(dòng)軌跡特征通過??稠密的形狀上下文特征矩陣表達(dá),然后使用卷積網(wǎng)絡(luò)提取更為魯棒的軌跡特征??描述;手型特征由三維卷積神經(jīng)網(wǎng)絡(luò)提齲最后將兩種不同類型的特征進(jìn)行融??合,使用支持向量機(jī)進(jìn)行分類。??第3章介紹基于空洞卷積網(wǎng)絡(luò)和迭代優(yōu)化的連續(xù)手語識(shí)別方法。該方法使用??三維殘差網(wǎng)絡(luò)用于視覺特征的提齲此后,使用棧式空洞卷積網(wǎng)絡(luò)和連接時(shí)序??分類學(xué)習(xí)視覺特征和文本語句之間的映射。本章算法設(shè)計(jì)了一種迭代優(yōu)化策略。??首先使用連接時(shí)序分類對(duì)網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,收斂后提取視頻和文本的偽對(duì)??齊標(biāo)簽,使用偽對(duì)齊標(biāo)簽對(duì)3D-ReSNet特征提取器參數(shù)進(jìn)行微調(diào),以獲得更具表??征能力的視覺特征表達(dá),迭代地進(jìn)行上述步驟直至網(wǎng)絡(luò)達(dá)到收斂狀態(tài)。??第4章介紹基于迭代對(duì)齊網(wǎng)絡(luò)的連續(xù)手語識(shí)別方法框架。該框架由兩個(gè)部分??組成,分別是用于特征學(xué)習(xí)的三維殘差網(wǎng)絡(luò),和聯(lián)合了連接時(shí)序分
?第2章基于多模態(tài)特征的孤立詞識(shí)別???息,以及手語演示者的RGB視頻信息;谶@些數(shù)據(jù),本節(jié)介紹用于表征運(yùn)動(dòng)??軌跡和手型的特征提取方法以及基于支持向量機(jī)的識(shí)別方法。??2.3.1框架概述??基于多模態(tài)特征的孤立詞手語識(shí)別方法如圖2.1所示。在該方法中,分別提??取基于骨架點(diǎn)軌跡的特征和基于手部形狀視頻的特征進(jìn)行識(shí)別。圖2.1(a)展示了??從骨架點(diǎn)軌跡提取特征的過程。在手語演示者執(zhí)行手語動(dòng)作時(shí),手部和肘部關(guān)??節(jié)點(diǎn)在空間中形成一條三維軌跡。對(duì)于該軌跡上每一時(shí)刻的位置,首先使用形??狀上下文提取當(dāng)前點(diǎn)的特征表達(dá),然后整合所有時(shí)刻的特征形成一個(gè)特征矩陣。??此后,將該形狀上下文特征矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使用深度神經(jīng)網(wǎng)絡(luò)對(duì)??其進(jìn)行特征表達(dá)。在實(shí)驗(yàn)中,使用LeNett115]的全連接層相應(yīng)作為特征用于后續(xù)??的識(shí)別任務(wù)。手型RGB視頻的特征抽取過程如圖2.1(b)所示。Kinect能夠追蹤??手語演示者的骨架信息,通過Kinect開發(fā)套件提供的映射函數(shù)能夠輕松定位手??部在視頻中的具體位置,然后使用合適大小的矩形包圍框?qū)⑹植繀^(qū)域分割出來,??這樣能夠得到一個(gè)只含有手部信息的低分辨率視頻。這些手部運(yùn)動(dòng)視頻很好地??去除了背景的干擾,使用三維卷積神經(jīng)網(wǎng)絡(luò)能夠手型進(jìn)行很好的表達(dá)。將這兩種??特征進(jìn)行融合,之后使用支持向量機(jī)進(jìn)行分類,以得到最終的手語識(shí)別結(jié)果。??魯._G?丨-!?7]?1?fRec〇gnition、??隱f帽??'、RGB?Hand?Region?(b>?3D?CNN?Feature?/??圖2.1方法框架圖。(a)使用形狀上下文提取軌跡的特征矩陣,然后利用LeNet對(duì)特征矩??陣進(jìn)行
、目標(biāo)檢測、目標(biāo)跟蹤等。受此啟發(fā),本章算法??將得到的稠密形狀上下文特征矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,用于提取更加魯??棒的和具有表征性的特診表達(dá)。在該方法中,采用LeNet全連接層的響應(yīng)作為軌??跡的特征表達(dá)。?????,?I?\???*?? ̄^?!?/?、.?z.? ̄ ̄**?/??十'入二?I/'?/?:??(a)??left?hand?right?hand?left?elbow?right?elbow????pn??nm」??(c)?(b)??圖2.2軌跡形狀上下文特征矩陣構(gòu)造流程圖。(a)使用¥1算法進(jìn)行重采樣;(b)對(duì)每個(gè)采??樣點(diǎn)提取形狀上下文;U)構(gòu)造稠密形狀上下文特征矩陣。??2.3.3手型表征??1.手部區(qū)域提取??Kinect提供了關(guān)節(jié)點(diǎn)的位置坐標(biāo)信息,通過Kinect的映射函數(shù)能夠獲得雙??手在RGB視頻中的具體位置,從而能夠得到手的大致區(qū)域。對(duì)視頻中的每一幀,??使用一個(gè)70?X?70的正方形框?qū)⑹植繀^(qū)域的圖像進(jìn)行切分和提取,使得手部關(guān)節(jié)??點(diǎn)位于方形框中心。然后將切分出的雙手區(qū)域進(jìn)行拼接,得到僅包含雙手信息的??低分辨率視頻。這樣,手語演示者身體的其他運(yùn)動(dòng)信息能夠被有效的分離去除,??避免干擾,使得算法能夠?qū)W⒂趯?duì)手型的建模。圖2.3a是手型提取示意圖,部分??提取的結(jié)果如圖2.3b所示。??2.基于3D?CNN的手型表征??三維卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于視頻中時(shí)空信息的提取,視頻中的運(yùn)動(dòng)信息??能夠被三維卷積核較好的表征。本節(jié)使用三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)手語演示者的手??型視頻進(jìn)行分析,借鑒AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),使用三維卷積核提取手部運(yùn)動(dòng)信息。??網(wǎng)絡(luò)結(jié)構(gòu)由5
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;唐帥:中國唯一的手語律師[J];廉政瞭望(上半月);2018年04期
2 葉小荷;;80后小伙兒唐帥:中國唯一的手語律師[J];現(xiàn)代青年;2018年08期
3 李蕊娟;;80后唐帥:中國唯一的手語律師[J];黃河.黃土.黃種人;2018年13期
4 傳云;;唐帥:中國唯一“手語律師”[J];戀愛婚姻家庭(上半月);2018年08期
5 吳曉波;;淺談上海手語的象似性[J];科學(xué)咨詢(教育科研);2019年12期
6 劉永萍;;從聾人手語預(yù)設(shè)的經(jīng)濟(jì)性看聾人手語的“丟三落四”現(xiàn)象[J];現(xiàn)代特殊教育;2019年20期
7 趙菲;韓梅;;新媒體環(huán)境拓寬國家通用手語推廣教學(xué)新路徑[J];綏化學(xué)院學(xué)報(bào);2020年01期
8 徐子淇;賈兆娜;;基于國家通用手語推廣的聾教育思考[J];綏化學(xué)院學(xué)報(bào);2020年01期
9 趙永剛;王曉霞;;手語音節(jié)與語素結(jié)構(gòu)的類型學(xué)考察[J];外語教學(xué);2020年01期
10 劉永萍;;語用學(xué)視角下的國家通用手語推廣[J];現(xiàn)代特殊教育;2020年08期
相關(guān)博士學(xué)位論文 前10條
1 蒲俊福;基于深度學(xué)習(xí)的視頻手語識(shí)別研究[D];中國科學(xué)技術(shù)大學(xué);2020年
2 楊全;基于表觀建模的中國手語識(shí)別技術(shù)研究[D];西北大學(xué);2013年
3 衣玉敏;上海手語的語音調(diào)查報(bào)告[D];復(fù)旦大學(xué);2008年
4 王騏;基于虛擬立體視約束的視角無關(guān)手語識(shí)別研究[D];哈爾濱工業(yè)大學(xué);2008年
5 倪訓(xùn)博;基于手語語言學(xué)與人體運(yùn)動(dòng)學(xué)的手語識(shí)別研究[D];哈爾濱工業(yè)大學(xué);2009年
6 馬繼勇;手語理解的統(tǒng)計(jì)模型研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2001年
7 楊峰;上海手語音節(jié)結(jié)構(gòu)分析[D];華東師范大學(xué);2016年
8 陳曉雷;能量受限條件下的手語視頻編碼方法研究[D];蘭州理工大學(xué);2014年
9 周宇;中國手語識(shí)別中自適應(yīng)問題的研究[D];哈爾濱工業(yè)大學(xué);2010年
10 王春立;面向大詞匯量的連續(xù)中國手語識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 毛賽群;西安聾人自然手語句法研究[D];陜西師范大學(xué);2015年
2 馬運(yùn)怡;上海手語的手型音位研究[D];華東師范大學(xué);2014年
3 漆春;中國手語的動(dòng)作比較研究[D];大連理工大學(xué);2014年
4 王森;語音文本驅(qū)動(dòng)的中國手語動(dòng)畫合成[D];北京工業(yè)大學(xué);2013年
5 陳新偉;基于表層語義分析的自然手語動(dòng)作序列生成的研究[D];湘潭大學(xué);2009年
6 宋桂霞;手語數(shù)據(jù)分析及生成技術(shù)[D];哈爾濱工業(yè)大學(xué);2007年
7 王偉;論手語譯員的角色[D];廈門大學(xué);2009年
8 駱維維;《中國手語》手形研究[D];北京師范大學(xué);2008年
9 金力;基于移動(dòng)互聯(lián)網(wǎng)的手語翻譯器的設(shè)計(jì)與實(shí)現(xiàn)[D];江蘇科技大學(xué);2017年
10 吳曉波;上海手語否定形式調(diào)查報(bào)告[D];復(fù)旦大學(xué);2013年
本文編號(hào):2893080
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2893080.html