基于三維深度神經(jīng)網(wǎng)絡(luò)的動態(tài)手勢識別的方法研究
發(fā)布時(shí)間:2022-01-13 17:24
隨著科技的高速發(fā)展,越來越多的技術(shù)被運(yùn)用到人們的日常生活中來,因此,通過科技使人們過上更加舒適簡潔的生活也成為了當(dāng)今學(xué)術(shù)界和工業(yè)界的一致目標(biāo)。而近來人工智能的興起更是掀起了智能化生活的熱潮,其中,人機(jī)交互作為人與機(jī)器的交流方式,在智能化生活中更是必不可少。而手勢識別作為一種簡單自然的交互方式,更是備受矚目,人們期望通過手勢識別使得人機(jī)交互變得方便自然,更加貼近人類的生活習(xí)慣。因此,為了促進(jìn)動態(tài)手勢識別準(zhǔn)確率的提升,本文主要做了如下工作:(1)針對動態(tài)手勢識別中,需要盡量保留手勢視頻中含有運(yùn)動信息的幀圖像的問題,提出一種“關(guān)鍵幀”提取方法。首先,對手勢視頻做統(tǒng)一幀數(shù)處理,在對數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,確定網(wǎng)絡(luò)輸入視頻的基準(zhǔn)幀數(shù)。其次,在視頻采樣的過程中,為了盡量保留富含運(yùn)動信息的“關(guān)鍵幀”,根據(jù)光流值可以代表運(yùn)動劇烈程度的原理,使用一種基于光流的加權(quán)平均采樣方法,根據(jù)原始視頻中各段的平均光流值來對視頻按比例進(jìn)行采樣。最終獲得了幀數(shù)統(tǒng)一且含有豐富運(yùn)動信息的手勢數(shù)據(jù)集。(2)針對動態(tài)手勢具有時(shí)序特征以及深層網(wǎng)絡(luò)遇到的退化問題,使用一種由殘差思想改進(jìn)的三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢的特征提取。在動...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
體感游戲(4)聾啞人交流
[4]。圖1.2 數(shù)據(jù)手套雖然以可穿戴設(shè)備為基礎(chǔ)的手勢識別技術(shù)因其精確的數(shù)據(jù)而可以達(dá)到較高的識別率,但是由于數(shù)字手套價(jià)格昂貴,體積較大,不方便攜帶等原因?qū)е缕浒l(fā)展受到了限制。而基于視覺的手勢識別是依靠攝像機(jī)采集到的手勢的圖像信息進(jìn)行識別,相較于數(shù)字手套,基于視覺的手勢識別更加方便靈活,貼合人類的使用習(xí)慣,費(fèi)用也更加低廉,因此得到了更多的認(rèn)可。基于視覺的手勢識別是讓計(jì)算機(jī)模擬人的眼睛,進(jìn)行非接觸式的手勢識別,其又可以分為靜態(tài)手勢識別和動態(tài)手勢識別。靜態(tài)手勢識別是通過單幀圖像來表征一個(gè)手勢,通過分析計(jì)算手的形狀、位置、輪廓等信息來對手勢進(jìn)行識別分類。一些傳統(tǒng)的分類方法,如隨機(jī)森林[5]、模板匹配算法[6]等經(jīng)常被用于靜態(tài)手勢識別
域進(jìn)行連接。一個(gè)卷積核是一個(gè)權(quán)值矩陣,代表圖像的某一種特征,卷積核一般以隨機(jī)小數(shù)矩陣的形式初始化,并在網(wǎng)絡(luò)的訓(xùn)練過程中通過學(xué)習(xí)得到合理的權(quán)值。圖2.2 卷積操作[36]卷積層通過卷積操作來提取上一層特征圖中的不同特征!熬矸e”就是對圖像和濾波器(即卷積核)做內(nèi)積,即將對應(yīng)位置的元素相乘再求和,這就是卷積操作,如圖 2.2 所示。一個(gè)卷積核代表圖像的某一種特征,將它和圖像進(jìn)行卷積操作,就可以得到整個(gè)圖中對該特征的響應(yīng),某個(gè)區(qū)域的響應(yīng)越強(qiáng)烈(即卷積值越大),說明該區(qū)域含有該特征的可能性就越大,當(dāng)某個(gè)區(qū)域的響應(yīng)值大于一定閾值,就認(rèn)為該區(qū)域含有該卷積核所代表的特征。使用多個(gè)卷積核分別對圖像進(jìn)行卷積操作,就可以得到該圖像的多種特征。由于網(wǎng)絡(luò)的訓(xùn)練過程是將一個(gè)固定大小的矩陣(即卷積核)在圖像
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[2]光照不均圖像增強(qiáng)方法綜述[J]. 梁琳,何衛(wèi)平,雷蕾,張維,王紅霄. 計(jì)算機(jī)應(yīng)用研究. 2010(05)
[3]基于ANN/HMM的中國手語識別系統(tǒng)[J]. 吳江琴,高文,陳熙霖,劉偉. 計(jì)算機(jī)工程與應(yīng)用. 1999(09)
碩士論文
[1]基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢識別研究[D]. 陳祖雪.陜西師范大學(xué) 2016
[2]基于CAS-GLOVE數(shù)據(jù)手套的手勢識別技術(shù)研究[D]. 江立.北京交通大學(xué) 2006
本文編號:3586846
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
體感游戲(4)聾啞人交流
[4]。圖1.2 數(shù)據(jù)手套雖然以可穿戴設(shè)備為基礎(chǔ)的手勢識別技術(shù)因其精確的數(shù)據(jù)而可以達(dá)到較高的識別率,但是由于數(shù)字手套價(jià)格昂貴,體積較大,不方便攜帶等原因?qū)е缕浒l(fā)展受到了限制。而基于視覺的手勢識別是依靠攝像機(jī)采集到的手勢的圖像信息進(jìn)行識別,相較于數(shù)字手套,基于視覺的手勢識別更加方便靈活,貼合人類的使用習(xí)慣,費(fèi)用也更加低廉,因此得到了更多的認(rèn)可。基于視覺的手勢識別是讓計(jì)算機(jī)模擬人的眼睛,進(jìn)行非接觸式的手勢識別,其又可以分為靜態(tài)手勢識別和動態(tài)手勢識別。靜態(tài)手勢識別是通過單幀圖像來表征一個(gè)手勢,通過分析計(jì)算手的形狀、位置、輪廓等信息來對手勢進(jìn)行識別分類。一些傳統(tǒng)的分類方法,如隨機(jī)森林[5]、模板匹配算法[6]等經(jīng)常被用于靜態(tài)手勢識別
域進(jìn)行連接。一個(gè)卷積核是一個(gè)權(quán)值矩陣,代表圖像的某一種特征,卷積核一般以隨機(jī)小數(shù)矩陣的形式初始化,并在網(wǎng)絡(luò)的訓(xùn)練過程中通過學(xué)習(xí)得到合理的權(quán)值。圖2.2 卷積操作[36]卷積層通過卷積操作來提取上一層特征圖中的不同特征!熬矸e”就是對圖像和濾波器(即卷積核)做內(nèi)積,即將對應(yīng)位置的元素相乘再求和,這就是卷積操作,如圖 2.2 所示。一個(gè)卷積核代表圖像的某一種特征,將它和圖像進(jìn)行卷積操作,就可以得到整個(gè)圖中對該特征的響應(yīng),某個(gè)區(qū)域的響應(yīng)越強(qiáng)烈(即卷積值越大),說明該區(qū)域含有該特征的可能性就越大,當(dāng)某個(gè)區(qū)域的響應(yīng)值大于一定閾值,就認(rèn)為該區(qū)域含有該卷積核所代表的特征。使用多個(gè)卷積核分別對圖像進(jìn)行卷積操作,就可以得到該圖像的多種特征。由于網(wǎng)絡(luò)的訓(xùn)練過程是將一個(gè)固定大小的矩陣(即卷積核)在圖像
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[2]光照不均圖像增強(qiáng)方法綜述[J]. 梁琳,何衛(wèi)平,雷蕾,張維,王紅霄. 計(jì)算機(jī)應(yīng)用研究. 2010(05)
[3]基于ANN/HMM的中國手語識別系統(tǒng)[J]. 吳江琴,高文,陳熙霖,劉偉. 計(jì)算機(jī)工程與應(yīng)用. 1999(09)
碩士論文
[1]基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢識別研究[D]. 陳祖雪.陜西師范大學(xué) 2016
[2]基于CAS-GLOVE數(shù)據(jù)手套的手勢識別技術(shù)研究[D]. 江立.北京交通大學(xué) 2006
本文編號:3586846
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3586846.html
最近更新
教材專著