基于Kinect的手勢動(dòng)作識(shí)別技術(shù)研究
發(fā)布時(shí)間:2021-01-28 21:19
手勢識(shí)別是計(jì)算機(jī)領(lǐng)域中一個(gè)重要且具有挑戰(zhàn)性的研究課題,同時(shí)作為人機(jī)交互的重要組成部分,其發(fā)展影響著人機(jī)交互的自然性和靈活性。然而,傳統(tǒng)手勢識(shí)別方案以彩色及深度圖像為研究對(duì)象,在特征提取時(shí)常常受到膚色、復(fù)雜背景、遮擋重疊等因素干擾,難以準(zhǔn)確地分割手勢。在分類階段,傳統(tǒng)分類模型存在著樣本需求量大及識(shí)別率低等缺點(diǎn)。因此,本文利用Kinect深度傳感器獲取的骨骼信息為研究對(duì)象,以減少應(yīng)用場景對(duì)特征提取的影響;并針對(duì)兩種手勢動(dòng)作識(shí)別問題分別設(shè)計(jì)了特征提取方案,即:人工設(shè)計(jì)提取幾何特征和雙路卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取隨機(jī)特征;此外利用長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)構(gòu)建分類模型對(duì)手勢動(dòng)作進(jìn)行識(shí)別。本文主要研究內(nèi)容如下:(1)鑒于手勢動(dòng)作識(shí)別可以視為時(shí)間序列分析問題,本文利用LSTM對(duì)序列的上下文信息進(jìn)行建模。同時(shí),為了將手勢序列的多個(gè)時(shí)間尺度信息在全局范圍內(nèi)得到融合,實(shí)現(xiàn)輸入數(shù)據(jù)的高級(jí)抽象,構(gòu)建了多層級(jí)LSTM堆棧的分類模型。并通過對(duì)比不同層級(jí)堆棧的實(shí)驗(yàn)結(jié)果,確定了四層級(jí)LSTM為最...
【文章來源】:長春理工大學(xué)吉林省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新型
窘細(xì)。?諫鮮齜治觶?疚畝曰?贙inect深度傳感器的手勢識(shí)別技術(shù)進(jìn)行了研究。1.2國內(nèi)外研究現(xiàn)狀近年來,手勢識(shí)別技術(shù)以自然性和靈活性的特點(diǎn)在人機(jī)交互領(lǐng)域得到了普遍的關(guān)注和重視,并逐漸成為主流的交互方式[13;14]。同時(shí),伴隨著手勢識(shí)別技術(shù)在各種智能終端的大量應(yīng)用,吸引了眾多國內(nèi)外研究者對(duì)其進(jìn)行深入的研究。根據(jù)手勢獲取的方式可以劃分為:基于數(shù)據(jù)手套的手勢識(shí)別和基于視覺的手勢識(shí)別。1.2.1基于數(shù)據(jù)手套的手勢識(shí)別數(shù)據(jù)手套是一種能夠穿戴的交互設(shè)備,裝有若干能夠采集相關(guān)數(shù)據(jù)信息的傳感器,其外觀結(jié)構(gòu)如圖1.2所示。數(shù)據(jù)手套作為人與虛擬對(duì)象聯(lián)系的橋梁[15],推開了非接觸式交互的大門,這種沉浸式的交互手段依賴于快速精確的特性極大地提升了使用者的體驗(yàn)。因此,一時(shí)間內(nèi)研究學(xué)者們爭相投入研究。圖1.2數(shù)據(jù)手套在國外,貝爾實(shí)驗(yàn)室的Grimes教授領(lǐng)導(dǎo)研究團(tuán)隊(duì)在1983年獲取數(shù)據(jù)手套的專利,使得研究者們開始對(duì)基于數(shù)據(jù)手套的手勢識(shí)別展開研究[16]?▋(nèi)基梅隆大學(xué)的CLee和YXu通過CyberGlove數(shù)據(jù)手套獲取手勢信息,并利用隱馬爾可夫模型(HiddenMarkovModel,HMM)對(duì)14種不同手勢進(jìn)行交互識(shí)別[17]。新南威爾士大學(xué)的KadousMW使用數(shù)據(jù)手套采集了95種澳大利亞手語,并利用基于實(shí)例的學(xué)習(xí)和決策樹學(xué)習(xí)的方法對(duì)數(shù)據(jù)集的識(shí)別率達(dá)到80%[18]。LuzaninO采用低成本的5-sensor數(shù)據(jù)手套獲取手勢數(shù)據(jù),并利用三種類型的聚類算法有效地減少了訓(xùn)練數(shù)據(jù)集,最后結(jié)合基于概率神經(jīng)網(wǎng)絡(luò)(PNN)對(duì)手勢進(jìn)行識(shí)別[19]。
第2章Kinect深度傳感器與相關(guān)基礎(chǔ)理論7第2章Kinect深度傳感器與相關(guān)基礎(chǔ)理論2.1Kinect深度傳感器源于消費(fèi)者對(duì)自然人機(jī)交互的渴望與追求,微軟在2010年發(fā)布的體感外設(shè)Kinect1.0取得了空前的成功,當(dāng)時(shí)被吉尼斯世界組織評(píng)為有史以來銷售最快的電子產(chǎn)品。Kinect深度傳感器是一種3D體感攝影機(jī),除了能夠?qū)崟r(shí)捕捉用戶在三維空間的運(yùn)動(dòng)信息,還具備語音辨識(shí)、麥克風(fēng)輸入等多種功能。兩年后,微軟正式發(fā)布了與之配套的KinectforWindowsSDK,開發(fā)者們利用其強(qiáng)大的功能將Kinect廣泛應(yīng)用各個(gè)領(lǐng)域。2014年,微軟又發(fā)布了Kinect2.0,其外觀如圖2.1所示。圖2.1Kinect深度傳感器2.1.1Kinect硬件組成及開發(fā)環(huán)境Kinect2.0的硬件組成主要由PS1080系統(tǒng)級(jí)芯片和信息采集模塊組成,其彩色攝像頭、紅外發(fā)射器和深度攝像頭模塊,用來獲取彩色圖像和深度圖像。彩色攝像頭用來捕獲目標(biāo)場景的高清彩色圖像及視頻信息,平均每秒能夠獲取30幀的圖像數(shù)據(jù);紅外發(fā)射器用來向目標(biāo)區(qū)域發(fā)射脈沖光,深度攝像頭用來接收脈沖光并進(jìn)行分析,創(chuàng)建目標(biāo)區(qū)域可視范圍內(nèi)的深度圖像。另外,配有陣列麥克風(fēng)模塊用來定位聲源及過濾噪聲。Kinect2.0的具體參數(shù)如下表2.1所示:表2.1Kinect2.0具體參數(shù)參數(shù)名設(shè)定值彩色攝像頭分辨率19201080深度攝像頭分辨率512424視野角度水平57,垂直43檢測范圍0.5-4.5m麥克風(fēng)音效6bit,16khz為了實(shí)驗(yàn)性能的需求,Kinect對(duì)開發(fā)環(huán)境也有一定的要求。其硬件方面:要求i52.3GHz以上的CPU,64位處理器及Window8操作系統(tǒng)以上,運(yùn)行內(nèi)存4G以上并具備USB3.0接口的計(jì)算機(jī);其軟件方面主要是微軟提供的KinectforWindowsSDK進(jìn)行開發(fā),其與應(yīng)用程序之間的交互如圖2.2所示。KinectSDK中包含豐富的軟件庫和
【參考文獻(xiàn)】:
期刊論文
[1]基于融合卷積神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾模型[J]. 楊錫慧. 軟件導(dǎo)刊. 2017(12)
[2]一種改進(jìn)的DTW動(dòng)態(tài)手勢識(shí)別方法[J]. 李凱,王永雄,孫一品. 小型微型計(jì)算機(jī)系統(tǒng). 2016(07)
[3]混合現(xiàn)實(shí)中的人機(jī)交互綜述[J]. 黃進(jìn),韓冬奇,陳毅能,田豐,王宏安,戴國忠. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2016(06)
[4]基于Kinect骨骼數(shù)據(jù)的靜態(tài)三維手勢識(shí)別[J]. 李紅波,丁林建,吳渝,冉光勇. 計(jì)算機(jī)應(yīng)用與軟件. 2015(09)
[5]基于YCbCr顏色空間背景建模與手勢陰影消除[J]. 史東承,倪康. 中國光學(xué). 2015(04)
[6]基于顏色均衡和橢圓模型的手勢圖像分割[J]. 嚴(yán)秋鋒,王紅茹,季鳴. 計(jì)算機(jī)仿真. 2015(04)
[7]基于Kinect傳感器的智能輪椅手勢控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 羅元,謝彧,張毅. 機(jī)器人. 2012(01)
[8]手勢識(shí)別技術(shù)及其在人機(jī)交互中的應(yīng)用[J]. 李清水,方志剛,沈模衛(wèi),陳育偉. 人類工效學(xué). 2002(01)
[9]一種面向遙操作的新型數(shù)據(jù)手套研制[J]. 王家順,王田苗,魏軍,韓壯志,游松. 機(jī)器人. 2000(03)
[10]基于DGMM的中國手語識(shí)別系統(tǒng)[J]. 吳江琴,高文. 計(jì)算機(jī)研究與發(fā)展. 2000(05)
博士論文
[1]基于裸手的自然人機(jī)交互關(guān)鍵算法研究[D]. 廖赟.云南大學(xué) 2012
碩士論文
[1]基于Kinect的骨骼追蹤及肢體動(dòng)作識(shí)別研究[D]. 劉嬌.西安工業(yè)大學(xué) 2016
本文編號(hào):3005710
【文章來源】:長春理工大學(xué)吉林省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新型
窘細(xì)。?諫鮮齜治觶?疚畝曰?贙inect深度傳感器的手勢識(shí)別技術(shù)進(jìn)行了研究。1.2國內(nèi)外研究現(xiàn)狀近年來,手勢識(shí)別技術(shù)以自然性和靈活性的特點(diǎn)在人機(jī)交互領(lǐng)域得到了普遍的關(guān)注和重視,并逐漸成為主流的交互方式[13;14]。同時(shí),伴隨著手勢識(shí)別技術(shù)在各種智能終端的大量應(yīng)用,吸引了眾多國內(nèi)外研究者對(duì)其進(jìn)行深入的研究。根據(jù)手勢獲取的方式可以劃分為:基于數(shù)據(jù)手套的手勢識(shí)別和基于視覺的手勢識(shí)別。1.2.1基于數(shù)據(jù)手套的手勢識(shí)別數(shù)據(jù)手套是一種能夠穿戴的交互設(shè)備,裝有若干能夠采集相關(guān)數(shù)據(jù)信息的傳感器,其外觀結(jié)構(gòu)如圖1.2所示。數(shù)據(jù)手套作為人與虛擬對(duì)象聯(lián)系的橋梁[15],推開了非接觸式交互的大門,這種沉浸式的交互手段依賴于快速精確的特性極大地提升了使用者的體驗(yàn)。因此,一時(shí)間內(nèi)研究學(xué)者們爭相投入研究。圖1.2數(shù)據(jù)手套在國外,貝爾實(shí)驗(yàn)室的Grimes教授領(lǐng)導(dǎo)研究團(tuán)隊(duì)在1983年獲取數(shù)據(jù)手套的專利,使得研究者們開始對(duì)基于數(shù)據(jù)手套的手勢識(shí)別展開研究[16]?▋(nèi)基梅隆大學(xué)的CLee和YXu通過CyberGlove數(shù)據(jù)手套獲取手勢信息,并利用隱馬爾可夫模型(HiddenMarkovModel,HMM)對(duì)14種不同手勢進(jìn)行交互識(shí)別[17]。新南威爾士大學(xué)的KadousMW使用數(shù)據(jù)手套采集了95種澳大利亞手語,并利用基于實(shí)例的學(xué)習(xí)和決策樹學(xué)習(xí)的方法對(duì)數(shù)據(jù)集的識(shí)別率達(dá)到80%[18]。LuzaninO采用低成本的5-sensor數(shù)據(jù)手套獲取手勢數(shù)據(jù),并利用三種類型的聚類算法有效地減少了訓(xùn)練數(shù)據(jù)集,最后結(jié)合基于概率神經(jīng)網(wǎng)絡(luò)(PNN)對(duì)手勢進(jìn)行識(shí)別[19]。
第2章Kinect深度傳感器與相關(guān)基礎(chǔ)理論7第2章Kinect深度傳感器與相關(guān)基礎(chǔ)理論2.1Kinect深度傳感器源于消費(fèi)者對(duì)自然人機(jī)交互的渴望與追求,微軟在2010年發(fā)布的體感外設(shè)Kinect1.0取得了空前的成功,當(dāng)時(shí)被吉尼斯世界組織評(píng)為有史以來銷售最快的電子產(chǎn)品。Kinect深度傳感器是一種3D體感攝影機(jī),除了能夠?qū)崟r(shí)捕捉用戶在三維空間的運(yùn)動(dòng)信息,還具備語音辨識(shí)、麥克風(fēng)輸入等多種功能。兩年后,微軟正式發(fā)布了與之配套的KinectforWindowsSDK,開發(fā)者們利用其強(qiáng)大的功能將Kinect廣泛應(yīng)用各個(gè)領(lǐng)域。2014年,微軟又發(fā)布了Kinect2.0,其外觀如圖2.1所示。圖2.1Kinect深度傳感器2.1.1Kinect硬件組成及開發(fā)環(huán)境Kinect2.0的硬件組成主要由PS1080系統(tǒng)級(jí)芯片和信息采集模塊組成,其彩色攝像頭、紅外發(fā)射器和深度攝像頭模塊,用來獲取彩色圖像和深度圖像。彩色攝像頭用來捕獲目標(biāo)場景的高清彩色圖像及視頻信息,平均每秒能夠獲取30幀的圖像數(shù)據(jù);紅外發(fā)射器用來向目標(biāo)區(qū)域發(fā)射脈沖光,深度攝像頭用來接收脈沖光并進(jìn)行分析,創(chuàng)建目標(biāo)區(qū)域可視范圍內(nèi)的深度圖像。另外,配有陣列麥克風(fēng)模塊用來定位聲源及過濾噪聲。Kinect2.0的具體參數(shù)如下表2.1所示:表2.1Kinect2.0具體參數(shù)參數(shù)名設(shè)定值彩色攝像頭分辨率19201080深度攝像頭分辨率512424視野角度水平57,垂直43檢測范圍0.5-4.5m麥克風(fēng)音效6bit,16khz為了實(shí)驗(yàn)性能的需求,Kinect對(duì)開發(fā)環(huán)境也有一定的要求。其硬件方面:要求i52.3GHz以上的CPU,64位處理器及Window8操作系統(tǒng)以上,運(yùn)行內(nèi)存4G以上并具備USB3.0接口的計(jì)算機(jī);其軟件方面主要是微軟提供的KinectforWindowsSDK進(jìn)行開發(fā),其與應(yīng)用程序之間的交互如圖2.2所示。KinectSDK中包含豐富的軟件庫和
【參考文獻(xiàn)】:
期刊論文
[1]基于融合卷積神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾模型[J]. 楊錫慧. 軟件導(dǎo)刊. 2017(12)
[2]一種改進(jìn)的DTW動(dòng)態(tài)手勢識(shí)別方法[J]. 李凱,王永雄,孫一品. 小型微型計(jì)算機(jī)系統(tǒng). 2016(07)
[3]混合現(xiàn)實(shí)中的人機(jī)交互綜述[J]. 黃進(jìn),韓冬奇,陳毅能,田豐,王宏安,戴國忠. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2016(06)
[4]基于Kinect骨骼數(shù)據(jù)的靜態(tài)三維手勢識(shí)別[J]. 李紅波,丁林建,吳渝,冉光勇. 計(jì)算機(jī)應(yīng)用與軟件. 2015(09)
[5]基于YCbCr顏色空間背景建模與手勢陰影消除[J]. 史東承,倪康. 中國光學(xué). 2015(04)
[6]基于顏色均衡和橢圓模型的手勢圖像分割[J]. 嚴(yán)秋鋒,王紅茹,季鳴. 計(jì)算機(jī)仿真. 2015(04)
[7]基于Kinect傳感器的智能輪椅手勢控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 羅元,謝彧,張毅. 機(jī)器人. 2012(01)
[8]手勢識(shí)別技術(shù)及其在人機(jī)交互中的應(yīng)用[J]. 李清水,方志剛,沈模衛(wèi),陳育偉. 人類工效學(xué). 2002(01)
[9]一種面向遙操作的新型數(shù)據(jù)手套研制[J]. 王家順,王田苗,魏軍,韓壯志,游松. 機(jī)器人. 2000(03)
[10]基于DGMM的中國手語識(shí)別系統(tǒng)[J]. 吳江琴,高文. 計(jì)算機(jī)研究與發(fā)展. 2000(05)
博士論文
[1]基于裸手的自然人機(jī)交互關(guān)鍵算法研究[D]. 廖赟.云南大學(xué) 2012
碩士論文
[1]基于Kinect的骨骼追蹤及肢體動(dòng)作識(shí)別研究[D]. 劉嬌.西安工業(yè)大學(xué) 2016
本文編號(hào):3005710
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3005710.html
最近更新
教材專著