分類指導(dǎo)回歸的手勢估計
本文選題:手勢估計 + 關(guān)鍵點(diǎn) ; 參考:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文
【摘要】:隨著智能家居和智能設(shè)備的普及發(fā)展,在人們的日常生活中人與設(shè)備之間的信息交互將會變得越來越頻繁。特別隨著計算機(jī)和人工智能的發(fā)展,更加符合人類交流方式的無接觸式人機(jī)交互技術(shù)研究領(lǐng)域?qū)兊萌遮吇钴S。這些研究領(lǐng)域包括了眼球跟蹤技術(shù)、語音識別技術(shù)、人臉面部表情識別技術(shù)、唇語識別技術(shù)、人臉識別技術(shù)、手勢識別技術(shù)和身體姿勢識別技術(shù)等等。由于手勢信息量豐富并且交互運(yùn)動具有自然舒適無約束的特點(diǎn),所以手勢交互技術(shù)是未來人機(jī)交互領(lǐng)域的重要研究方向。由于人手體積較小,移動速度和方向變化快,手指的自由度非常高,各個手指之間具有極強(qiáng)的外觀相似性并且非常容易相互遮擋,因此如何基于視覺快速精確地估計出人手三維關(guān)鍵點(diǎn)是一個非常具有挑戰(zhàn)性的研究課題。針對復(fù)雜高維度的手勢空間和大視角高遮擋的情形,本文基于"分而治之"的思想提出了一種分類指導(dǎo)回歸的手勢三維關(guān)鍵點(diǎn)估計方法。該方法將一個困難復(fù)雜的手勢回歸任務(wù)劃分成多個相對更容易的子任務(wù),對每一個子任務(wù)學(xué)習(xí)一個其專屬的回歸模型,從而避免了僅靠單一模型無法很好地處理所有情況的問題。首先離線訓(xùn)練一個以深度圖作為輸入的深度卷積神經(jīng)網(wǎng)絡(luò)分類器GoogLeNet。不同于之前手勢分類器是按照相機(jī)視角不同來劃分類別,本文的分類器是按照剛性對齊的手勢不同來劃分類別。對于手勢分類器所能預(yù)測的所有類別,分別離線訓(xùn)練一個對應(yīng)于類別的級聯(lián)隨機(jī)森林回歸器。在測試階段,輸入深度圖到手勢分類器直接預(yù)測出一個手勢類別,然后再次把深度圖送入預(yù)測類別對應(yīng)的級聯(lián)隨機(jī)森林回歸器,最終輸出相機(jī)坐標(biāo)系下的人手關(guān)鍵點(diǎn)三維坐標(biāo)。密集豐富的實驗驗證了本文提出的分類指導(dǎo)回歸算法的高效性和有效性。從定性角度來看,本文分類指導(dǎo)回歸算法大幅度地領(lǐng)先于全體樣本整體回歸算法。與其他的優(yōu)秀算法相比較來看,本文分類指導(dǎo)回歸算法依然能夠在大多數(shù)最大允許誤差閾值區(qū)間內(nèi)領(lǐng)先于其他優(yōu)秀算法。從定性角度來看,本文方法不但能夠處理好復(fù)雜的大角度高遮擋的手勢情形,同時還能保持很高的幀率,完全能夠滿足實時精確的應(yīng)用場景。
[Abstract]:With the development of smart home and intelligent devices, the information interaction between people and devices will become more and more frequent in people's daily life. Especially with the development of computer and artificial intelligence, the research field of contactless human-computer interaction, which is more suitable for human communication, will become more and more active. These research fields include eyeball tracking technology, speech recognition technology, facial expression recognition technology, lip recognition technology, face recognition technology, gesture recognition technology and body posture recognition technology. Because gesture information is abundant and interactive motion is natural comfortable and unconstrained gesture interaction technology is an important research direction in the field of human-computer interaction in the future. Because of the small size of the hands, the speed and direction of movement, the degree of freedom of the fingers is very high, the appearance of each finger is very similar and it is very easy to block each other. Therefore, how to estimate the human hand 3D key points quickly and accurately based on vision is a very challenging research topic. In view of the complex high dimensional gesture space and the large angle of view and high occlusion, based on the idea of "divide and conquer", this paper proposes a method to estimate the three dimensional key points of gesture guided by classification and regression. In this method, a difficult and complex gesture regression task is divided into several relatively easy sub-tasks, and each subtask is taught a unique regression model. Thus, the problem that a single model can not handle all cases well is avoided. First, a depth convolution neural network classifier Google LeNet, which uses depth map as input, is trained offline. Different from the previous gesture classifier which is classified according to the camera angle of view, the classifier in this paper is classified according to the rigid alignment of different gestures. For all categories predicted by gesture classifier, a cascaded stochastic forest regression is trained offline. In the test stage, the depth map is input into the gesture classifier to predict a gesture category directly, and then the depth map is sent into the cascade random forest regression corresponding to the prediction category again, and the 3D coordinate of the key points of the hand in camera coordinate system is output. Intensive experiments demonstrate the effectiveness and efficiency of the classification guidance regression algorithm proposed in this paper. From the qualitative point of view, the classification guidance regression algorithm is significantly ahead of the whole sample regression algorithm. Compared with other excellent algorithms, this classification guidance regression algorithm is still ahead of other excellent algorithms in most of the maximum allowable error threshold range. From the qualitative point of view, this method can not only deal with the complex large angle and high occlusion gesture situation, but also maintain a high frame rate, which can meet the real-time and accurate application scenarios.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.41
【相似文獻(xiàn)】
相關(guān)期刊論文 前8條
1 徐愈;;智慧城市需加強(qiáng)分類指導(dǎo)[J];中國經(jīng)濟(jì)和信息化;2013年15期
2 徐愈;;徐愈:智慧城市需加強(qiáng)分類指導(dǎo)[J];計算機(jī)光盤軟件與應(yīng)用;2014年08期
3 朱振華;大班教學(xué)中的分類指導(dǎo)[J];信息工程學(xué)院學(xué)報;1995年02期
4 郭作玉;;首要任務(wù)、全方位推進(jìn)與分類指導(dǎo)[J];中國信息界;2008年02期
5 秦育海;崔開東;;抓住“青、重、遠(yuǎn)”帶動一大片——射陽郵電局運(yùn)用分類指導(dǎo)的辦法開展職教工作[J];通信企業(yè)管理;1993年12期
6 李世勛;分級包抓 分類指導(dǎo)[J];中國檔案;2005年05期
7 ;內(nèi)蒙古呼包鄂:對示范企業(yè)重點(diǎn)企業(yè)分類指導(dǎo)[J];信息系統(tǒng)工程;2010年02期
8 王長杰;王衛(wèi)華;;灰度散布分類指導(dǎo)挖掘的高類似度文本分類[J];科技通報;2014年04期
相關(guān)會議論文 前2條
1 陳龍明;趙霆;徐冰;孫家偉;;一次新型系統(tǒng)培訓(xùn)淺析[A];中國金屬學(xué)會2004’冶金安全年會論文集[C];2004年
2 張曉瓊;;建國初期中國共產(chǎn)黨分類指導(dǎo)少數(shù)民族地區(qū)民主改革略論——以云南為個案的歷史考察[A];“蘇東劇變20年與當(dāng)代世界社會主義”學(xué)術(shù)研討會暨當(dāng)代世界社會主義專業(yè)委員會2011年年會會議論文集[C];2011年
相關(guān)重要報紙文章 前10條
1 本報評論員;堅持分類指導(dǎo)務(wù)必有的放矢[N];黑龍江日報;2013年
2 劉綠林;州委召開常委(擴(kuò)大)會議專題研究貫徹《省委省政府關(guān)于分類指導(dǎo)加快推進(jìn)全面建成小康社會的意見》[N];團(tuán)結(jié)報;2013年
3 記者 柳德新 通訊員 胡學(xué)翔;分類指導(dǎo)當(dāng)前防汛工作[N];湖南日報;2014年
4 記者 華謙;因地制宜 分類指導(dǎo) 持續(xù)實踐 提升完善[N];平頂山日報;2014年
5 本報評論員;堅持分類指導(dǎo)務(wù)必有的放矢[N];永州日報;2014年
6 記者 李耿;加強(qiáng)分類指導(dǎo) 推進(jìn)精準(zhǔn)扶貧[N];廣西日報;2014年
7 周組;選址要因村制宜分類指導(dǎo)合理布局[N];祁連山報;2007年
8 本報評論員;結(jié)合實際 分類指導(dǎo)[N];人民日報;2008年
9 本報評論員;區(qū)別情況分類指導(dǎo)[N];解放軍報;2009年
10 朱殿波、劉亞洲;分類指導(dǎo) 梯次培養(yǎng) 全程幫帶[N];人民武警;2009年
相關(guān)碩士學(xué)位論文 前2條
1 楊宏偉;分類指導(dǎo)回歸的手勢估計[D];中國科學(xué)技術(shù)大學(xué);2017年
2 殷叢叢;我國政府對高校分類指導(dǎo)的協(xié)商機(jī)制[D];山東大學(xué);2012年
,本文編號:1956864
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1956864.html