基于深度學(xué)習(xí)的人體骨架點(diǎn)檢測(cè)
發(fā)布時(shí)間:2020-12-24 02:27
人體骨架點(diǎn)檢測(cè)是指對(duì)圖像或者視頻中的人體進(jìn)行主要關(guān)節(jié)點(diǎn)定位的過(guò)程,其作用是服務(wù)于人體動(dòng)作的分類或識(shí)別。安全監(jiān)控,人機(jī)交互,數(shù)字娛樂(lè),體育分析等領(lǐng)域都離不開(kāi)對(duì)人體動(dòng)作的分析。因此,對(duì)人體骨架點(diǎn)檢測(cè)的深入研究,有著廣闊的應(yīng)用前景。人體骨骼關(guān)鍵點(diǎn)的定位是計(jì)算機(jī)視覺(jué)領(lǐng)域中最具挑戰(zhàn)性的任務(wù)之一。一方面,人體姿態(tài)和觀察角度的多樣性,關(guān)節(jié)點(diǎn)遮擋和自遮擋,光照和背景環(huán)境的復(fù)雜性等因素的存在,提高了關(guān)節(jié)點(diǎn)定位的復(fù)雜度;另一方面,很多應(yīng)用場(chǎng)景不僅對(duì)關(guān)節(jié)點(diǎn)定位的準(zhǔn)確性要求高,還要求具有較好的實(shí)時(shí)性。傳統(tǒng)的視覺(jué)算法在如此多的復(fù)雜因素下,已經(jīng)很難滿足應(yīng)用高準(zhǔn)確率的需求,而當(dāng)下火熱的深度學(xué)習(xí)雖然在精度上有著很大的提高,但是大部分情況下他們是離線的,尤其在應(yīng)用要求三維骨架點(diǎn)定位時(shí),單幀或單幅圖片的處理速度很慢,對(duì)硬件的需求很高,并且實(shí)時(shí)性需求很難滿足。針對(duì)上述問(wèn)題,本文改進(jìn)和優(yōu)化Stacked Hourglass網(wǎng)絡(luò),提高了單人骨架點(diǎn)檢測(cè)的速度與精度。改進(jìn)和優(yōu)化了主流目標(biāo)檢測(cè)算法,提高了人體檢測(cè)的精度。結(jié)合改進(jìn)和優(yōu)化后的目標(biāo)檢測(cè)算法與單人骨架點(diǎn)定位算法,實(shí)現(xiàn)了基于圖像和視頻的多人骨架點(diǎn)檢測(cè)。并且利用雙目相機(jī)實(shí)現(xiàn)了三...
【文章來(lái)源】:濟(jì)南大學(xué)山東省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
應(yīng)用場(chǎng)景在智能時(shí)代,視頻監(jiān)控在車站、超市、銀行等關(guān)系人民財(cái)產(chǎn)和人身安全的重要場(chǎng)所
基于深度學(xué)習(xí)的骨架點(diǎn)檢測(cè)根據(jù)分析結(jié)果發(fā)出相關(guān)信息或者指令。近年來(lái),很多先進(jìn)的服務(wù)型機(jī)器人都安裝了該系統(tǒng),使得機(jī)器人不僅能夠通過(guò)語(yǔ)音來(lái)識(shí)別用戶的請(qǐng)求,也可以通過(guò)識(shí)別用戶的動(dòng)作來(lái)響應(yīng)用戶的需求,而且結(jié)合二者可以使機(jī)器人判斷的準(zhǔn)確率更高。數(shù)字娛樂(lè),包括 3D 體感游戲、電視動(dòng)畫(huà)和電影,近年來(lái)已發(fā)展為一個(gè)巨大的產(chǎn)業(yè),人們喜歡游戲帶來(lái)的樂(lè)趣,通過(guò)分析人體動(dòng)作,游戲角色會(huì)做出及時(shí)的對(duì)應(yīng)的響應(yīng),使得游戲更加真實(shí),提高了用戶的體驗(yàn)。此外,人體骨架點(diǎn)檢測(cè)在體育分析、輔助醫(yī)療、視頻檢索等領(lǐng)域也有著明顯的應(yīng)用。但是,現(xiàn)實(shí)生活中,很多應(yīng)用場(chǎng)景對(duì)人體骨架點(diǎn)檢測(cè)的準(zhǔn)確性要求很高,而且速度上有實(shí)時(shí)性的需求,這使得現(xiàn)階段人體骨架點(diǎn)檢測(cè)的研究成果遠(yuǎn)遠(yuǎn)落后于市場(chǎng)需求。其主要原因是在實(shí)現(xiàn)人體骨架點(diǎn)定位的過(guò)程中,往往存在一些難以解決的干擾因素。圖 1.2顯示了自然場(chǎng)景圖像或視頻中人體骨架點(diǎn)檢測(cè)常見(jiàn)的難點(diǎn)。
因此,本文著重研究自然場(chǎng)景圖像或視頻中的靜態(tài)/動(dòng)態(tài)人體骨架點(diǎn)檢測(cè)問(wèn)題,實(shí)現(xiàn)精度和速度的雙重提高,這一點(diǎn)符合社會(huì)市場(chǎng)的實(shí)際需求,具有重要的意義。1.2 相關(guān)領(lǐng)域研究現(xiàn)狀人體的骨架點(diǎn)檢測(cè)可分為單人骨架點(diǎn)檢測(cè),多人骨架點(diǎn)檢測(cè)以及三維骨架點(diǎn)檢測(cè)。近年來(lái),基于深度學(xué)習(xí)的單人骨架點(diǎn)檢測(cè)技術(shù)在精度上大大超過(guò)了傳統(tǒng)的方法,其發(fā)展歷程已經(jīng)從傳統(tǒng)方法發(fā)展到卷積神經(jīng)網(wǎng)(Convolutional Neural Networks, CNN),進(jìn)而發(fā)展到更深的卷積神經(jīng)網(wǎng)絡(luò)(DCNNS)。取得較好效果的多人骨架點(diǎn)檢測(cè)大多也都是基于深度學(xué)習(xí)的方法,主流的研究方法可分為兩類:一種是自頂向下(top-down)的方法,先檢測(cè)人,確定人體位置后再在人體所在區(qū)域識(shí)別個(gè)體姿態(tài),對(duì)每個(gè)人體做單人骨架點(diǎn)檢測(cè);另一種是自底向上(bottom-up)的方法,先定位關(guān)節(jié)點(diǎn),再去連線區(qū)分關(guān)節(jié)點(diǎn)屬于誰(shuí)。三維的骨架點(diǎn)檢測(cè)則可分為基于二維關(guān)節(jié)坐標(biāo)的三維骨架點(diǎn)檢測(cè),基于圖像的三維骨架點(diǎn)檢測(cè)和多相機(jī)視圖場(chǎng)景中單幀圖像的三維骨架點(diǎn)檢測(cè)。
本文編號(hào):2934798
【文章來(lái)源】:濟(jì)南大學(xué)山東省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
應(yīng)用場(chǎng)景在智能時(shí)代,視頻監(jiān)控在車站、超市、銀行等關(guān)系人民財(cái)產(chǎn)和人身安全的重要場(chǎng)所
基于深度學(xué)習(xí)的骨架點(diǎn)檢測(cè)根據(jù)分析結(jié)果發(fā)出相關(guān)信息或者指令。近年來(lái),很多先進(jìn)的服務(wù)型機(jī)器人都安裝了該系統(tǒng),使得機(jī)器人不僅能夠通過(guò)語(yǔ)音來(lái)識(shí)別用戶的請(qǐng)求,也可以通過(guò)識(shí)別用戶的動(dòng)作來(lái)響應(yīng)用戶的需求,而且結(jié)合二者可以使機(jī)器人判斷的準(zhǔn)確率更高。數(shù)字娛樂(lè),包括 3D 體感游戲、電視動(dòng)畫(huà)和電影,近年來(lái)已發(fā)展為一個(gè)巨大的產(chǎn)業(yè),人們喜歡游戲帶來(lái)的樂(lè)趣,通過(guò)分析人體動(dòng)作,游戲角色會(huì)做出及時(shí)的對(duì)應(yīng)的響應(yīng),使得游戲更加真實(shí),提高了用戶的體驗(yàn)。此外,人體骨架點(diǎn)檢測(cè)在體育分析、輔助醫(yī)療、視頻檢索等領(lǐng)域也有著明顯的應(yīng)用。但是,現(xiàn)實(shí)生活中,很多應(yīng)用場(chǎng)景對(duì)人體骨架點(diǎn)檢測(cè)的準(zhǔn)確性要求很高,而且速度上有實(shí)時(shí)性的需求,這使得現(xiàn)階段人體骨架點(diǎn)檢測(cè)的研究成果遠(yuǎn)遠(yuǎn)落后于市場(chǎng)需求。其主要原因是在實(shí)現(xiàn)人體骨架點(diǎn)定位的過(guò)程中,往往存在一些難以解決的干擾因素。圖 1.2顯示了自然場(chǎng)景圖像或視頻中人體骨架點(diǎn)檢測(cè)常見(jiàn)的難點(diǎn)。
因此,本文著重研究自然場(chǎng)景圖像或視頻中的靜態(tài)/動(dòng)態(tài)人體骨架點(diǎn)檢測(cè)問(wèn)題,實(shí)現(xiàn)精度和速度的雙重提高,這一點(diǎn)符合社會(huì)市場(chǎng)的實(shí)際需求,具有重要的意義。1.2 相關(guān)領(lǐng)域研究現(xiàn)狀人體的骨架點(diǎn)檢測(cè)可分為單人骨架點(diǎn)檢測(cè),多人骨架點(diǎn)檢測(cè)以及三維骨架點(diǎn)檢測(cè)。近年來(lái),基于深度學(xué)習(xí)的單人骨架點(diǎn)檢測(cè)技術(shù)在精度上大大超過(guò)了傳統(tǒng)的方法,其發(fā)展歷程已經(jīng)從傳統(tǒng)方法發(fā)展到卷積神經(jīng)網(wǎng)(Convolutional Neural Networks, CNN),進(jìn)而發(fā)展到更深的卷積神經(jīng)網(wǎng)絡(luò)(DCNNS)。取得較好效果的多人骨架點(diǎn)檢測(cè)大多也都是基于深度學(xué)習(xí)的方法,主流的研究方法可分為兩類:一種是自頂向下(top-down)的方法,先檢測(cè)人,確定人體位置后再在人體所在區(qū)域識(shí)別個(gè)體姿態(tài),對(duì)每個(gè)人體做單人骨架點(diǎn)檢測(cè);另一種是自底向上(bottom-up)的方法,先定位關(guān)節(jié)點(diǎn),再去連線區(qū)分關(guān)節(jié)點(diǎn)屬于誰(shuí)。三維的骨架點(diǎn)檢測(cè)則可分為基于二維關(guān)節(jié)坐標(biāo)的三維骨架點(diǎn)檢測(cè),基于圖像的三維骨架點(diǎn)檢測(cè)和多相機(jī)視圖場(chǎng)景中單幀圖像的三維骨架點(diǎn)檢測(cè)。
本文編號(hào):2934798
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2934798.html
最近更新
教材專著