基于Mask R-CNN的自然手勢分割及其語義識別
發(fā)布時間:2021-06-09 05:17
手勢作為一種人與人之間簡便、直觀的交互形式,隨著人工智能和計算機視覺的迅速發(fā)展,對手勢的識別也從過去的利用各種外界輔助設(shè)備到基于計算機視覺的研究階段。而增強現(xiàn)實作為當前一種新興的人機交互技術(shù),將真實世界場景與計算機所生成的文字、圖像、音頻、視頻等虛擬信息相結(jié)合,利用計算機生成的虛擬信息對真實世界進行補充,使虛擬信息與真實環(huán)境可以實時的顯示在同一畫面或空間,從而能夠更加直觀地觀察分析現(xiàn)實場景中的數(shù)據(jù)信息和物理對象,是近年來國內(nèi)外眾多學(xué)者的研究熱點之一。將自然手勢用于增強現(xiàn)實系統(tǒng),通過自然手勢與虛擬物體之間的交互,力求解決增強現(xiàn)實在場景中虛實交互的一些主要問題,使其能夠營造更加具有沉浸感的交互體驗。為了實現(xiàn)對自然手勢精細的分割與精準的語義識別,綜合考慮現(xiàn)有手勢識別算法存在的識別率較低、魯棒性差、分割準確性不佳等缺點與不足,本文提出了一種基于Mask R-CNN的手勢分割與識別方法。該方法通過使用基于多尺度特征融合的特征金字塔網(wǎng)絡(luò)、優(yōu)化候選窗口分類器、引入基于評分策略的像素級分割掩碼,實現(xiàn)自然手勢的精準分割與識別。首先,對Mask R-CNN主干網(wǎng)絡(luò)中的特征金字塔網(wǎng)絡(luò)進行多尺度特征融合,使其...
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
增強現(xiàn)實應(yīng)用
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-9-對自然手勢的像素級別的檢測與分割,研究自然手勢的分割及其語義識別,并對自然手勢進行手勢識別,獲取手勢的位置和分割結(jié)果,實現(xiàn)手勢與虛擬物體的遮擋,完成手勢與虛擬物體簡單的交互操作。目標旨在通過神經(jīng)網(wǎng)絡(luò)對自然手勢進行分割識別,最大限度完成自然手勢與虛擬物體的交互,保證虛實交互的效果和系統(tǒng)的實時性。圖1.3課題研究框架本文的整體框架如圖1.3所示。本文研究內(nèi)容是以手勢為研究對象,對手勢進行分割與識別,主要針對以下幾方面進行研究:(1)研究和分析當前國內(nèi)外已有的目標檢測方法,并總結(jié)出各個方法的優(yōu)缺點,在主流目標檢測方法研究的基礎(chǔ)上,分析了目標檢測的精確性與魯棒性,然后確定使用基于MaskR-CNN的目標檢測方法;(2)綜合考慮手部的姿態(tài)、膚色等各種手勢信息,對手勢圖像數(shù)據(jù)進行采集;為防止因圖像數(shù)據(jù)量較少造成訓(xùn)練過程中產(chǎn)生的過擬合問題,對采集后的圖像進行數(shù)據(jù)增強操作;最后,將最終的數(shù)據(jù)集實施預(yù)處理操作;(3)為了使MaskR-CNN能夠更準確、高效地檢測、分割、識別手勢,對該算法的特征金字塔網(wǎng)絡(luò)、候選窗口分類器以及實例分割掩碼進行優(yōu)化改進;(4)獲取手部的位置信息與分割結(jié)果,和虛擬物體進行位置檢測,實現(xiàn)與虛擬物體的虛實遮擋;
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-12-圖2.1增強現(xiàn)實系統(tǒng)一個典型的增強現(xiàn)實系統(tǒng)[73]組成結(jié)構(gòu)如圖2.1所示,主要由虛擬場景生成單元、顯示器和跟蹤定位設(shè)備(如頭盔)等交互設(shè)備構(gòu)成。其中,虛擬場景生成單元用于場景模型的構(gòu)建、管理、繪制和其余外設(shè)的管理;顯示器主要用于實時傳遞顯示真實世界與虛擬對象融合后的信號;頭戴式跟蹤定位設(shè)備用于跟蹤對象在真實世界里的坐標與視域;交互設(shè)備主要用于完成環(huán)境控制信號與感官信號的輸入與輸出。增強實現(xiàn)系統(tǒng)主要使用傳感器與攝像頭獲取現(xiàn)實場景中的圖像或視頻,將其傳到后端處理單元進行重構(gòu)與分析。然后,根據(jù)頭戴式跟蹤定位設(shè)備獲取的數(shù)據(jù)對現(xiàn)實場景與虛擬場景的相對位置分析,實現(xiàn)現(xiàn)實世界與虛擬世界中坐標的對齊和統(tǒng)一,并對虛擬場景進行融合計算。接著,利用交互設(shè)備獲取外部控制信號,完成對虛實融合場景中的交互功能。最后,將經(jīng)系統(tǒng)處理融合的信息實時顯示于顯示器的屏幕上,從而呈現(xiàn)在用戶視野中。2.1.3增強現(xiàn)實技術(shù)的關(guān)鍵增強現(xiàn)實技術(shù)通過對輸入圖像的處理、組織,構(gòu)建實景空間,計算機生成的虛擬對象根據(jù)級和一致性放置于實景空間中,形成虛實融合的增強現(xiàn)實場景,再將內(nèi)容輸出到顯示屏幕上,用戶通過交互設(shè)備與場景中的虛擬對象進行互動。其中,虛擬對象的生成與虛實場景融合的跟蹤注冊、與虛擬對象的交互部分非常關(guān)鍵,通過輸出顯示直接決定了最終的用戶體驗感受。所以,三維注冊、虛實融合顯示、人機交互使曾慶心事技術(shù)研究過程中的三大關(guān)鍵。三維注冊決定了虛擬信息在三維的真實場景的位置與真實場景是否完美疊加,這是評價一個增強現(xiàn)實應(yīng)用優(yōu)劣的關(guān)鍵。因此,三維注冊技術(shù)是增強現(xiàn)實技術(shù)科研過程中的難點與重點。三維注冊的任務(wù)主要是能夠?qū)崟r檢測真實場景中的攝像頭中
本文編號:3220017
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
增強現(xiàn)實應(yīng)用
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-9-對自然手勢的像素級別的檢測與分割,研究自然手勢的分割及其語義識別,并對自然手勢進行手勢識別,獲取手勢的位置和分割結(jié)果,實現(xiàn)手勢與虛擬物體的遮擋,完成手勢與虛擬物體簡單的交互操作。目標旨在通過神經(jīng)網(wǎng)絡(luò)對自然手勢進行分割識別,最大限度完成自然手勢與虛擬物體的交互,保證虛實交互的效果和系統(tǒng)的實時性。圖1.3課題研究框架本文的整體框架如圖1.3所示。本文研究內(nèi)容是以手勢為研究對象,對手勢進行分割與識別,主要針對以下幾方面進行研究:(1)研究和分析當前國內(nèi)外已有的目標檢測方法,并總結(jié)出各個方法的優(yōu)缺點,在主流目標檢測方法研究的基礎(chǔ)上,分析了目標檢測的精確性與魯棒性,然后確定使用基于MaskR-CNN的目標檢測方法;(2)綜合考慮手部的姿態(tài)、膚色等各種手勢信息,對手勢圖像數(shù)據(jù)進行采集;為防止因圖像數(shù)據(jù)量較少造成訓(xùn)練過程中產(chǎn)生的過擬合問題,對采集后的圖像進行數(shù)據(jù)增強操作;最后,將最終的數(shù)據(jù)集實施預(yù)處理操作;(3)為了使MaskR-CNN能夠更準確、高效地檢測、分割、識別手勢,對該算法的特征金字塔網(wǎng)絡(luò)、候選窗口分類器以及實例分割掩碼進行優(yōu)化改進;(4)獲取手部的位置信息與分割結(jié)果,和虛擬物體進行位置檢測,實現(xiàn)與虛擬物體的虛實遮擋;
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-12-圖2.1增強現(xiàn)實系統(tǒng)一個典型的增強現(xiàn)實系統(tǒng)[73]組成結(jié)構(gòu)如圖2.1所示,主要由虛擬場景生成單元、顯示器和跟蹤定位設(shè)備(如頭盔)等交互設(shè)備構(gòu)成。其中,虛擬場景生成單元用于場景模型的構(gòu)建、管理、繪制和其余外設(shè)的管理;顯示器主要用于實時傳遞顯示真實世界與虛擬對象融合后的信號;頭戴式跟蹤定位設(shè)備用于跟蹤對象在真實世界里的坐標與視域;交互設(shè)備主要用于完成環(huán)境控制信號與感官信號的輸入與輸出。增強實現(xiàn)系統(tǒng)主要使用傳感器與攝像頭獲取現(xiàn)實場景中的圖像或視頻,將其傳到后端處理單元進行重構(gòu)與分析。然后,根據(jù)頭戴式跟蹤定位設(shè)備獲取的數(shù)據(jù)對現(xiàn)實場景與虛擬場景的相對位置分析,實現(xiàn)現(xiàn)實世界與虛擬世界中坐標的對齊和統(tǒng)一,并對虛擬場景進行融合計算。接著,利用交互設(shè)備獲取外部控制信號,完成對虛實融合場景中的交互功能。最后,將經(jīng)系統(tǒng)處理融合的信息實時顯示于顯示器的屏幕上,從而呈現(xiàn)在用戶視野中。2.1.3增強現(xiàn)實技術(shù)的關(guān)鍵增強現(xiàn)實技術(shù)通過對輸入圖像的處理、組織,構(gòu)建實景空間,計算機生成的虛擬對象根據(jù)級和一致性放置于實景空間中,形成虛實融合的增強現(xiàn)實場景,再將內(nèi)容輸出到顯示屏幕上,用戶通過交互設(shè)備與場景中的虛擬對象進行互動。其中,虛擬對象的生成與虛實場景融合的跟蹤注冊、與虛擬對象的交互部分非常關(guān)鍵,通過輸出顯示直接決定了最終的用戶體驗感受。所以,三維注冊、虛實融合顯示、人機交互使曾慶心事技術(shù)研究過程中的三大關(guān)鍵。三維注冊決定了虛擬信息在三維的真實場景的位置與真實場景是否完美疊加,這是評價一個增強現(xiàn)實應(yīng)用優(yōu)劣的關(guān)鍵。因此,三維注冊技術(shù)是增強現(xiàn)實技術(shù)科研過程中的難點與重點。三維注冊的任務(wù)主要是能夠?qū)崟r檢測真實場景中的攝像頭中
本文編號:3220017
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3220017.html
最近更新
教材專著