基于深度學(xué)習(xí)的手語識(shí)別及步態(tài)預(yù)測
發(fā)布時(shí)間:2024-03-06 23:01
隨著深度學(xué)習(xí)的發(fā)展,手語識(shí)別和步態(tài)預(yù)測作為人機(jī)交互的重要領(lǐng)域獲得了快速發(fā)展。目前手語識(shí)別和步態(tài)預(yù)測的公開數(shù)據(jù)集基本為圖像或者視頻,其研究方法大多是基于這些圖像和視頻,但圖像和視頻容易受到拍攝角度和光照等條件的影響,從而降低性能;趫D像的步態(tài)預(yù)測精度較低,難以在外骨骼機(jī)器人控制中運(yùn)用。為克服現(xiàn)有公開數(shù)據(jù)集的不足,本文提出了基于Kinect、慣性傳感器、壓力傳感器和AirPods的多模態(tài)數(shù)據(jù)集,與基于圖像和視頻的數(shù)據(jù)集相比,基本不受拍攝角度和光照的影響。同時(shí)提出了適合多模態(tài)數(shù)據(jù)集的深度學(xué)習(xí)方法,能有效對采集的手語數(shù)據(jù)集進(jìn)行識(shí)別和步態(tài)數(shù)據(jù)集進(jìn)行預(yù)測。手語數(shù)據(jù)集已在GitHub公開。針對手語識(shí)別,本文搭建了基于數(shù)據(jù)手套、Kinect和AirPods的采集平臺(tái),采集了關(guān)節(jié)角度、圖像、骨骼關(guān)鍵點(diǎn)和語音的多模態(tài)手語數(shù)據(jù)集,數(shù)據(jù)集共包含10句話共250個(gè)動(dòng)作序列的多模態(tài)數(shù)據(jù)。與現(xiàn)有公開數(shù)據(jù)集相比,引入數(shù)據(jù)手套作為采集設(shè)備,采集收據(jù)更加穩(wěn)定,同時(shí)數(shù)據(jù)集有更豐富的表達(dá)能力。針對多模態(tài)手語數(shù)據(jù)集,利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了SLRNet網(wǎng)絡(luò)結(jié)構(gòu),包含6層卷積層、6層批歸一化層和2層全聯(lián)接層,輸入數(shù)...
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3921005
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1論文技術(shù)路線圖
圖2.1卷積層卷積層公式為:
圖2.1卷積層卷積層公式為:=+∈其中為卷積層的輸出,卷積層的輸入為1層特征即,為層通道中的第個(gè)節(jié)點(diǎn)的值,為中被選中的特征區(qū)域,其包含了對應(yīng)1層中所有的通道特征值,、分別為....
圖2.2多種激活函數(shù)Sigmoid函數(shù):()=1(2.4)
(c)ReLU(d)LeakyReLU圖2.2多種激活函數(shù)Sigmoid函數(shù):()=11+(2.4)Sigmoid函數(shù)的輸出值在0到1之間,輸出范圍小,可以使得網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)不會(huì)發(fā)散,在神經(jīng)網(wǎng)絡(luò)剛出現(xiàn)時(shí)被廣泛應(yīng)用,但隨著卷積神經(jīng)網(wǎng)絡(luò)的不....
圖2.3池化層
化公式為:=max∈化公式為:=1∈中第個(gè)通道中的第個(gè)節(jié)點(diǎn),為1層中第個(gè)通道中對化窗口中的節(jié)點(diǎn)個(gè)數(shù)。層網(wǎng)絡(luò)通過卷積層和池化層等可以得到圖像的特征向量,若要像的識(shí)別分類或者目標(biāo)檢測等任務(wù)時(shí),需要將特征向量輸入用的卷積神經(jīng)網(wǎng)絡(luò)中....
本文編號(hào):3921005
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3921005.html
最近更新
教材專著