天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于3D CNN和注意力機制的手語識別方法研究

發(fā)布時間:2021-04-09 01:06
  視頻級的手語識別作為計算機視覺研究領(lǐng)域中的熱點問題之一,被廣泛關(guān)注。手語識別是一項高難度的挑戰(zhàn)性課題,涉及計算機視覺、模式識別、視頻采集和處理以及自然語言處理等多個研究領(lǐng)域。手語識別通過將采集到的手語視頻數(shù)據(jù)進行處理,再翻譯成文字或語音,促進聽障人群和健聽人之間的交流,對于維護社會和諧發(fā)展具有重要的意義。近年來深度學(xué)習(xí)技術(shù)的發(fā)展推動了手語識別領(lǐng)域的研究,但由于手語行為本身的靈活性和細節(jié)性以及較強的時序性要求,手語識別的精度仍然有待提高。本文通過對手語行為進行深入的分析,提出基于三維卷積網(wǎng)絡(luò)和注意力機制的手語識別方法,并在手語數(shù)據(jù)集上進行了評估和驗證,其主要研究內(nèi)容和貢獻如下:(1)針對手語識別的時序性要求以及在可區(qū)分性特征提取方面的困難,提出了基于三維殘差卷積神經(jīng)網(wǎng)絡(luò)的手語孤立詞識別方法,借助于三維卷積網(wǎng)絡(luò)強大的自主學(xué)習(xí)能力,避免了人工設(shè)計特征,實現(xiàn)自適應(yīng)學(xué)習(xí)。以手語RGB視頻流作為輸入,利用滑動窗口對視頻流進行分段,通過三維卷積網(wǎng)絡(luò)同時捕獲時空特征,實現(xiàn)其手語分類,并驗證了本方法的有效性。(2)針對手語識別過程中存在的細節(jié)復(fù)雜性和手語動作變化的不確定性,本文依據(jù)人眼視覺注意力的特點,... 

【文章來源】:青島科技大學(xué)山東省

【文章頁數(shù)】:71 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于3D CNN和注意力機制的手語識別方法研究


基于線性可分的SVM示意圖

示意圖,核函數(shù),線性,示意圖


青島科技大學(xué)研究生學(xué)位論文13圖2-2利用核函數(shù)解決線性不可分的SVM示意圖Fig.2-2SVMdiagrambyKernelfunctiontosolvethelinearindivisible核函數(shù)主要有線性核函數(shù)、多項式核函數(shù)以及高斯核函數(shù)等,其中最為普遍的則是高斯核函數(shù),其主要目的是將低維空間映射到高維特征空間,從而實現(xiàn)對原本空間線性不可分的分類問題。2.1.2基于動態(tài)規(guī)整(DTW)的識別方法動態(tài)時間規(guī)整算法是一種基于時間序列比對的識別算法,該算法最早是由Itakura[36]提出,用于語音信號識別,后來由于其高效率的識別模式,被廣泛引入到手勢識別、數(shù)據(jù)挖掘等相關(guān)領(lǐng)域,逐漸發(fā)展成為模式識別中較為普遍的一種識別算法。該算法主要是用于解決時間序列相關(guān)性的問題,其主要目的是求解規(guī)整函數(shù)的最小值,并衡量不同長度的兩個序列之間的相似度,主要方法是利用時間規(guī)整函數(shù)去描述測試模板和參考模板之間的時間對應(yīng)關(guān)系。動態(tài)時間規(guī)整算法的提出為時間序列應(yīng)用中的多數(shù)問題提供了可能,克服了傳統(tǒng)歐式距離方法的弊端,但在處理多時間序列時,由于其匹配模板較多,速度較慢且比較耗時;贒TW算法的不足,后續(xù)有很多研究者進行了深入的研究,對動態(tài)規(guī)整算法進行了改進,提出了較為高效的動態(tài)時間規(guī)整算法。例如FastDTW[37]、SparseDTW[38]、LB_Keogh[39]以及LB_Improved等,以上改進的DTW算法旨在加速匹配進程,提高識別效率。動態(tài)時間規(guī)整算法是用來計算待測試樣本和模板之間的距離,如圖2-3所示,給定一個固定的標(biāo)準(zhǔn)模板R,RA,B,C,D,E,F向量,其中字母表示常數(shù),再給定一個測試模板T1,2,3,4,由于兩大模板的長度不同,現(xiàn)在需要計算出R和T之間的距離,因此并不適用于傳統(tǒng)的距離相似性算法,如歐氏距離等。因此,

示意圖,算法,原理,示意圖


基于3DCNN和注意力機制的手語識別方法研究14基于給定的模板利用動態(tài)時間規(guī)整算法進行模板匹配相似性的度量。首先我們需要列出模板所示的矩陣,分別利用傳統(tǒng)的距離衡量方法計算出R與T模板每個元素之間的距離,如圖2-3(a)所示。然后,再找到最短匹配路徑。此路徑必須滿足:行走代價最小和只能往上和往右走而不能往回走。(a)(b)(c)圖2-3DTW算法原理示意圖Fig.2-3SchematicdiagramofDTWalgorithm假定gi,j表示走到第i,j位置時的總距離,那么可以計算其值gi,j:1,,i,j1,12,,1,gijdijggijdijgijdij(2.12)其中di,j表示測試模板元素和標(biāo)準(zhǔn)模板元素之間的距離,此距離可以基于歐氏距離測量法進行計算。當(dāng)路徑從左往下或從下往上走時,即為截至目前為止的總距離,而當(dāng)需要沿著對角線往上走時,總距離為2倍的距離代價。根據(jù)上式便可以得到圖2-3中(b)所示,其中每個元素右上角的數(shù)字即為gi,j的值。直到計算到右上角最頂端的元素,如上例所示,從矩陣左下角的元素走到右上角最頂端的元素的最小距離為26,從而通過計算gi,j的過程路徑,可以得到圖2-3中(c)所示的最終回溯路徑。至此,DTW算法便執(zhí)行完,以上我們不僅可以得到不同時間長度的兩個模板之間的距離關(guān)系,而且還可以獲得該距離的對應(yīng)路徑。在手語識別任務(wù)中,可以利用DTW算法將目標(biāo)手語特征與訓(xùn)練得到的特征進行距離相關(guān)性的計算。當(dāng)測試數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)樣本之間計算距離時,得到的最小距離即為該對應(yīng)模板的最相似的手語詞匯,距離值越小,相似度越大,從而實現(xiàn)手語的準(zhǔn)確識別。但在計算DTW距離時,由于所選模板的不同也會帶來識別結(jié)果的誤差,模板選取方式的不同(如選擇其中的任意一個、取平均長度或者選


本文編號:3126612

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3126612.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37fe2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com