姿態(tài)自適應(yīng)的人體行為識(shí)別研究
發(fā)布時(shí)間:2022-02-14 13:58
基于靜態(tài)圖像的人體行為識(shí)別是計(jì)算機(jī)視覺的主要研究方向之一,其研究的目標(biāo)是給定一幅靜態(tài)圖像,識(shí)別出圖像中的人物主體在做什么。靜態(tài)圖像的人體行為識(shí)別方法可分為兩大類:一是將其視為一般的圖像分類問題,即不考慮人體行為獨(dú)有的特性對(duì)圖像直接進(jìn)行分類;二是通過挖掘和行為相關(guān)的關(guān)鍵因素(如人體姿態(tài)、物體和場(chǎng)景等)來獲得更有效的行為特征,從而進(jìn)行識(shí)別。深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使計(jì)算機(jī)視覺各個(gè)領(lǐng)域的性能都大幅度提升,同樣,也使基于靜態(tài)圖像的人體行為識(shí)別更加滿足實(shí)際應(yīng)用需求。但由于拍攝視角、人在執(zhí)行同一行為時(shí)的姿態(tài)多樣性等因素,使人體行為在二維靜態(tài)圖像上呈現(xiàn)出的外觀特征復(fù)雜多樣,從而使該識(shí)別問題變的非常困難。本文從三個(gè)角度來解決這一問題:一是將其視為一般的圖像分類問題,借助稀疏編碼和字典學(xué)習(xí)方法增強(qiáng)圖像局部特征的表示能力;二是建模和行為相關(guān)的場(chǎng)景、姿態(tài)關(guān)鍵因素,借助深度學(xué)習(xí)方法進(jìn)一步增強(qiáng)圖像表示能力;三是利用視頻序列為靜態(tài)圖像補(bǔ)充動(dòng)態(tài)信息,豐富靜態(tài)圖像的行為表示。最后,將該課題和實(shí)際應(yīng)用相結(jié)合,研究其在移動(dòng)端的優(yōu)化及部署方式。本文主要工作和貢獻(xiàn)如下:(1)針對(duì)傳統(tǒng)字典學(xué)習(xí)方法使用基于主成分分析降維的空間金字塔...
【文章來源】:東南大學(xué)江蘇省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
本文章節(jié)組織結(jié)構(gòu)框圖
第二章基于字典學(xué)習(xí)和稀疏編碼的行為識(shí)別13一個(gè)類別,監(jiān)督式稀疏編碼(SSC:SupervisedSparseCoding)從近鄰模板特征中選擇屬于同一個(gè)類別最多的模板特征進(jìn)行編碼。獲得局部描述子的編碼系數(shù)后,通常使用池化技術(shù)來獲得局部區(qū)域或者整幅圖像的表示,但是不同區(qū)域的特征具有不同的判別能力,因此,本章節(jié)提出一種基于滑動(dòng)窗口特征的具有判別能力的加權(quán)模型,將加權(quán)系數(shù)引入到最大間距模型中,并使用多核學(xué)習(xí)框架(MultipleKernelLearning)來求解模型參數(shù)和加權(quán)系數(shù)。(a)紅色部分的“小腿”具有非常相似的姿勢(shì),但屬于不同的行為類別(b)非監(jiān)督稀疏編碼(USC:UnsupervisedSparseCoding)和本章節(jié)提出的監(jiān)督稀疏編碼(SSC:SupervisedSparseCoding)對(duì)比圖2.2圖示說明相近的局部描述子分屬于不同的行為類別(a)和本章節(jié)提出的監(jiān)督式稀疏編碼算法(b)本章節(jié)提出的監(jiān)督式字典學(xué)習(xí)和判別式加權(quán)模型的流程圖如圖2.3所示。首先從所有訓(xùn)練圖像中提取稠密的SIFT描述子,然后從這些描述子中隨機(jī)選取一部分作為模板特征送入到本章節(jié)提出的局部Fisher判別字典學(xué)習(xí)算法中;在獲得學(xué)習(xí)到的字典后,通過提出的監(jiān)督式稀疏編碼算法獲取所有SIFT描述子的編碼特征,進(jìn)而根據(jù)這些編碼特征,采用滑動(dòng)窗口的方式獲得整幅圖像的表示;最后,使用提出的基于多核學(xué)習(xí)框架的判別式加權(quán)模型,獲得不同滑動(dòng)窗口特征的加權(quán)系數(shù)和模型參數(shù)。本章節(jié)的主要工作可總結(jié)為以下幾點(diǎn):
第二章基于字典學(xué)習(xí)和稀疏編碼的行為識(shí)別15圖2.4基于全局表示的監(jiān)督式字典學(xué)習(xí)和基于局部描述子的監(jiān)督式字典學(xué)習(xí)算法對(duì)比2.2.1基于全局表示的字典學(xué)習(xí)Jiang等人[67]提出一種標(biāo)簽一致的K-SVD(LC-KSVD)字典學(xué)習(xí)算法,該算法在目標(biāo)函數(shù)中引入一種叫做“判別稀疏編碼誤差”的標(biāo)簽限制項(xiàng),同時(shí)考慮重構(gòu)誤差和分類誤差;Li等人[68]為了提高編碼系數(shù)的判別能力,在目標(biāo)函數(shù)中引入Fisher判別函數(shù),同時(shí)引入低秩正則化項(xiàng)降低訓(xùn)練樣本中噪聲的影響;以數(shù)字和紋理識(shí)別為任務(wù),Mairal等人[69]提出同時(shí)創(chuàng)建共用字典和每個(gè)類別獨(dú)有的字典來進(jìn)行稀疏編碼;為了應(yīng)對(duì)人臉識(shí)別中某些個(gè)體只有少數(shù)甚至一個(gè)訓(xùn)練樣本的情況,Deng等人[70]提出使用一個(gè)輔助的類內(nèi)變換字典來建模訓(xùn)練樣本和測(cè)試樣本之間可能的變化特性;Wang等人[71]通過引入相似性限制項(xiàng)和字典非凝聚項(xiàng)提出一種新的稀疏模型,用于捕獲相似樣本之間的相關(guān)性,同時(shí)促使和不同類別相關(guān)的字典元素相互獨(dú)立;Wang等人[72]提出直接學(xué)習(xí)每個(gè)類別的字典以捕獲特殊性,同時(shí)學(xué)習(xí)一個(gè)共有模式字典捕獲一般性,該共有模式字典被所有類別共享,特殊性使字典具有區(qū)分不同類別的能力,共性只為了得到有效的數(shù)據(jù)表示;為了直接得到基于稀疏表示的分類器,Zhang等人[73]提出直接從原始數(shù)據(jù)中學(xué)習(xí)判別式投影和字典;谌直硎镜淖值鋵W(xué)習(xí)的一個(gè)基本步驟是首先將一幅圖像表示成一個(gè)列向量,然后將圖像類別賦予該列向量,帶有正則化項(xiàng)或判別項(xiàng)的目標(biāo)函數(shù)通常都是基于這些列向量表示提出的。上述的大部分工作都是先用K均值聚類算法得到字典,然后提取圖像的空間金字塔特征,再對(duì)該特征進(jìn)行降維操作得到最終的圖像表示,最后用該特征表示進(jìn)行字典學(xué)習(xí)。然而,將一整幅圖像通過非監(jiān)督的方式得到一個(gè)列向?
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動(dòng)化學(xué)報(bào). 2016(06)
[2]人體動(dòng)作行為識(shí)別研究綜述[J]. 李瑞峰,王亮亮,王珂. 模式識(shí)別與人工智能. 2014(01)
[3]動(dòng)作識(shí)別與行為理解綜述[J]. 徐光祐,曹媛媛. 中國(guó)圖象圖形學(xué)報(bào). 2009(02)
本文編號(hào):3624688
【文章來源】:東南大學(xué)江蘇省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
本文章節(jié)組織結(jié)構(gòu)框圖
第二章基于字典學(xué)習(xí)和稀疏編碼的行為識(shí)別13一個(gè)類別,監(jiān)督式稀疏編碼(SSC:SupervisedSparseCoding)從近鄰模板特征中選擇屬于同一個(gè)類別最多的模板特征進(jìn)行編碼。獲得局部描述子的編碼系數(shù)后,通常使用池化技術(shù)來獲得局部區(qū)域或者整幅圖像的表示,但是不同區(qū)域的特征具有不同的判別能力,因此,本章節(jié)提出一種基于滑動(dòng)窗口特征的具有判別能力的加權(quán)模型,將加權(quán)系數(shù)引入到最大間距模型中,并使用多核學(xué)習(xí)框架(MultipleKernelLearning)來求解模型參數(shù)和加權(quán)系數(shù)。(a)紅色部分的“小腿”具有非常相似的姿勢(shì),但屬于不同的行為類別(b)非監(jiān)督稀疏編碼(USC:UnsupervisedSparseCoding)和本章節(jié)提出的監(jiān)督稀疏編碼(SSC:SupervisedSparseCoding)對(duì)比圖2.2圖示說明相近的局部描述子分屬于不同的行為類別(a)和本章節(jié)提出的監(jiān)督式稀疏編碼算法(b)本章節(jié)提出的監(jiān)督式字典學(xué)習(xí)和判別式加權(quán)模型的流程圖如圖2.3所示。首先從所有訓(xùn)練圖像中提取稠密的SIFT描述子,然后從這些描述子中隨機(jī)選取一部分作為模板特征送入到本章節(jié)提出的局部Fisher判別字典學(xué)習(xí)算法中;在獲得學(xué)習(xí)到的字典后,通過提出的監(jiān)督式稀疏編碼算法獲取所有SIFT描述子的編碼特征,進(jìn)而根據(jù)這些編碼特征,采用滑動(dòng)窗口的方式獲得整幅圖像的表示;最后,使用提出的基于多核學(xué)習(xí)框架的判別式加權(quán)模型,獲得不同滑動(dòng)窗口特征的加權(quán)系數(shù)和模型參數(shù)。本章節(jié)的主要工作可總結(jié)為以下幾點(diǎn):
第二章基于字典學(xué)習(xí)和稀疏編碼的行為識(shí)別15圖2.4基于全局表示的監(jiān)督式字典學(xué)習(xí)和基于局部描述子的監(jiān)督式字典學(xué)習(xí)算法對(duì)比2.2.1基于全局表示的字典學(xué)習(xí)Jiang等人[67]提出一種標(biāo)簽一致的K-SVD(LC-KSVD)字典學(xué)習(xí)算法,該算法在目標(biāo)函數(shù)中引入一種叫做“判別稀疏編碼誤差”的標(biāo)簽限制項(xiàng),同時(shí)考慮重構(gòu)誤差和分類誤差;Li等人[68]為了提高編碼系數(shù)的判別能力,在目標(biāo)函數(shù)中引入Fisher判別函數(shù),同時(shí)引入低秩正則化項(xiàng)降低訓(xùn)練樣本中噪聲的影響;以數(shù)字和紋理識(shí)別為任務(wù),Mairal等人[69]提出同時(shí)創(chuàng)建共用字典和每個(gè)類別獨(dú)有的字典來進(jìn)行稀疏編碼;為了應(yīng)對(duì)人臉識(shí)別中某些個(gè)體只有少數(shù)甚至一個(gè)訓(xùn)練樣本的情況,Deng等人[70]提出使用一個(gè)輔助的類內(nèi)變換字典來建模訓(xùn)練樣本和測(cè)試樣本之間可能的變化特性;Wang等人[71]通過引入相似性限制項(xiàng)和字典非凝聚項(xiàng)提出一種新的稀疏模型,用于捕獲相似樣本之間的相關(guān)性,同時(shí)促使和不同類別相關(guān)的字典元素相互獨(dú)立;Wang等人[72]提出直接學(xué)習(xí)每個(gè)類別的字典以捕獲特殊性,同時(shí)學(xué)習(xí)一個(gè)共有模式字典捕獲一般性,該共有模式字典被所有類別共享,特殊性使字典具有區(qū)分不同類別的能力,共性只為了得到有效的數(shù)據(jù)表示;為了直接得到基于稀疏表示的分類器,Zhang等人[73]提出直接從原始數(shù)據(jù)中學(xué)習(xí)判別式投影和字典;谌直硎镜淖值鋵W(xué)習(xí)的一個(gè)基本步驟是首先將一幅圖像表示成一個(gè)列向量,然后將圖像類別賦予該列向量,帶有正則化項(xiàng)或判別項(xiàng)的目標(biāo)函數(shù)通常都是基于這些列向量表示提出的。上述的大部分工作都是先用K均值聚類算法得到字典,然后提取圖像的空間金字塔特征,再對(duì)該特征進(jìn)行降維操作得到最終的圖像表示,最后用該特征表示進(jìn)行字典學(xué)習(xí)。然而,將一整幅圖像通過非監(jiān)督的方式得到一個(gè)列向?
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J]. 朱煜,趙江坤,王逸寧,鄭兵兵. 自動(dòng)化學(xué)報(bào). 2016(06)
[2]人體動(dòng)作行為識(shí)別研究綜述[J]. 李瑞峰,王亮亮,王珂. 模式識(shí)別與人工智能. 2014(01)
[3]動(dòng)作識(shí)別與行為理解綜述[J]. 徐光祐,曹媛媛. 中國(guó)圖象圖形學(xué)報(bào). 2009(02)
本文編號(hào):3624688
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3624688.html
最近更新
教材專著