稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法及其并行化研究
發(fā)布時間:2014-09-10 09:39
【摘要】 動作識別系統(tǒng)在現(xiàn)實中具有重要的應(yīng)用價值,但是現(xiàn)有的動作識別方法依然存在各種各樣的缺陷,研究穩(wěn)定可靠的動作識別方法,對于機(jī)器學(xué)習(xí)的理論發(fā)展與應(yīng)用推廣具有重要的意義。卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,它受到脊椎動物視覺神經(jīng)系統(tǒng)的啟發(fā),能夠直接從灰度圖像學(xué)習(xí)出抽象的高級特征,具有強大的圖像分類能力,但它不能直接應(yīng)用于視頻中的動作識別。為了將卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力推廣到動作識別,本文對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了擴(kuò)展,本文的貢獻(xiàn)主要有以下幾個方面:基于時空卷積特征提取,開發(fā)了一個時空卷積神經(jīng)網(wǎng)絡(luò)框架。該模型以多個連續(xù)視頻幀為輸入,交替進(jìn)行卷積和子采樣操作,逐步提取出多種復(fù)雜抽象的高級特征,具有出色的特征學(xué)習(xí)能力與分類能力。為了進(jìn)一步提高時空卷積神經(jīng)網(wǎng)絡(luò)的性能,在組合卷積層的輸入特征圖時,提出了一種稀疏自組合策略。通過對輸入特征圖增加稀疏性限制,使卷積層能夠自動學(xué)習(xí)出最佳的特征圖組合作為輸入,與傳統(tǒng)的手工設(shè)置方式相比,省略了手工設(shè)置的繁復(fù)步驟,實驗表明,采用稀疏自組合策略的時空卷積神經(jīng)網(wǎng)絡(luò)具有更好的特征學(xué)習(xí)能力與分類能力。提出了一種基于MapReduce的矩陣并行相乘算法,基于該矩陣并行算法,在Hadoop平臺對稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)采用MapReduce編程模型并行化,并與串行實驗結(jié)果進(jìn)行了對比,驗證了稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化的可行性、穩(wěn)定性、正確性,并獲得了一定的加速比。為了利用多核CPU的計算能力,將MapReduce的Map過程和Reduce過程采用多線程實現(xiàn),將該算法用于稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練測試,性能進(jìn)一步得到提高。分別在WEIZMAN和KTH兩個公開數(shù)據(jù)集上進(jìn)行了一系列實驗,展示了時空卷積神經(jīng)網(wǎng)絡(luò)在各種場景下的表現(xiàn)性能。實驗結(jié)果表明,與其他基準(zhǔn)方法相比,本文提出的方法在兩個數(shù)據(jù)集上表現(xiàn)出了非常有競爭力的結(jié)果。
【關(guān)鍵詞】 動作識別; 深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); MapReduce; 多核;
第一章緒論
1.1課題背景和研究意義
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)規(guī)模迅速增大,同時視頻數(shù)據(jù)每天以海量方式產(chǎn)生和積累,研宄如何利用深度學(xué)習(xí)對這些海量視頻數(shù)據(jù)進(jìn)行大規(guī)模并行處理,既具有現(xiàn)實的經(jīng)濟(jì)價值,對于發(fā)揮挖掘深度學(xué)習(xí)的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個用于處理海量數(shù)據(jù)的并行編程模型,由于它簡單實用,因而迅速成為云計算方面的標(biāo)準(zhǔn)模型。是基于MapReduce的JAVA開源實現(xiàn),具有配置簡單、易擴(kuò)展、編程容易等特點,從而成為分布式集群的標(biāo)準(zhǔn)配置。研究如何利用Hadoop平臺對動作識別方法進(jìn)行工程實現(xiàn),將理論與實際應(yīng)用相結(jié)合,同樣具有重要的現(xiàn)實意義與理論價值。多核CPU的快速發(fā)展,提高了計算機(jī)的運算速度,而現(xiàn)有動作識別方法運算復(fù)雜,執(zhí)行效率低,研究如何利用多核CPU的并行加速能力對動作識別應(yīng)用進(jìn)行改進(jìn),具有重大意義。
1. 2動作識別相關(guān)研究
早期的時候,研究者試圖對人體進(jìn)行跟蹤,并把人體部分作為動作分類的特征,這是一種很自然的表示方法,因為人的關(guān)節(jié)的運動就形成了動作。Yacoob和Black[i2]對人體的主要關(guān)節(jié)部分進(jìn)行跟蹤,并用參數(shù)化方法來表示人體各個部分的旋轉(zhuǎn)和平移,用這些參數(shù)對動作進(jìn)行表示。Ali等人早期的關(guān)節(jié)模型進(jìn)行改進(jìn),在跟蹤時只跟蹤主要關(guān)節(jié),使跟蹤更具魯棒性;同時,對側(cè)影進(jìn)行骨架化,獲得一個支柱組合似人體;在跟蹤關(guān)節(jié)時,形成一個關(guān)節(jié)軌跡,一個視頻序列被表示成一組關(guān)節(jié)軌跡,然后輸入到一個基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動作識別看成一個形狀匹配問題,每個動作通過一個特別的姿勢來表示,識別就通過比較姿勢來完成,實際上就是邊緣匹配,這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側(cè)影,將10幀人體側(cè)影序列作為“時空形狀”。從該3D形狀中提取局部特征可以通過解決一個泊松方程來完成,最后使用一個基于模板的最近鄰分類器進(jìn)行分類。Wang和Suter[i6]也使用了人體側(cè)影對視頻序列進(jìn)行分類。他們從側(cè)影序列中米用KPCA提取特征,然后使用因子條件隨機(jī)場(Factorial Conditional RandomField)進(jìn)行分類。
…………
第二章卷積神經(jīng)網(wǎng)絡(luò)
2.1神經(jīng)網(wǎng)絡(luò)基本概念
假設(shè)有訓(xùn)練樣本那么神經(jīng)網(wǎng)絡(luò)能夠提供一個非線性復(fù)雜的假設(shè)模型來擬合這些數(shù)據(jù),它有兩個參數(shù)和對于一個只有單個神經(jīng)元的神經(jīng)網(wǎng)絡(luò)模型,可以由圖2-1表示:
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層與層之間都是全連接網(wǎng)絡(luò),即輸入層的所有神經(jīng)元都與輸出層的神經(jīng)元相連,假設(shè)輸入層的神經(jīng)元個數(shù),輸出層的神經(jīng)元個數(shù),那么連接數(shù)為圖2-3是一個簡單的神經(jīng)網(wǎng)絡(luò),它具有1個輸入層、1個隱含層、1個輸出層。連接數(shù)實際上就是神經(jīng)元參數(shù)數(shù)目,圖2-3的神經(jīng)網(wǎng)絡(luò)共有16條連接,所以共有16個參數(shù)。當(dāng)神經(jīng)元個數(shù)非常多時,連接數(shù)非常多,相應(yīng)的訓(xùn)練的參數(shù)非常多,這必然增加訓(xùn)練神經(jīng)網(wǎng)絡(luò)的難度。
2.2卷積神經(jīng)網(wǎng)絡(luò)
1959年,Hubel和Wiese[3G]兩位科學(xué)家在對貓的視覺實驗中發(fā)現(xiàn)了貓的視覺系統(tǒng)是分級的,這種分級可以看成是逐層迭代、抽象的過程:瞳孔接收像素,方向選擇性細(xì)胞抽象出邊緣,對邊緣進(jìn)一步抽象得出形狀,對形狀進(jìn)一步抽象得出是什么物體。高級特征是低層特征的組合與抽象,越高級的特征越能體現(xiàn)人類的語義信息。圖2-5對這種逐步抽象的分層模型進(jìn)行了展示,越高層的表示,越具有抽象表達(dá)能力。后來研究者提出了一個新名詞來命名這種模型一即“深度學(xué)習(xí)模型”。 上述模型正是CNN的雛形,這也是首個深度學(xué)習(xí)模型。圖2-6是Neocognitron的模型示意圖。之后,在實踐和理論分析中,很多學(xué)者為CNN的發(fā)展做出了重大貢獻(xiàn)。
………
第三章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化 ....... 45
4.1引言 ......45
第五章總結(jié)與展望.......... 71
5.1 總結(jié) ........... 71
第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化
4.1引言
從海量數(shù)據(jù)中挖掘潛在的信息,推動了基于云平臺的大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,目前,基于大規(guī)模機(jī)器學(xué)習(xí)的廣告推薦、商品個性化推薦成為互聯(lián)網(wǎng)企業(yè)的必備“掘金術(shù)”。在此背景下,眾多研宄者為了將機(jī)器學(xué)習(xí)擴(kuò)展到大規(guī)模應(yīng)用中做出 了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個全新的開源項目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,Mahout可以快速有效地擴(kuò)展到云中,該項目分為推薦、聚類、分類三個模塊,實現(xiàn) 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機(jī)器學(xué)習(xí)算法,是目前最受歡迎的開源的大規(guī)模機(jī)器學(xué)習(xí)庫。
4.2 MapReduce
MapReduce是一個出色的并行編程模型,它在處理一些適定的問題時才能發(fā)揮它的優(yōu)勢,換句話說并不是所有的問題都適用MapReduce。首先,MapReduce適用于大規(guī)模的數(shù)據(jù)處理,一般達(dá)到TB級以上,如果數(shù)據(jù)很小,可能橫向擴(kuò)展(增加集群的單機(jī)數(shù)量)的代價要大于縱向擴(kuò)展(升級硬件)。其次,MapReduce適用于離線文件分析,文件讀寫頻繁時不適用。再者,MapReduce適用于統(tǒng)計,但不適用于建模:因為統(tǒng)計過程可以插分成小任務(wù)再來求和,這與Map和Reduce過程是一致的,比如單詞計數(shù)非常適用于MapReduce;而建模過程往往前后依賴,無法拆分成多個獨立的Map和Reduce過程,比如斐波那契數(shù)列的求解就禾適用MapReduce。最后,MapReduce不適用于需要實時反饋的任務(wù),因為MapReduce的大規(guī)模處理能力是對于一些無法在可接受的時間內(nèi)給出可行解的任務(wù),采用MapReduce過程往往能夠給出可行解。
........
第五章總結(jié)與展望
5.1總結(jié)
為了利用MapReduce的大規(guī)模數(shù)據(jù)處理能力,及其并行加速能力,創(chuàng)新性地將稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)在基于MapReduce的Hadoop開源警臺上進(jìn)行實現(xiàn),并提出了矩陣分布式乘法等改進(jìn)措施,最后進(jìn)行了一系列對比實驗,說明稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)的MapReduce并行化是可行的,并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望
本文編號:8750
【關(guān)鍵詞】 動作識別; 深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); MapReduce; 多核;
第一章緒論
1.1課題背景和研究意義
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)規(guī)模迅速增大,同時視頻數(shù)據(jù)每天以海量方式產(chǎn)生和積累,研宄如何利用深度學(xué)習(xí)對這些海量視頻數(shù)據(jù)進(jìn)行大規(guī)模并行處理,既具有現(xiàn)實的經(jīng)濟(jì)價值,對于發(fā)揮挖掘深度學(xué)習(xí)的并行處理能力同樣意義重大。MapReduce是由Gooogle公司提出來的一個用于處理海量數(shù)據(jù)的并行編程模型,由于它簡單實用,因而迅速成為云計算方面的標(biāo)準(zhǔn)模型。是基于MapReduce的JAVA開源實現(xiàn),具有配置簡單、易擴(kuò)展、編程容易等特點,從而成為分布式集群的標(biāo)準(zhǔn)配置。研究如何利用Hadoop平臺對動作識別方法進(jìn)行工程實現(xiàn),將理論與實際應(yīng)用相結(jié)合,同樣具有重要的現(xiàn)實意義與理論價值。多核CPU的快速發(fā)展,提高了計算機(jī)的運算速度,而現(xiàn)有動作識別方法運算復(fù)雜,執(zhí)行效率低,研究如何利用多核CPU的并行加速能力對動作識別應(yīng)用進(jìn)行改進(jìn),具有重大意義。
1. 2動作識別相關(guān)研究
早期的時候,研究者試圖對人體進(jìn)行跟蹤,并把人體部分作為動作分類的特征,這是一種很自然的表示方法,因為人的關(guān)節(jié)的運動就形成了動作。Yacoob和Black[i2]對人體的主要關(guān)節(jié)部分進(jìn)行跟蹤,并用參數(shù)化方法來表示人體各個部分的旋轉(zhuǎn)和平移,用這些參數(shù)對動作進(jìn)行表示。Ali等人早期的關(guān)節(jié)模型進(jìn)行改進(jìn),在跟蹤時只跟蹤主要關(guān)節(jié),使跟蹤更具魯棒性;同時,對側(cè)影進(jìn)行骨架化,獲得一個支柱組合似人體;在跟蹤關(guān)節(jié)時,形成一個關(guān)節(jié)軌跡,一個視頻序列被表示成一組關(guān)節(jié)軌跡,然后輸入到一個基于模板的K近鄰分類器。Carisson和Sullivan[i4]將動作識別看成一個形狀匹配問題,每個動作通過一個特別的姿勢來表示,識別就通過比較姿勢來完成,實際上就是邊緣匹配,這說明了形狀信息的重要性。Blank等人[15]從每一幀提取人體側(cè)影,將10幀人體側(cè)影序列作為“時空形狀”。從該3D形狀中提取局部特征可以通過解決一個泊松方程來完成,最后使用一個基于模板的最近鄰分類器進(jìn)行分類。Wang和Suter[i6]也使用了人體側(cè)影對視頻序列進(jìn)行分類。他們從側(cè)影序列中米用KPCA提取特征,然后使用因子條件隨機(jī)場(Factorial Conditional RandomField)進(jìn)行分類。
…………
第二章卷積神經(jīng)網(wǎng)絡(luò)
2.1神經(jīng)網(wǎng)絡(luò)基本概念
假設(shè)有訓(xùn)練樣本那么神經(jīng)網(wǎng)絡(luò)能夠提供一個非線性復(fù)雜的假設(shè)模型來擬合這些數(shù)據(jù),它有兩個參數(shù)和對于一個只有單個神經(jīng)元的神經(jīng)網(wǎng)絡(luò)模型,可以由圖2-1表示:
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)層與層之間都是全連接網(wǎng)絡(luò),即輸入層的所有神經(jīng)元都與輸出層的神經(jīng)元相連,假設(shè)輸入層的神經(jīng)元個數(shù),輸出層的神經(jīng)元個數(shù),那么連接數(shù)為圖2-3是一個簡單的神經(jīng)網(wǎng)絡(luò),它具有1個輸入層、1個隱含層、1個輸出層。連接數(shù)實際上就是神經(jīng)元參數(shù)數(shù)目,圖2-3的神經(jīng)網(wǎng)絡(luò)共有16條連接,所以共有16個參數(shù)。當(dāng)神經(jīng)元個數(shù)非常多時,連接數(shù)非常多,相應(yīng)的訓(xùn)練的參數(shù)非常多,這必然增加訓(xùn)練神經(jīng)網(wǎng)絡(luò)的難度。
2.2卷積神經(jīng)網(wǎng)絡(luò)
1959年,Hubel和Wiese[3G]兩位科學(xué)家在對貓的視覺實驗中發(fā)現(xiàn)了貓的視覺系統(tǒng)是分級的,這種分級可以看成是逐層迭代、抽象的過程:瞳孔接收像素,方向選擇性細(xì)胞抽象出邊緣,對邊緣進(jìn)一步抽象得出形狀,對形狀進(jìn)一步抽象得出是什么物體。高級特征是低層特征的組合與抽象,越高級的特征越能體現(xiàn)人類的語義信息。圖2-5對這種逐步抽象的分層模型進(jìn)行了展示,越高層的表示,越具有抽象表達(dá)能力。后來研究者提出了一個新名詞來命名這種模型一即“深度學(xué)習(xí)模型”。 上述模型正是CNN的雛形,這也是首個深度學(xué)習(xí)模型。圖2-6是Neocognitron的模型示意圖。之后,在實踐和理論分析中,很多學(xué)者為CNN的發(fā)展做出了重大貢獻(xiàn)。
………
第三章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)動作識別方法........ 15
3.1引言.......... 15
第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化 ....... 45
4.1引言 ......45
第五章總結(jié)與展望.......... 71
5.1 總結(jié) ........... 71
第四章稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)并行化
4.1引言
從海量數(shù)據(jù)中挖掘潛在的信息,推動了基于云平臺的大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,目前,基于大規(guī)模機(jī)器學(xué)習(xí)的廣告推薦、商品個性化推薦成為互聯(lián)網(wǎng)企業(yè)的必備“掘金術(shù)”。在此背景下,眾多研宄者為了將機(jī)器學(xué)習(xí)擴(kuò)展到大規(guī)模應(yīng)用中做出 了諸多嘗試。Mahout[78]是Apache Software Foundation (ASF)基于Hadoop開發(fā)的一個全新的開源項目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,Mahout可以快速有效地擴(kuò)展到云中,該項目分為推薦、聚類、分類三個模塊,實現(xiàn) 了包括K-Means、Canopy、Naive Bayes、Random Forests等典型的機(jī)器學(xué)習(xí)算法,是目前最受歡迎的開源的大規(guī)模機(jī)器學(xué)習(xí)庫。
4.2 MapReduce
MapReduce是一個出色的并行編程模型,它在處理一些適定的問題時才能發(fā)揮它的優(yōu)勢,換句話說并不是所有的問題都適用MapReduce。首先,MapReduce適用于大規(guī)模的數(shù)據(jù)處理,一般達(dá)到TB級以上,如果數(shù)據(jù)很小,可能橫向擴(kuò)展(增加集群的單機(jī)數(shù)量)的代價要大于縱向擴(kuò)展(升級硬件)。其次,MapReduce適用于離線文件分析,文件讀寫頻繁時不適用。再者,MapReduce適用于統(tǒng)計,但不適用于建模:因為統(tǒng)計過程可以插分成小任務(wù)再來求和,這與Map和Reduce過程是一致的,比如單詞計數(shù)非常適用于MapReduce;而建模過程往往前后依賴,無法拆分成多個獨立的Map和Reduce過程,比如斐波那契數(shù)列的求解就禾適用MapReduce。最后,MapReduce不適用于需要實時反饋的任務(wù),因為MapReduce的大規(guī)模處理能力是對于一些無法在可接受的時間內(nèi)給出可行解的任務(wù),采用MapReduce過程往往能夠給出可行解。
........
第五章總結(jié)與展望
5.1總結(jié)
為了利用MapReduce的大規(guī)模數(shù)據(jù)處理能力,及其并行加速能力,創(chuàng)新性地將稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)在基于MapReduce的Hadoop開源警臺上進(jìn)行實現(xiàn),并提出了矩陣分布式乘法等改進(jìn)措施,最后進(jìn)行了一系列對比實驗,說明稀疏自組合時空卷積神經(jīng)網(wǎng)絡(luò)的MapReduce并行化是可行的,并獲得了穩(wěn)定的正確性與一定的加速比。5.2展望
本文的動作識別方法展示出一定的動作分類能力,主要依賴于使用眾多的參數(shù)對人類視覺系統(tǒng)進(jìn)行模擬,雖然該模型盡量采用自然的、自動的學(xué)習(xí)策略訓(xùn)練眾多參數(shù),但是依然存在參數(shù)難以調(diào)諧的難題。比如在設(shè)置網(wǎng)絡(luò)的層數(shù)、卷積核的大小等參數(shù)時,依然采用手工設(shè)置的方式,這些參數(shù)變化大,無法找到一種有效的自動學(xué)習(xí)策略進(jìn)行學(xué)習(xí),與真正的自然的視覺識別系統(tǒng)相差甚遠(yuǎn)。因此,未來的工作可以在參數(shù)的自動學(xué)習(xí)方面進(jìn)行改進(jìn)。
動作識別不是一個單一偏狹的問題,它與神經(jīng)科學(xué)、認(rèn)知科學(xué)等存在非常緊密的聯(lián)系,單單從計算機(jī)科學(xué)出發(fā)不可能得以解決,因為僅僅依靠幾個參數(shù)不可能模擬出人類大腦的認(rèn)知能力,人類大腦的記憶、推理、抽象等功能是一個整體,因此,真正的動作識別方法依賴于人工智能的徹底實現(xiàn)。但是,人工智能的重點不是研究計算機(jī),重點在于研宄人,如果有一天人類完全揭開了人類大腦的工作奧秘,計算機(jī)一定能夠展示出人一樣的智能,自然也能像人一樣對動作進(jìn)行識別。
.........
參考文獻(xiàn):
- [1] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D]. 浙江大學(xué) 2012
- [2] 宋皓. 基于視覺通路目標(biāo)識別算法的研究[D]. 合肥工業(yè)大學(xué) 2011
- [3] 陸璐. 卷積神經(jīng)網(wǎng)絡(luò)的研究及其在車牌識別系統(tǒng)中的應(yīng)用[D]. 合肥工業(yè)大學(xué) 2006
- [4] 肖柏旭. 基于卷積網(wǎng)絡(luò)的人臉檢測的研究與實現(xiàn)[D]. 華北電力大學(xué)(河北) 2007
- [5] 吳偉. 基于SAE-PCA模型的ASL字母識別方法研究[D]. 廈門大學(xué) 2014
- [6] 陸慶慶. 基于人臉圖像的性別分類[D]. 南京理工大學(xué) 2014
- [7] 鄧超. 基于3D DAISY描述符的動作識別[D]. 天津大學(xué) 2012
- [8] 劉飛. 基于Kinect骨架信息的人體動作識別[D]. 東華大學(xué) 2014
- [9] 張曉婧. 基于時空金字塔稀疏編碼的動作識別[D]. 天津大學(xué) 2012
- [10] 劉聰. 包含小數(shù)點的手寫數(shù)字串切分與識別[D]. 廈門大學(xué) 2014
本文編號:8750
本文鏈接:http://sikaile.net/shoufeilunwen/shuoshibiyelunwen/8750.html
最近更新
教材專著