基于深度學(xué)習(xí)的視頻行人再識別方法研究
發(fā)布時間:2020-12-19 19:59
近年來,隨著深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域取得了極大的成功,基于深度學(xué)習(xí)的智慧監(jiān)控系統(tǒng)研究也獲得研究人員的廣泛關(guān)注。行人再識別問題作為智慧監(jiān)控系統(tǒng)的重要組成部分,在尋找走失人口、偵辦刑事案件、城市安全管理等方面具有巨大的作用,成為了新的研究熱點。視頻行人再識別的主要任務(wù)是基于視頻序列判斷由不同攝像機(jī)捕獲的行人是否為同一身份。然而,由于不同攝像機(jī)捕獲行人的角度不同,光照條件不同,以及物體或行人之間遮擋等問題,如何準(zhǔn)確地實現(xiàn)行人再識別仍是一個巨大的挑戰(zhàn)。本文針對目前的視頻行人再識別方法進(jìn)行了深入總結(jié)和研究,對存在的問題做出改進(jìn)。當(dāng)前的視頻行人再識別方法大都需要提前手動提取光流圖來計算行人的運動特征,而手動提取光流特征費時費力且光流圖會占據(jù)大量磁盤空間,不利于應(yīng)用到實際中。為了解決這一問題,本文提出了一種基于光流引導(dǎo)特征的視頻行人再識別方法。首先使用卷積神經(jīng)網(wǎng)絡(luò)提取行人圖像的空間外觀特征,并根據(jù)深度特征圖計算光流引導(dǎo)特征來描述行人運動信息;然后聯(lián)合行人空間外觀特征與時間運動特征,獲得視頻級的行人特征描述矢量;最后計算特征描述矢量之間的歐式距離,判定兩段圖像序列中的行人是否為同一身份。實驗證明,該方...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于圖像和基于視頻的行人再識別數(shù)據(jù)集
第二章行人再識別技術(shù)概述9將兩幅行人圖像同時輸入孿生網(wǎng)絡(luò)的兩個權(quán)重共享的分支,提取行人特征后計算其距離,并根據(jù)距離大小辨別輸入圖像中的行人是否為同一身份,其結(jié)構(gòu)如圖2.1所示。圖2.1簡單孿生網(wǎng)絡(luò)結(jié)構(gòu)圖像分類網(wǎng)絡(luò)則是將所有輸入的行人圖像按照預(yù)測的身份進(jìn)行分類,同一身份為同一種類,否則為不同種類。訓(xùn)練好的網(wǎng)絡(luò)輸入行人圖像,輸出該行人的所屬類別。由于孿生網(wǎng)絡(luò)結(jié)構(gòu)所需的訓(xùn)練數(shù)據(jù)相對圖像分類網(wǎng)絡(luò)較少,而訓(xùn)練數(shù)據(jù)獲取不易,因此很多研究人員更多關(guān)注孿生網(wǎng)絡(luò)結(jié)構(gòu),并在這一結(jié)構(gòu)的基礎(chǔ)上加以改進(jìn),設(shè)計出三元組[35][36]、四元組[37]等結(jié)構(gòu)。在網(wǎng)絡(luò)訓(xùn)練時,一般孿生網(wǎng)絡(luò)采用正負(fù)樣本交替輸入的方式,而三元組的輸入則為錨點圖像與正負(fù)樣本各一個,四元組損失函數(shù)的輸入為錨點圖像、正樣本以及兩個不同的負(fù)樣本;陔y樣本采樣的三元組[38]是三元組結(jié)構(gòu)的一種改進(jìn)結(jié)構(gòu),其輸入為經(jīng)過篩選的難樣本對,進(jìn)一步提升了網(wǎng)絡(luò)的泛化能力。相比二元組損失函數(shù),三、四元組結(jié)構(gòu)能夠提升網(wǎng)絡(luò)性能,達(dá)到更高的準(zhǔn)確率,但其計算量也相對較大。因此,目前使用最廣泛的仍為二元組損失函數(shù)。2.1.2度量學(xué)習(xí)固定行人距離度量方法直接計算行人特征描述向量之間的距離或者相似度。歐式距離是最常見的距離計算方法,由于其計算量小,能夠更加直觀的描述向量之間的距離而被廣泛采用。部分研究人員采用計算兩個向量之間的相關(guān)性作為距離度量方法,這種方法不僅關(guān)注兩個向量的距離,同時也考慮到兩個向量的方向等元素對向量相關(guān)性的影響。距離度量與相似性度量的區(qū)別在于距離度量的值越大代表距離越遠(yuǎn),行人為不同身份的概率越大,而相似性值越小代表兩個向量的相關(guān)性越小,行人為不同身份的概率越大;诙攘繉W(xué)習(xí)的方法通過訓(xùn)練學(xué)習(xí)合適的度量函數(shù)參
第二章行人再識別技術(shù)概述11圖2.2基于時空對齊的視頻行人再識別2.2.2基于深度學(xué)習(xí)方法深度學(xué)習(xí)的快速發(fā)展給基于視頻的行人再識別帶來了新的思路。結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的CNN-RNN結(jié)構(gòu)成為基礎(chǔ)方法之一,其結(jié)構(gòu)如圖2.3所示圖2.3視頻行人再識別的CNN-RNN結(jié)構(gòu)輸入視頻序列首先經(jīng)過CNN提取深度特征,然后利用RNN融合多個時間步的信息,最后將RNN的輸出通過時間池化操作整合,獲得視頻級的行人特征描述矢量。在網(wǎng)絡(luò)訓(xùn)練階段,一般采用身份損失與對比損失相結(jié)合的方式,在網(wǎng)絡(luò)測試階段,將CNN-RNN結(jié)構(gòu)作為特征提取器,獲取兩個視頻序列對相應(yīng)的描述矢量并計算其歐式距離,實現(xiàn)行人身份判定。注意力機(jī)制是一種快速篩選有效信息的機(jī)制,與深度學(xué)習(xí)結(jié)合的注意力在多項任務(wù)上實現(xiàn)了較好的結(jié)果,引起了研究人員的注意。在近幾年,基于注意力機(jī)制的視頻行人再識別也獲得了較大的發(fā)展,各種方式接連不斷地涌現(xiàn)。相對于單獨在時間或者空間維度添加注意力機(jī)制的方法,同時在時間和空間維度添加注意力機(jī)制能夠獲得更好的識別準(zhǔn)確率,因此該方法更受研究者們的青睞。
本文編號:2926487
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于圖像和基于視頻的行人再識別數(shù)據(jù)集
第二章行人再識別技術(shù)概述9將兩幅行人圖像同時輸入孿生網(wǎng)絡(luò)的兩個權(quán)重共享的分支,提取行人特征后計算其距離,并根據(jù)距離大小辨別輸入圖像中的行人是否為同一身份,其結(jié)構(gòu)如圖2.1所示。圖2.1簡單孿生網(wǎng)絡(luò)結(jié)構(gòu)圖像分類網(wǎng)絡(luò)則是將所有輸入的行人圖像按照預(yù)測的身份進(jìn)行分類,同一身份為同一種類,否則為不同種類。訓(xùn)練好的網(wǎng)絡(luò)輸入行人圖像,輸出該行人的所屬類別。由于孿生網(wǎng)絡(luò)結(jié)構(gòu)所需的訓(xùn)練數(shù)據(jù)相對圖像分類網(wǎng)絡(luò)較少,而訓(xùn)練數(shù)據(jù)獲取不易,因此很多研究人員更多關(guān)注孿生網(wǎng)絡(luò)結(jié)構(gòu),并在這一結(jié)構(gòu)的基礎(chǔ)上加以改進(jìn),設(shè)計出三元組[35][36]、四元組[37]等結(jié)構(gòu)。在網(wǎng)絡(luò)訓(xùn)練時,一般孿生網(wǎng)絡(luò)采用正負(fù)樣本交替輸入的方式,而三元組的輸入則為錨點圖像與正負(fù)樣本各一個,四元組損失函數(shù)的輸入為錨點圖像、正樣本以及兩個不同的負(fù)樣本;陔y樣本采樣的三元組[38]是三元組結(jié)構(gòu)的一種改進(jìn)結(jié)構(gòu),其輸入為經(jīng)過篩選的難樣本對,進(jìn)一步提升了網(wǎng)絡(luò)的泛化能力。相比二元組損失函數(shù),三、四元組結(jié)構(gòu)能夠提升網(wǎng)絡(luò)性能,達(dá)到更高的準(zhǔn)確率,但其計算量也相對較大。因此,目前使用最廣泛的仍為二元組損失函數(shù)。2.1.2度量學(xué)習(xí)固定行人距離度量方法直接計算行人特征描述向量之間的距離或者相似度。歐式距離是最常見的距離計算方法,由于其計算量小,能夠更加直觀的描述向量之間的距離而被廣泛采用。部分研究人員采用計算兩個向量之間的相關(guān)性作為距離度量方法,這種方法不僅關(guān)注兩個向量的距離,同時也考慮到兩個向量的方向等元素對向量相關(guān)性的影響。距離度量與相似性度量的區(qū)別在于距離度量的值越大代表距離越遠(yuǎn),行人為不同身份的概率越大,而相似性值越小代表兩個向量的相關(guān)性越小,行人為不同身份的概率越大;诙攘繉W(xué)習(xí)的方法通過訓(xùn)練學(xué)習(xí)合適的度量函數(shù)參
第二章行人再識別技術(shù)概述11圖2.2基于時空對齊的視頻行人再識別2.2.2基于深度學(xué)習(xí)方法深度學(xué)習(xí)的快速發(fā)展給基于視頻的行人再識別帶來了新的思路。結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的CNN-RNN結(jié)構(gòu)成為基礎(chǔ)方法之一,其結(jié)構(gòu)如圖2.3所示圖2.3視頻行人再識別的CNN-RNN結(jié)構(gòu)輸入視頻序列首先經(jīng)過CNN提取深度特征,然后利用RNN融合多個時間步的信息,最后將RNN的輸出通過時間池化操作整合,獲得視頻級的行人特征描述矢量。在網(wǎng)絡(luò)訓(xùn)練階段,一般采用身份損失與對比損失相結(jié)合的方式,在網(wǎng)絡(luò)測試階段,將CNN-RNN結(jié)構(gòu)作為特征提取器,獲取兩個視頻序列對相應(yīng)的描述矢量并計算其歐式距離,實現(xiàn)行人身份判定。注意力機(jī)制是一種快速篩選有效信息的機(jī)制,與深度學(xué)習(xí)結(jié)合的注意力在多項任務(wù)上實現(xiàn)了較好的結(jié)果,引起了研究人員的注意。在近幾年,基于注意力機(jī)制的視頻行人再識別也獲得了較大的發(fā)展,各種方式接連不斷地涌現(xiàn)。相對于單獨在時間或者空間維度添加注意力機(jī)制的方法,同時在時間和空間維度添加注意力機(jī)制能夠獲得更好的識別準(zhǔn)確率,因此該方法更受研究者們的青睞。
本文編號:2926487
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2926487.html
最近更新
教材專著