基于深度神經(jīng)網(wǎng)絡的行人再識別研究
發(fā)布時間:2021-01-04 10:11
隨著智能監(jiān)控的發(fā)展,行人再識別在智能視頻監(jiān)控領域的實際應用價值和理論研究意義日益凸現(xiàn)。行人再識別是給定目標圖庫,在監(jiān)控攝像頭下采集的數(shù)據(jù)集中使用計算機視覺技術進行判斷圖像庫或視頻序列中是否存在給定目標的技術。隨著計算機硬件性能提升,基于深度神經(jīng)網(wǎng)絡的行人再識別研究引起了廣大研究者們的興趣,成為目前計算機視覺研究熱點。該研究涉及圖像處理、計算機視覺、機器學習、圖像檢索等諸等多研究領域,具有重要的科學意義,可廣泛應用于計算機視覺的應用領域,如:智能安防、安保等領域,具有良好的應用前景。在實際應用中行人圖片面臨著分辨率低、人體姿態(tài)和拍攝視角差異大、障礙物遮擋等諸多問題,這些問題將導致人的表觀差異較大。針對這些問題導致的低質(zhì)量圖像和序列內(nèi)圖像的差異性問題,本文考慮幀間豐富的時序信息,在質(zhì)量感知網(wǎng)絡的基礎上,提出了一種有監(jiān)督的時序注意力質(zhì)量感知網(wǎng)絡,通過提取幀間時序信息,融合了單幀圖像空間內(nèi)特征和幀與幀之間的運動特征,從而在所有幀序列之間能夠有效地聚合互補信息,顯著地降低了低質(zhì)量圖像區(qū)域的影響,提高了低質(zhì)量圖像的魯棒性。然而有監(jiān)督的方法需要大量標注的訓練數(shù)據(jù),在現(xiàn)實場景中的大規(guī)模數(shù)據(jù)標注難以實現(xiàn)...
【文章來源】:江西師范大學江西省
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
同一行人采集場景(圖片來源于PersonRe-identificationDatasets)
基于深度神經(jīng)網(wǎng)絡的行人再識別研究7頭跟蹤”的重點是確定在任何時候跟蹤的對象在哪里,相似度估計是MTMCT(Multi-TargetMulti-CameraTracking)[38]的關鍵組成部分,相似度估計通常采用Re-ID特征。2.2.1GooLeNet2014年ChristianSzegedy提出一個具有更強表達能力的網(wǎng)絡GooLeNet[39]。它是一種全新的深度學習結(jié)構(gòu),包含很多的inception模塊,采用不同大小的卷積核意味著不同大小的感受野,采用11,33,55的卷積,主要是方便對齊,設定步長stride=1后只需要分別設定padding=2,1,0,就能得到相同的尺寸和相同維度的特征,然后將特征拼接到一起;嵌入池化層,網(wǎng)絡越到后面特征越抽象且每個特征涉及的感受野特更大,隨著層數(shù)的增加,33和55卷積的比例也要增加,如圖2-1所示。圖2-1GooLeNet[39]網(wǎng)絡結(jié)構(gòu)中Inception模塊結(jié)構(gòu)圖(有降維模塊)考慮到通過增大網(wǎng)絡的深度(層數(shù))來獲得更好的訓練效果,但層數(shù)的增加會帶來很多負作用,比如過擬合、梯度消失、梯度爆炸等。GooLeNet中的inception的提出則從另一種角度來提升訓練結(jié)果,代替人工確定卷積層中的過濾器類型或者確定是否需要創(chuàng)建卷積層和池化層,即:不需要人為的決定使用哪個過濾器,是否需要池化層等,由網(wǎng)絡自行決定這些參數(shù),能給網(wǎng)絡添加所有可能值,將輸出連接起來,網(wǎng)絡自己學習它需要什么樣的參數(shù)。能更高效的利用計算資源,在相同的計算量下能提取到更多的特征,從而提升訓練結(jié)果。本文提出的基于時序注意力質(zhì)量感知網(wǎng)絡的行人再識別模型將采用GooLeNet作為深度神經(jīng)網(wǎng)絡框架,模型細節(jié)見本文第3章。
碩士學位論文82.2.2ResNetResNet[40]網(wǎng)絡是由MicrosoftResearch的4位學者提出的卷積神經(jīng)網(wǎng)絡。隨著網(wǎng)絡層數(shù)的加深,簡單地增加網(wǎng)絡層數(shù)將會導致梯度消失和梯度爆炸,隨后相關學者提出正則化初始化和中間的正則化層(BatchNormalization),但易導致退化問題,即隨著網(wǎng)絡層數(shù)地增加,訓練集上的準確率有可能還下降,且并不是由過擬合(overfit)造成。因此相關學者提出在網(wǎng)絡中增加了直連通道,給此前網(wǎng)絡結(jié)構(gòu)的性能輸入做一個非線性變換,ResNet-50網(wǎng)絡結(jié)構(gòu)示意圖如圖2-2所示。充分考慮ResNet-50網(wǎng)絡跨網(wǎng)絡層之間的信息融合優(yōu)勢,使得每一層的輸入由兩層輸出結(jié)果來決定,這種設置可以更好地進行網(wǎng)絡優(yōu)化。在“+”接收到的輸入除了上一層的輸出還有前一層的輸入,因此可以很好的結(jié)合兩層的信息。本文提出的無監(jiān)督深度學習的行人再識別模型將采用ResNet-50作為深度神經(jīng)網(wǎng)絡框架,模型細節(jié)見本文第4章。圖2-2ResNet-50[40]網(wǎng)絡結(jié)構(gòu)示意圖2.3基于深度神經(jīng)網(wǎng)絡的有監(jiān)督行人再識別算法概述當前大多數(shù)基于視頻的行人再識別學術研究工作都是基于深度神經(jīng)網(wǎng)絡[24,41,42],圖像級特征提取器(通常是卷積神經(jīng)網(wǎng)絡),聚合圖像級特征的時序建模以及用于訓練網(wǎng)絡這三部分對基于視頻的行人再識別影響較大。接下來分別簡單介紹一些與本文相關的有監(jiān)督行人再識別算法。2.3.1基于視頻的行人再識別質(zhì)量感知網(wǎng)絡算法在行人再識別任務中,輸入的數(shù)據(jù)通常是每個人多張圖像構(gòu)成的序列,現(xiàn)有的方法有利用卷積神經(jīng)網(wǎng)絡對一個序列中的所有圖像分別提取特征,再將特征進
【參考文獻】:
期刊論文
[1]基于多特征子空間與核學習的行人再識別[J]. 齊美彬,檀勝順,王運俠,劉皓,蔣建國. 自動化學報. 2016(02)
[2]基于多顯著性融合的行人再識別[J]. 霍中花,陳瑩. 光電工程. 2015(09)
[3]基于統(tǒng)計推斷的行人再識別算法[J]. 杜宇寧,艾海舟. 電子與信息學報. 2014(07)
碩士論文
[1]深度學習神經(jīng)網(wǎng)絡在語音識別中的應用研究[D]. 陳碩.華南理工大學 2013
本文編號:2956602
【文章來源】:江西師范大學江西省
【文章頁數(shù)】:48 頁
【學位級別】:碩士
【部分圖文】:
同一行人采集場景(圖片來源于PersonRe-identificationDatasets)
基于深度神經(jīng)網(wǎng)絡的行人再識別研究7頭跟蹤”的重點是確定在任何時候跟蹤的對象在哪里,相似度估計是MTMCT(Multi-TargetMulti-CameraTracking)[38]的關鍵組成部分,相似度估計通常采用Re-ID特征。2.2.1GooLeNet2014年ChristianSzegedy提出一個具有更強表達能力的網(wǎng)絡GooLeNet[39]。它是一種全新的深度學習結(jié)構(gòu),包含很多的inception模塊,采用不同大小的卷積核意味著不同大小的感受野,采用11,33,55的卷積,主要是方便對齊,設定步長stride=1后只需要分別設定padding=2,1,0,就能得到相同的尺寸和相同維度的特征,然后將特征拼接到一起;嵌入池化層,網(wǎng)絡越到后面特征越抽象且每個特征涉及的感受野特更大,隨著層數(shù)的增加,33和55卷積的比例也要增加,如圖2-1所示。圖2-1GooLeNet[39]網(wǎng)絡結(jié)構(gòu)中Inception模塊結(jié)構(gòu)圖(有降維模塊)考慮到通過增大網(wǎng)絡的深度(層數(shù))來獲得更好的訓練效果,但層數(shù)的增加會帶來很多負作用,比如過擬合、梯度消失、梯度爆炸等。GooLeNet中的inception的提出則從另一種角度來提升訓練結(jié)果,代替人工確定卷積層中的過濾器類型或者確定是否需要創(chuàng)建卷積層和池化層,即:不需要人為的決定使用哪個過濾器,是否需要池化層等,由網(wǎng)絡自行決定這些參數(shù),能給網(wǎng)絡添加所有可能值,將輸出連接起來,網(wǎng)絡自己學習它需要什么樣的參數(shù)。能更高效的利用計算資源,在相同的計算量下能提取到更多的特征,從而提升訓練結(jié)果。本文提出的基于時序注意力質(zhì)量感知網(wǎng)絡的行人再識別模型將采用GooLeNet作為深度神經(jīng)網(wǎng)絡框架,模型細節(jié)見本文第3章。
碩士學位論文82.2.2ResNetResNet[40]網(wǎng)絡是由MicrosoftResearch的4位學者提出的卷積神經(jīng)網(wǎng)絡。隨著網(wǎng)絡層數(shù)的加深,簡單地增加網(wǎng)絡層數(shù)將會導致梯度消失和梯度爆炸,隨后相關學者提出正則化初始化和中間的正則化層(BatchNormalization),但易導致退化問題,即隨著網(wǎng)絡層數(shù)地增加,訓練集上的準確率有可能還下降,且并不是由過擬合(overfit)造成。因此相關學者提出在網(wǎng)絡中增加了直連通道,給此前網(wǎng)絡結(jié)構(gòu)的性能輸入做一個非線性變換,ResNet-50網(wǎng)絡結(jié)構(gòu)示意圖如圖2-2所示。充分考慮ResNet-50網(wǎng)絡跨網(wǎng)絡層之間的信息融合優(yōu)勢,使得每一層的輸入由兩層輸出結(jié)果來決定,這種設置可以更好地進行網(wǎng)絡優(yōu)化。在“+”接收到的輸入除了上一層的輸出還有前一層的輸入,因此可以很好的結(jié)合兩層的信息。本文提出的無監(jiān)督深度學習的行人再識別模型將采用ResNet-50作為深度神經(jīng)網(wǎng)絡框架,模型細節(jié)見本文第4章。圖2-2ResNet-50[40]網(wǎng)絡結(jié)構(gòu)示意圖2.3基于深度神經(jīng)網(wǎng)絡的有監(jiān)督行人再識別算法概述當前大多數(shù)基于視頻的行人再識別學術研究工作都是基于深度神經(jīng)網(wǎng)絡[24,41,42],圖像級特征提取器(通常是卷積神經(jīng)網(wǎng)絡),聚合圖像級特征的時序建模以及用于訓練網(wǎng)絡這三部分對基于視頻的行人再識別影響較大。接下來分別簡單介紹一些與本文相關的有監(jiān)督行人再識別算法。2.3.1基于視頻的行人再識別質(zhì)量感知網(wǎng)絡算法在行人再識別任務中,輸入的數(shù)據(jù)通常是每個人多張圖像構(gòu)成的序列,現(xiàn)有的方法有利用卷積神經(jīng)網(wǎng)絡對一個序列中的所有圖像分別提取特征,再將特征進
【參考文獻】:
期刊論文
[1]基于多特征子空間與核學習的行人再識別[J]. 齊美彬,檀勝順,王運俠,劉皓,蔣建國. 自動化學報. 2016(02)
[2]基于多顯著性融合的行人再識別[J]. 霍中花,陳瑩. 光電工程. 2015(09)
[3]基于統(tǒng)計推斷的行人再識別算法[J]. 杜宇寧,艾海舟. 電子與信息學報. 2014(07)
碩士論文
[1]深度學習神經(jīng)網(wǎng)絡在語音識別中的應用研究[D]. 陳碩.華南理工大學 2013
本文編號:2956602
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2956602.html
最近更新
教材專著