基于注意力機制的狹小空間人群擁擠度分析
發(fā)布時間:2021-06-09 16:27
人群擁擠度的分析對維護公共安全極為重要,在空間狹窄的環(huán)境下,由于視角受到局限,人與人、人與物品的遮擋十分嚴重,并且人的尺度不一,密度不均勻,使得傳統(tǒng)人群擁擠度監(jiān)控方法較難直接統(tǒng)計出具體人數(shù)。為此,提出一種基于注意力機制的狹小空間人群擁擠度分析方法,旨在量化人群,通過卷積神經(jīng)網(wǎng)絡(luò)回歸擁擠率分析當(dāng)前空間內(nèi)的人群擁擠程度。設(shè)計一個注意力模塊作為網(wǎng)絡(luò)的前端,通過生成對應(yīng)尺度的注意力圖區(qū)分背景和人群,保留精確的像素點位置信息,以減輕輸入圖像中各種噪聲的影響。在此基礎(chǔ)上,將注意圖和原始圖片通過對應(yīng)像素點相乘,注入到微調(diào)的殘差網(wǎng)絡(luò)中訓(xùn)練得到人群擁擠率。實驗結(jié)果表明,該方法能夠預(yù)測出擁擠率,準(zhǔn)確反映當(dāng)前人群擁擠程度,實現(xiàn)人群的流量控制。
【文章來源】:計算機工程. 2020,46(09)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
整體網(wǎng)絡(luò)結(jié)構(gòu)
生成注意力圖的工作流程如圖2所示,網(wǎng)絡(luò)結(jié)構(gòu)采用的是微調(diào)過的GoogLeNet[12],該網(wǎng)絡(luò)在圖像分類和目標(biāo)定位上都展現(xiàn)出了很好的性能。將GoogLeNet的Inception4e后面的層移除,保持圖像分辨率為14像素×14像素,為使最后的注意力圖和原始輸入圖片能夠融合,保留圖片像素點的位置信息,每個卷積層后面都利用padding對特征圖進行填充,在卷積降低圖像分辨率的同時,保持尺度不變。在卷積輸出前,參照文獻[17]的方法,使用全局平均池化(GAP)和Softmax層,將輸出的每個類別的權(quán)重映射回卷積特征圖,從而生成注意力圖。本文將注意力模塊設(shè)計為一個二分類的網(wǎng)絡(luò),并將圖片內(nèi)容分為背景和人群。如圖2所示,Fb和Fc是最后一層卷積輸出的兩個通道的特征圖,Fb(x,y)、Fc(x,y)分別表示背景和人群在坐標(biāo)(x,y)上像素點的激活值,通過全局平均池化后(圖2中的GAP),得到長度為2的向量,每個長度對應(yīng)一個類別權(quán)重Wb、Wc,那么Softmax層的輸入Sc、Sb如式(1)所示,Softmax層的輸出Pc、Pb可根據(jù)式(2)得到,最后將每個像素點坐標(biāo)的得分Pc,b(x,y)與特征圖Fc,b(x,y)根據(jù)式(3)進行線性加權(quán)融合后,再利用向上采樣(UpSample),得到與原始圖片尺寸相同的注意力圖。
本文構(gòu)建一個新的數(shù)據(jù)集NS-DATASET,該數(shù)據(jù)集中共計17 800張圖片,它們都是在狹小空間內(nèi),視角受到局限如圖3所示,圖3(a)為斜上方視角,如樓道、天橋隧道,圖3(b)為正上方視角,如車廂的下車門通道,圖3(c)為正前方視角,如前后車廂。3.2 網(wǎng)絡(luò)真實值
【參考文獻】:
期刊論文
[1]融合多層卷積特征的雙視點手勢識別技術(shù)研究[J]. 張哲,孫瑾,楊劉濤. 小型微型計算機系統(tǒng). 2019(03)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和密度分布特征的人數(shù)統(tǒng)計方法[J]. 郭繼昌,李翔鵬. 電子科技大學(xué)學(xué)報. 2018(06)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的實時人群密度估計[J]. 李白萍,韓新怡,吳冬梅. 圖學(xué)學(xué)報. 2018(04)
[4]融合LBP與GLCM的人群密度分類算法[J]. 薛翠紅,于洋,張朝,楊鵬,李揚. 電視技術(shù). 2015(24)
碩士論文
[1]基于深度學(xué)習(xí)的人群密度估計算法研究[D]. 韓新怡.西安科技大學(xué) 2018
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度分析[D]. 魏夢.中國科學(xué)技術(shù)大學(xué) 2018
[3]基于灰度共生矩陣的人群密度估計算法研究[D]. 王雅琳.西安科技大學(xué) 2013
本文編號:3220919
【文章來源】:計算機工程. 2020,46(09)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
整體網(wǎng)絡(luò)結(jié)構(gòu)
生成注意力圖的工作流程如圖2所示,網(wǎng)絡(luò)結(jié)構(gòu)采用的是微調(diào)過的GoogLeNet[12],該網(wǎng)絡(luò)在圖像分類和目標(biāo)定位上都展現(xiàn)出了很好的性能。將GoogLeNet的Inception4e后面的層移除,保持圖像分辨率為14像素×14像素,為使最后的注意力圖和原始輸入圖片能夠融合,保留圖片像素點的位置信息,每個卷積層后面都利用padding對特征圖進行填充,在卷積降低圖像分辨率的同時,保持尺度不變。在卷積輸出前,參照文獻[17]的方法,使用全局平均池化(GAP)和Softmax層,將輸出的每個類別的權(quán)重映射回卷積特征圖,從而生成注意力圖。本文將注意力模塊設(shè)計為一個二分類的網(wǎng)絡(luò),并將圖片內(nèi)容分為背景和人群。如圖2所示,Fb和Fc是最后一層卷積輸出的兩個通道的特征圖,Fb(x,y)、Fc(x,y)分別表示背景和人群在坐標(biāo)(x,y)上像素點的激活值,通過全局平均池化后(圖2中的GAP),得到長度為2的向量,每個長度對應(yīng)一個類別權(quán)重Wb、Wc,那么Softmax層的輸入Sc、Sb如式(1)所示,Softmax層的輸出Pc、Pb可根據(jù)式(2)得到,最后將每個像素點坐標(biāo)的得分Pc,b(x,y)與特征圖Fc,b(x,y)根據(jù)式(3)進行線性加權(quán)融合后,再利用向上采樣(UpSample),得到與原始圖片尺寸相同的注意力圖。
本文構(gòu)建一個新的數(shù)據(jù)集NS-DATASET,該數(shù)據(jù)集中共計17 800張圖片,它們都是在狹小空間內(nèi),視角受到局限如圖3所示,圖3(a)為斜上方視角,如樓道、天橋隧道,圖3(b)為正上方視角,如車廂的下車門通道,圖3(c)為正前方視角,如前后車廂。3.2 網(wǎng)絡(luò)真實值
【參考文獻】:
期刊論文
[1]融合多層卷積特征的雙視點手勢識別技術(shù)研究[J]. 張哲,孫瑾,楊劉濤. 小型微型計算機系統(tǒng). 2019(03)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和密度分布特征的人數(shù)統(tǒng)計方法[J]. 郭繼昌,李翔鵬. 電子科技大學(xué)學(xué)報. 2018(06)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的實時人群密度估計[J]. 李白萍,韓新怡,吳冬梅. 圖學(xué)學(xué)報. 2018(04)
[4]融合LBP與GLCM的人群密度分類算法[J]. 薛翠紅,于洋,張朝,楊鵬,李揚. 電視技術(shù). 2015(24)
碩士論文
[1]基于深度學(xué)習(xí)的人群密度估計算法研究[D]. 韓新怡.西安科技大學(xué) 2018
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度分析[D]. 魏夢.中國科學(xué)技術(shù)大學(xué) 2018
[3]基于灰度共生矩陣的人群密度估計算法研究[D]. 王雅琳.西安科技大學(xué) 2013
本文編號:3220919
本文鏈接:http://sikaile.net/guanlilunwen/zhengwuguanli/3220919.html
最近更新
教材專著