基于物體識別地理配準(zhǔn)的跨視頻行人檢測定位技術(shù)研究
發(fā)布時間:2021-09-06 05:01
跨視頻行人檢測是計算機視覺領(lǐng)域的重要分支之一,該技術(shù)在監(jiān)控視頻系統(tǒng)日益普及的今天擁有巨大的發(fā)展前景和市場價值,F(xiàn)有系統(tǒng)主要通過提取目標(biāo)特征參數(shù),采用視頻檢索的方法,實現(xiàn)跨視頻目標(biāo)追蹤,因此國內(nèi)外相關(guān)學(xué)者的研究重點主要通過尋找優(yōu)化的特征參數(shù)和檢索方法達到更好的追蹤效果。由于該方法并未解決對行人地理位置信息描述的問題,故無法獲取目標(biāo)行人的運動軌跡。本文主要對基于物體識別的地理配準(zhǔn)技術(shù)以及跨視頻行人追蹤相關(guān)技術(shù)進行研究,通過應(yīng)用示范,建立行人軌跡仿真系統(tǒng),對行人實現(xiàn)地理信息定位。針對監(jiān)控視頻系統(tǒng)缺少地理位置信息的問題,本文提出一種基于物體識別的視頻地理配準(zhǔn)方法,獲取視頻監(jiān)控區(qū)域的地理位置信息。針對實時視頻流多視頻行人追蹤方法運算量大、復(fù)雜度高、應(yīng)用能力弱的缺點,采用基于運動物體檢測優(yōu)化的快速人頭識別的方法,提高行人定位速度,并獲取行人地理位置信息。在多視頻聯(lián)動的監(jiān)控場景下,行人地理位置信息作為先驗數(shù)據(jù),可應(yīng)用于跨視頻行人追蹤。本文主要工作包括以下幾點:(1)提出一種基于物體識別和空間地物拓撲匹配的視頻地理配準(zhǔn)方法:采用多種網(wǎng)絡(luò)公開訓(xùn)練集結(jié)合3D模型圖片的方式優(yōu)化訓(xùn)練集,結(jié)合地物空間數(shù)據(jù)庫,計...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院)廣東省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
YOLO物體識別的方法
第3章基于物體識別和拓撲匹配的視頻配準(zhǔn)方法37的方法將監(jiān)控視頻中具有直觀地面區(qū)域提取出來,根據(jù)實際情況的需要剪裁成多個圖像再進行透視變換糾正。圖像透視變換流程如下:原始圖像剪裁后的傾斜圖像1剪裁后的傾斜圖像1透視變換糾正基于地理標(biāo)定拼接具有地理信息的透視變換圖像剪裁剪裁糾正后的圖像1糾正后的圖像1圖3.16透視變換流程圖Figure3.16Perspectivetransformationflowchart將原始圖像的平面部分裁剪得到多張圖片,為了更好的可視化效果,需根據(jù)透視矩陣對這些圖像進行透視變換[40],使圖像中每個像素點能更好的與世界坐標(biāo)系對應(yīng)。由于這些圖像具有地理位置關(guān)系,因此基于地理標(biāo)定,可拼接成透視變換后地面區(qū)域的圖像。投影的目標(biāo)平面為地面平面,與WGS84坐標(biāo)系相匹配,因此本文研究的場景屬于透視投影類型。監(jiān)控視頻通過透視投影,在3D場景中映射在平面地面上,從人的感官角度來講,透視投影符合人的直觀視覺感受,同時也契合本文的研究場景。圖3.17透視投影模型Figure3.17Perspectiveprojectionmodel
第4章跨視頻行人檢測定位技術(shù)434.2.2基于場景分離優(yōu)化的快速行人檢測本節(jié)開頭部分介紹了人頭檢測器在快速檢測行人領(lǐng)域的優(yōu)勢,不同于行人檢測模型對行人整體構(gòu)建特征進行檢測,F(xiàn)CHD[32]是一種完全卷積的頭部檢測模型,優(yōu)勢在于標(biāo)清視頻流下運算速度可達45pfs。FCHD的網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別于Faster-RCNN模型的兩級流水線,只保留一個執(zhí)行頭部檢測的單級流水線。FCHD網(wǎng)絡(luò)的前半部分使用訓(xùn)練好的VGG16作為特征提取層,使用VGG16conv5-3層的結(jié)果,輸出的維度是(30,40,512)經(jīng)過一次卷積,然后是一層卷積核為(3,3,512,512)的卷積層,得到的結(jié)果經(jīng)過Relu激活函數(shù)。然后分別運用1*1卷積進入Regressionhead(人頭位置回歸)和Classificationhead(人頭判定),最后將得到的兩步中的矩陣做檢測框偏移以及非極大值抑制(NMS),得到預(yù)測的頭部框位置。其網(wǎng)絡(luò)結(jié)構(gòu)如圖4.3所示。圖4.3FCHD網(wǎng)絡(luò)結(jié)構(gòu)Figure4.3FCHDNetworkStructure用于訓(xùn)練模型的損失函數(shù)是多任務(wù)損失函數(shù),和RPN訓(xùn)練定義的函數(shù)類似:({}{})=1∑(,)+1∑(,)(4.1)其中是對所有選定錨點的索引,根據(jù)網(wǎng)絡(luò)結(jié)果,范圍為32個選定錨點。是對描述頭部的預(yù)測概率,是Ground-truth標(biāo)簽,為1或者0,是預(yù)測邊界框的參數(shù)化坐標(biāo),例如縮放或者移動,是Ground-truth參數(shù)化移動坐標(biāo).,分別為分類和回歸的樣本數(shù)。對一張4k圖像以30*40區(qū)域錨定的運行速度比640*480圖像慢28倍。如果
【參考文獻】:
期刊論文
[1]融合背景差分法和幀間差分法的運動目標(biāo)檢測[J]. 陳媛,胡娜,余秋月. 現(xiàn)代計算機. 2019(34)
[2]基于視覺物體識別的抗差嶺估計定位算法[J]. 徐昊瑋,廉保旺,鄒曉軍,岳哲,吳鵬. 電子與信息學(xué)報. 2018(10)
[3]基于拓撲結(jié)構(gòu)的地圖匹配算法研究[J]. 盧文濤,周銀東,梅順良,尚銘. 測控技術(shù). 2010(06)
[4]透視和透視投影變換——論圖形變換和投影的若干問題之三[J]. 何援軍. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2005(04)
博士論文
[1]海量多媒體數(shù)據(jù)的地理信息標(biāo)注技術(shù)及其應(yīng)用[D]. 劉衡.中國科學(xué)技術(shù)大學(xué) 2014
[2]面向監(jiān)控視頻的行人重識別技術(shù)研究[D]. 王亦民.武漢大學(xué) 2014
[3]基于BIM的建筑工程信息集成與管理研究[D]. 張洋.清華大學(xué) 2009
碩士論文
[1]基于馬爾科夫的張量鏈模型及其在用戶行為軌跡的預(yù)測[D]. 李錦濤.華中科技大學(xué) 2019
[2]智能監(jiān)控中的行人長時跟蹤方法研究[D]. 黃燁霖.華南理工大學(xué) 2018
[3]基于人臉識別技術(shù)和邊緣計算技術(shù)的智能系統(tǒng)研究[D]. 蔡成飛.浙江大學(xué) 2018
[4]基于度量學(xué)習(xí)和稀疏表示的行人重識別技術(shù)研究[D]. 丘宇輝.華南理工大學(xué) 2015
本文編號:3386799
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院)廣東省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
YOLO物體識別的方法
第3章基于物體識別和拓撲匹配的視頻配準(zhǔn)方法37的方法將監(jiān)控視頻中具有直觀地面區(qū)域提取出來,根據(jù)實際情況的需要剪裁成多個圖像再進行透視變換糾正。圖像透視變換流程如下:原始圖像剪裁后的傾斜圖像1剪裁后的傾斜圖像1透視變換糾正基于地理標(biāo)定拼接具有地理信息的透視變換圖像剪裁剪裁糾正后的圖像1糾正后的圖像1圖3.16透視變換流程圖Figure3.16Perspectivetransformationflowchart將原始圖像的平面部分裁剪得到多張圖片,為了更好的可視化效果,需根據(jù)透視矩陣對這些圖像進行透視變換[40],使圖像中每個像素點能更好的與世界坐標(biāo)系對應(yīng)。由于這些圖像具有地理位置關(guān)系,因此基于地理標(biāo)定,可拼接成透視變換后地面區(qū)域的圖像。投影的目標(biāo)平面為地面平面,與WGS84坐標(biāo)系相匹配,因此本文研究的場景屬于透視投影類型。監(jiān)控視頻通過透視投影,在3D場景中映射在平面地面上,從人的感官角度來講,透視投影符合人的直觀視覺感受,同時也契合本文的研究場景。圖3.17透視投影模型Figure3.17Perspectiveprojectionmodel
第4章跨視頻行人檢測定位技術(shù)434.2.2基于場景分離優(yōu)化的快速行人檢測本節(jié)開頭部分介紹了人頭檢測器在快速檢測行人領(lǐng)域的優(yōu)勢,不同于行人檢測模型對行人整體構(gòu)建特征進行檢測,F(xiàn)CHD[32]是一種完全卷積的頭部檢測模型,優(yōu)勢在于標(biāo)清視頻流下運算速度可達45pfs。FCHD的網(wǎng)絡(luò)結(jié)構(gòu)區(qū)別于Faster-RCNN模型的兩級流水線,只保留一個執(zhí)行頭部檢測的單級流水線。FCHD網(wǎng)絡(luò)的前半部分使用訓(xùn)練好的VGG16作為特征提取層,使用VGG16conv5-3層的結(jié)果,輸出的維度是(30,40,512)經(jīng)過一次卷積,然后是一層卷積核為(3,3,512,512)的卷積層,得到的結(jié)果經(jīng)過Relu激活函數(shù)。然后分別運用1*1卷積進入Regressionhead(人頭位置回歸)和Classificationhead(人頭判定),最后將得到的兩步中的矩陣做檢測框偏移以及非極大值抑制(NMS),得到預(yù)測的頭部框位置。其網(wǎng)絡(luò)結(jié)構(gòu)如圖4.3所示。圖4.3FCHD網(wǎng)絡(luò)結(jié)構(gòu)Figure4.3FCHDNetworkStructure用于訓(xùn)練模型的損失函數(shù)是多任務(wù)損失函數(shù),和RPN訓(xùn)練定義的函數(shù)類似:({}{})=1∑(,)+1∑(,)(4.1)其中是對所有選定錨點的索引,根據(jù)網(wǎng)絡(luò)結(jié)果,范圍為32個選定錨點。是對描述頭部的預(yù)測概率,是Ground-truth標(biāo)簽,為1或者0,是預(yù)測邊界框的參數(shù)化坐標(biāo),例如縮放或者移動,是Ground-truth參數(shù)化移動坐標(biāo).,分別為分類和回歸的樣本數(shù)。對一張4k圖像以30*40區(qū)域錨定的運行速度比640*480圖像慢28倍。如果
【參考文獻】:
期刊論文
[1]融合背景差分法和幀間差分法的運動目標(biāo)檢測[J]. 陳媛,胡娜,余秋月. 現(xiàn)代計算機. 2019(34)
[2]基于視覺物體識別的抗差嶺估計定位算法[J]. 徐昊瑋,廉保旺,鄒曉軍,岳哲,吳鵬. 電子與信息學(xué)報. 2018(10)
[3]基于拓撲結(jié)構(gòu)的地圖匹配算法研究[J]. 盧文濤,周銀東,梅順良,尚銘. 測控技術(shù). 2010(06)
[4]透視和透視投影變換——論圖形變換和投影的若干問題之三[J]. 何援軍. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2005(04)
博士論文
[1]海量多媒體數(shù)據(jù)的地理信息標(biāo)注技術(shù)及其應(yīng)用[D]. 劉衡.中國科學(xué)技術(shù)大學(xué) 2014
[2]面向監(jiān)控視頻的行人重識別技術(shù)研究[D]. 王亦民.武漢大學(xué) 2014
[3]基于BIM的建筑工程信息集成與管理研究[D]. 張洋.清華大學(xué) 2009
碩士論文
[1]基于馬爾科夫的張量鏈模型及其在用戶行為軌跡的預(yù)測[D]. 李錦濤.華中科技大學(xué) 2019
[2]智能監(jiān)控中的行人長時跟蹤方法研究[D]. 黃燁霖.華南理工大學(xué) 2018
[3]基于人臉識別技術(shù)和邊緣計算技術(shù)的智能系統(tǒng)研究[D]. 蔡成飛.浙江大學(xué) 2018
[4]基于度量學(xué)習(xí)和稀疏表示的行人重識別技術(shù)研究[D]. 丘宇輝.華南理工大學(xué) 2015
本文編號:3386799
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3386799.html
最近更新
教材專著