基于淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的行人檢測
發(fā)布時間:2019-09-23 14:23
【摘要】:隨著我國宣布大力發(fā)展“互聯(lián)網(wǎng)+”與“創(chuàng)新2.0”,“智慧城市”理念被正式提出。城市的發(fā)展帶來交通流量的急速增長,疲勞駕駛、酒后駕駛等危害公共安全的現(xiàn)象屢禁不止,規(guī)范法律法規(guī)的同時,科技是強(qiáng)有力的輔助手段!爸腔鄢鞘小鄙婕白詣玉{駛、機(jī)器人、智能安防、虛擬現(xiàn)實(shí)(Virtual Reality, VR)、增強(qiáng)現(xiàn)實(shí)(Augmented Reality, AR)等多種技術(shù)。VR/AR被認(rèn)為是未來十年最具市場潛力的技術(shù),據(jù)美國高盛公司分析,到2025年全球VR/AR市場規(guī)模可達(dá)到1800億美元;谟嬎銠C(jī)視覺的精準(zhǔn)的目標(biāo)檢測技術(shù)是上述這些技術(shù)的基石;谟嬎銠C(jī)視覺的目標(biāo)檢測通常指的是在多媒體數(shù)據(jù)中(包括靜態(tài)圖像、視頻序列等),使用計算機(jī)視覺算法自動識別并定位出物體。對人的研究一直以來都是計算機(jī)視覺中最重要的內(nèi)容,人是一類特殊的物體,不但具有一般物體的普遍性,還具有類內(nèi)變化多樣的特殊性,這正是行人檢測的難點(diǎn)所在。因此,行人檢測的研究成果可以普適于一般目標(biāo)的檢測。行人檢測的研究與探索既具有科研價值,也具有社會應(yīng)用價值。近兩年來,深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域取得了許多突破性成果,例如圖像識別、目標(biāo)檢測、目標(biāo)跟蹤、圖像分割等。深度學(xué)習(xí)大幅提高了行人檢測的性能,但相比于淺層學(xué)習(xí),深度學(xué)習(xí)的理論目前仍處于探索階段。淺層學(xué)習(xí)模型簡單、訓(xùn)練靈活、小樣本訓(xùn)練的優(yōu)點(diǎn)使其在很多領(lǐng)域還具有重要作用。若能提取合適的特征用于訓(xùn)練,淺層學(xué)習(xí)依然可以取得較好的性能。規(guī)避人工規(guī)則的特征提取是深度學(xué)習(xí)的主要優(yōu)點(diǎn)之一,也是其潛在的不足之處。恰當(dāng)?shù)膶?dǎo)向性在日常生活中具有重要的作用,在深度學(xué)習(xí)中亦是。在深度學(xué)習(xí)過程中,若能加入適當(dāng)?shù)囊龑?dǎo),則可能取得更好的學(xué)習(xí)效果。本文由淺層學(xué)習(xí)的行人檢測研究引入,說明提取合適的人工特征可以有效提高檢測效果,最后落腳至深度學(xué)習(xí)的行人檢測,說明淺層的引導(dǎo)學(xué)習(xí)可以提高深度模型精度。全文完成了以下工作:本文首先提出了一種快速提取高質(zhì)量行人候選區(qū)域的方法BINGH,取代了傳統(tǒng)的滑動窗口法。該方法大大減少了候選框的數(shù)量,減少了圖像分類的工作量。二值賦范梯度(BING)是現(xiàn)在最好的目標(biāo)推薦法之一,但僅采用了最簡單的梯度(NG)特征,描述物體還存在一些局限性。均值哈希(aHash)特征可以很好地描述圖像中的低頻信息,且計算量極低。本文使用聯(lián)合NG和aHash的二值賦范梯度哈希(BINGH)特征,既可以描述物體的輪廓邊緣信息,又可以描述物體的低頻結(jié)構(gòu)信息。在使用人體單類訓(xùn)練時,僅提供500個候選區(qū)域時即達(dá)到了較高的DR (Detection Rate)。為了加速檢測,本文提出的BINGH方法采取了計算機(jī)指令集(SSE)和位運(yùn)算(BITWISE SHIFT)等多種優(yōu)化方式,在單CPU上可以達(dá)到200幀/秒的檢測速度。其次,提出了一種聯(lián)合改進(jìn)的HOG與自適應(yīng)LBP的快速行人檢測方法。首先使用基于學(xué)習(xí)的目標(biāo)推薦法BINGH篩選行人候選區(qū)域,加速檢測過程。隨后在圖像分類過程中,使用提出的HOG-ALBP聯(lián)合算子提升LBP算子描述紋理的準(zhǔn)確性,以減少單HOG算子容易引發(fā)的人體類似物體誤檢,并結(jié)合可形變部件模型(DPM)和隱變量SVM進(jìn)一步提升檢測效果。為了進(jìn)一步加速檢測,一方面使用特征算子預(yù)處理方法減少檢測過程存在的計算冗余,另一方面從HOG特征自身角度優(yōu)化計算量。實(shí)驗(yàn)結(jié)果顯示,該方法降低了虛警率,提高了檢測效率。再次,提出了一種聯(lián)合概率聚合分割(SPA)與感知哈希(pHash)的行人檢測方法。首先使用對比度保持去色(CPD)算法提高了灰度圖像的對比度,更有利于圖像識別。聯(lián)合概率聚合分割和感知哈希組成的HSH (HOG-SPA-pHash)聯(lián)合算子可以適應(yīng)行人尺度變化、背景變化和圖像清晰度變化。實(shí)驗(yàn)結(jié)果顯示,在不使用DPM時,HSH聯(lián)合算子自身依然具備一定的抗形變和抗遮擋的能力,且跨數(shù)據(jù)集檢測效果較好,在某些數(shù)據(jù)集上取得了近似于深度學(xué)習(xí)方法的檢測效果。最后,提出了淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的行人檢測方法Guided Faster R-CNN。本文使用基于淺層學(xué)習(xí)的SVM引導(dǎo)基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)中的Dropout過程,提出了Selective Dropout,進(jìn)一步降低了學(xué)習(xí)中的過擬合性。以深度學(xué)習(xí)為管道,淺層學(xué)習(xí)作引導(dǎo),實(shí)現(xiàn)了淺層學(xué)習(xí)與深度學(xué)習(xí)的優(yōu)勢互補(bǔ),引導(dǎo)學(xué)習(xí)增強(qiáng)了深度學(xué)習(xí)的泛化能力。同時,本文基于Faster R-CNN框架,在RPN中增加了自適應(yīng)池化層以免除縮放圖像步驟,在Fast R-CNN中增加了金字塔感興趣區(qū)域池化層以適應(yīng)更多尺度變化。另外,本文基于難例挖掘策略進(jìn)行訓(xùn)練,并針對目前深度學(xué)習(xí)中的激活函數(shù)、隱層歸一化等主流關(guān)鍵技術(shù)做了改進(jìn)。實(shí)驗(yàn)結(jié)果顯示,基于Caffe平臺實(shí)現(xiàn)的Guided Faster R-CNN行人檢測方法在多個數(shù)據(jù)集上取得了優(yōu)秀的、實(shí)時的檢測效果。很多行人檢測算法存在魯棒性和實(shí)時性問題,即無法很好地在效果和速度方面達(dá)到一個權(quán)衡。本文的方法具備較好的泛化性、實(shí)用性,與其他方法相比,檢測效果有明顯優(yōu)勢,檢測速度滿足實(shí)時檢測的要求。
【圖文】:
?邐非剛性形變與遮擋逡逑人體運(yùn)動中容易受到前景物體的遮擋,同時,人的四肢常常于運(yùn)動狀態(tài),,即便處于逡逑靜止?fàn)顟B(tài),也會產(chǎn)生不同的動作。人體的靈活性使得人的姿態(tài)千變?nèi)f化,因此非剛性形逡逑變也產(chǎn)生了相應(yīng)的檢測困難,如圖1-8所示。逡逑曊咖\∩瑰義賢跡保阜歉招鄖殺溆胝詰檔那杉戾義?逦侧面试伹辶x先頌宓墓鄄焓詠怯姓媸詠、侧面试亞芡顶部试仩楷其中正面试亞芡侧面试亯︺暘辶x銑<4蠖嗍觳餛鞫圓嗝媸詠塹男腥思觳廡Ч患,壤_跡保顧盡e義
本文編號:2540343
【圖文】:
?邐非剛性形變與遮擋逡逑人體運(yùn)動中容易受到前景物體的遮擋,同時,人的四肢常常于運(yùn)動狀態(tài),,即便處于逡逑靜止?fàn)顟B(tài),也會產(chǎn)生不同的動作。人體的靈活性使得人的姿態(tài)千變?nèi)f化,因此非剛性形逡逑變也產(chǎn)生了相應(yīng)的檢測困難,如圖1-8所示。逡逑曊咖\∩瑰義賢跡保阜歉招鄖殺溆胝詰檔那杉戾義?逦侧面试伹辶x先頌宓墓鄄焓詠怯姓媸詠、侧面试亞芡顶部试仩楷其中正面试亞芡侧面试亯︺暘辶x銑<4蠖嗍觳餛鞫圓嗝媸詠塹男腥思觳廡Ч患,壤_跡保顧盡e義
本文編號:2540343
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2540343.html
最近更新
教材專著