基于卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)物體檢測(cè)方法研究
發(fā)布時(shí)間:2021-09-02 19:26
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的一個(gè)基礎(chǔ)但又十分重要的任務(wù),F(xiàn)階段基于深度學(xué)習(xí)算法尤其是卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)器成為了檢測(cè)領(lǐng)域的主流。并且和基于傳統(tǒng)特征提取算法的檢測(cè)器相比,無(wú)論是在檢測(cè)準(zhǔn)確率還是在推理速度上都有著顯著性的提高。在基于卷積的目標(biāo)檢測(cè)器中,兩階段檢測(cè)器Faster R-CNN和單階段檢測(cè)器YOLOv2,YOLOv3雖然在性能上相比其他的檢測(cè)器有著明顯的檢測(cè)準(zhǔn)確率或者推理速度的優(yōu)勢(shì)。但是,我們?nèi)匀豢梢詫?duì)其進(jìn)行一些優(yōu)化和改進(jìn)來(lái)得到更為高效的檢測(cè)結(jié)果。本文主要有以下三個(gè)創(chuàng)新點(diǎn):首先,針對(duì)由于目標(biāo)檢測(cè)器Faster R-CNN的區(qū)域生成網(wǎng)絡(luò)產(chǎn)生的表示物體在圖片上潛在位置的候選區(qū)域的不太準(zhǔn)確性,從而制約了其最終檢測(cè)準(zhǔn)確率的進(jìn)一步提升的問(wèn)題,提出了基于Faster R-CNN的候選區(qū)域純迭代提煉模型和LSTM迭代提煉模型。純迭代提煉模型在PASCAL VOC 07訓(xùn)練集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練,在測(cè)試集上基于VGG-16骨干網(wǎng)絡(luò)的迭代模型得到的最好m AP比基準(zhǔn)高1.1%,基于ZFNet得到的最好m AP比基準(zhǔn)高1.5%。LSTM迭代提煉模型也能夠較好地提升檢測(cè)準(zhǔn)確率。而且由于LSTM層的加入,使得此模...
【文章來(lái)源】:遼寧科技大學(xué)遼寧省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
FasterR-CNN檢測(cè)器Fig.2.1FasterR-CNNdetectorFasterR-CNN檢測(cè)器的檢測(cè)示意圖如圖2.1所示
8檢測(cè)網(wǎng)絡(luò)的骨干特征提取網(wǎng)絡(luò)共享卷積層運(yùn)算,極大地提高了模型在訓(xùn)練和推理階段的運(yùn)算速度。FasterR-CNN檢測(cè)器使用創(chuàng)新性的RPN替代了傳統(tǒng)的基于原始像素特征的選擇性搜索算法來(lái)生成候選區(qū)域,使得整個(gè)檢測(cè)模型實(shí)現(xiàn)了真正意義上的端到端的訓(xùn)練和測(cè)試過(guò)程。2.1.1FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖2.2為基于VGG-16骨干特征提取網(wǎng)絡(luò)的FasterR-CNN檢測(cè)器結(jié)構(gòu)示意圖。從圖中可以看到,對(duì)于任意大小的輸入圖片P×Q,檢測(cè)網(wǎng)絡(luò)首先都先將圖片尺度縮小或著放大到統(tǒng)一的尺度M×N,然后將固定尺度的圖片傳入VGG-16網(wǎng)絡(luò)進(jìn)行特征提齲VGG-16的整個(gè)卷積結(jié)構(gòu)由13個(gè)卷積層、13個(gè)relu層和4個(gè)池化層組成。特征圖通過(guò)區(qū)域生成網(wǎng)絡(luò)的3×3滑動(dòng)卷積,生成的正的先驗(yàn)錨框和計(jì)算出相應(yīng)的邊界框回歸偏移量,從而得到最終的候選區(qū)域。ROI池化層則利用候選區(qū)域坐標(biāo)從特征圖上提取相應(yīng)的特征通過(guò)全連接層送入最終的分類和回歸檢測(cè)層。圖2.2基于VGG-16的FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2.2FasterR-CNNnetworkstructurebasedonVGG-162.1.2RPN結(jié)構(gòu)描述基于傳統(tǒng)的圖片原始的像素特征,或者通過(guò)算法手工設(shè)計(jì)特征描述算子的方法來(lái)生成候選區(qū)域通常需要花費(fèi)大量的時(shí)間。比如經(jīng)典的Adaboost算法[43]通過(guò)在圖像金字塔級(jí)別上面采用滑動(dòng)窗口的方式來(lái)生成候選框,F(xiàn)astR-CNN通過(guò)基于原始像素特征和紋理特征的選擇性搜索方法[44]來(lái)生成候選框,這兩種方法都需要花費(fèi)很多的時(shí)間才能完成相應(yīng)的候選區(qū)域生成的工作任務(wù),從而極大地增加了檢測(cè)所需的時(shí)間,降低了檢測(cè)的效率。FasterR-CNN則沒(méi)有使用基于傳統(tǒng)特征的方式來(lái)生成候選區(qū)域,而是巧妙地設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域生成網(wǎng)絡(luò)來(lái)
洌?提高了整體的檢測(cè)效率。圖2.3為FasterR-CNN區(qū)域生成網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,從圖中可以清楚地看到,RPN內(nèi)部由兩條圖片特征流程處理線路組成。圖2.3上面的流程通過(guò)Softmax分類器對(duì)于生成的先驗(yàn)錨框進(jìn)行正負(fù)類別判定。下面的流程用來(lái)計(jì)算錨框的邊界框回歸的偏移量。圖中Proposal層的作用是根據(jù)前面計(jì)算得到的正的錨框和相應(yīng)的邊界框的偏移量計(jì)算得到最終的候選區(qū)域,同時(shí)去除尺度太小和超出圖片邊界的候選區(qū)域。區(qū)域生成網(wǎng)絡(luò)在經(jīng)過(guò)了Proposal層的運(yùn)算之后,其實(shí)就大致相當(dāng)于完成了對(duì)于圖片中物體潛在位置的大致定位操作。圖2.3RPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2.3RPNnetworkstructure2.1.3FasterR-CNN損失函數(shù)由于FasterR-CNN的區(qū)域生成網(wǎng)絡(luò)和FastR-CNN檢測(cè)網(wǎng)絡(luò)共享骨干網(wǎng)絡(luò)的卷積層,所以區(qū)域生成網(wǎng)絡(luò)用來(lái)提取圖片特征圖的網(wǎng)絡(luò)和FastR-CNN是一樣的。同樣,對(duì)于訓(xùn)練區(qū)域生成網(wǎng)絡(luò)和FastR-CNN檢測(cè)網(wǎng)絡(luò)的損失函數(shù)都包括物體類別的損失誤差和位置回歸的損失誤差。區(qū)域生成網(wǎng)絡(luò)訓(xùn)練過(guò)程中使用的損失函數(shù)為:11({},{})=(,)+(,)iiclassiiiregiiclassiregiLptLpppLttNNλ(2.1)在公式2.1中,i為相應(yīng)錨框的索引標(biāo)號(hào),pi為通過(guò)Softmax分類器計(jì)算后的相應(yīng)的正錨框的分類為前景的類別概率。p*i為相應(yīng)的錨框和某個(gè)基準(zhǔn)框相匹配或者不匹配的概率值。即假設(shè)第i個(gè)錨框和某個(gè)基準(zhǔn)框之間的交并比大于0.7,那么該錨框就被判定為正,p*i賦值為1。如果錨框和所有基準(zhǔn)框的交并比都小于0.3,那么該錨框就被判定為負(fù),p*i賦值為0。交并比在0.3和0.7之間的錨框即不判定為正也不判定為負(fù),不參與到區(qū)域生成網(wǎng)絡(luò)的訓(xùn)練中。t為通過(guò)網(wǎng)絡(luò)預(yù)測(cè)的物體邊界框,t為預(yù)測(cè)的物體邊界框所對(duì)應(yīng)的物體基準(zhǔn)框。從公式2.1可以看到,總的損失函數(shù)由類別損失項(xiàng)和回歸損失項(xiàng)?
【參考文獻(xiàn)】:
期刊論文
[1]基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)綜述[J]. 吳帥,徐勇,趙東寧. 模式識(shí)別與人工智能. 2018(04)
[2]深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的應(yīng)用進(jìn)展與展望[J]. 張慧,王坤峰,王飛躍. 自動(dòng)化學(xué)報(bào). 2017(08)
本文編號(hào):3379592
【文章來(lái)源】:遼寧科技大學(xué)遼寧省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
FasterR-CNN檢測(cè)器Fig.2.1FasterR-CNNdetectorFasterR-CNN檢測(cè)器的檢測(cè)示意圖如圖2.1所示
8檢測(cè)網(wǎng)絡(luò)的骨干特征提取網(wǎng)絡(luò)共享卷積層運(yùn)算,極大地提高了模型在訓(xùn)練和推理階段的運(yùn)算速度。FasterR-CNN檢測(cè)器使用創(chuàng)新性的RPN替代了傳統(tǒng)的基于原始像素特征的選擇性搜索算法來(lái)生成候選區(qū)域,使得整個(gè)檢測(cè)模型實(shí)現(xiàn)了真正意義上的端到端的訓(xùn)練和測(cè)試過(guò)程。2.1.1FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖2.2為基于VGG-16骨干特征提取網(wǎng)絡(luò)的FasterR-CNN檢測(cè)器結(jié)構(gòu)示意圖。從圖中可以看到,對(duì)于任意大小的輸入圖片P×Q,檢測(cè)網(wǎng)絡(luò)首先都先將圖片尺度縮小或著放大到統(tǒng)一的尺度M×N,然后將固定尺度的圖片傳入VGG-16網(wǎng)絡(luò)進(jìn)行特征提齲VGG-16的整個(gè)卷積結(jié)構(gòu)由13個(gè)卷積層、13個(gè)relu層和4個(gè)池化層組成。特征圖通過(guò)區(qū)域生成網(wǎng)絡(luò)的3×3滑動(dòng)卷積,生成的正的先驗(yàn)錨框和計(jì)算出相應(yīng)的邊界框回歸偏移量,從而得到最終的候選區(qū)域。ROI池化層則利用候選區(qū)域坐標(biāo)從特征圖上提取相應(yīng)的特征通過(guò)全連接層送入最終的分類和回歸檢測(cè)層。圖2.2基于VGG-16的FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2.2FasterR-CNNnetworkstructurebasedonVGG-162.1.2RPN結(jié)構(gòu)描述基于傳統(tǒng)的圖片原始的像素特征,或者通過(guò)算法手工設(shè)計(jì)特征描述算子的方法來(lái)生成候選區(qū)域通常需要花費(fèi)大量的時(shí)間。比如經(jīng)典的Adaboost算法[43]通過(guò)在圖像金字塔級(jí)別上面采用滑動(dòng)窗口的方式來(lái)生成候選框,F(xiàn)astR-CNN通過(guò)基于原始像素特征和紋理特征的選擇性搜索方法[44]來(lái)生成候選框,這兩種方法都需要花費(fèi)很多的時(shí)間才能完成相應(yīng)的候選區(qū)域生成的工作任務(wù),從而極大地增加了檢測(cè)所需的時(shí)間,降低了檢測(cè)的效率。FasterR-CNN則沒(méi)有使用基于傳統(tǒng)特征的方式來(lái)生成候選區(qū)域,而是巧妙地設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域生成網(wǎng)絡(luò)來(lái)
洌?提高了整體的檢測(cè)效率。圖2.3為FasterR-CNN區(qū)域生成網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,從圖中可以清楚地看到,RPN內(nèi)部由兩條圖片特征流程處理線路組成。圖2.3上面的流程通過(guò)Softmax分類器對(duì)于生成的先驗(yàn)錨框進(jìn)行正負(fù)類別判定。下面的流程用來(lái)計(jì)算錨框的邊界框回歸的偏移量。圖中Proposal層的作用是根據(jù)前面計(jì)算得到的正的錨框和相應(yīng)的邊界框的偏移量計(jì)算得到最終的候選區(qū)域,同時(shí)去除尺度太小和超出圖片邊界的候選區(qū)域。區(qū)域生成網(wǎng)絡(luò)在經(jīng)過(guò)了Proposal層的運(yùn)算之后,其實(shí)就大致相當(dāng)于完成了對(duì)于圖片中物體潛在位置的大致定位操作。圖2.3RPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2.3RPNnetworkstructure2.1.3FasterR-CNN損失函數(shù)由于FasterR-CNN的區(qū)域生成網(wǎng)絡(luò)和FastR-CNN檢測(cè)網(wǎng)絡(luò)共享骨干網(wǎng)絡(luò)的卷積層,所以區(qū)域生成網(wǎng)絡(luò)用來(lái)提取圖片特征圖的網(wǎng)絡(luò)和FastR-CNN是一樣的。同樣,對(duì)于訓(xùn)練區(qū)域生成網(wǎng)絡(luò)和FastR-CNN檢測(cè)網(wǎng)絡(luò)的損失函數(shù)都包括物體類別的損失誤差和位置回歸的損失誤差。區(qū)域生成網(wǎng)絡(luò)訓(xùn)練過(guò)程中使用的損失函數(shù)為:11({},{})=(,)+(,)iiclassiiiregiiclassiregiLptLpppLttNNλ(2.1)在公式2.1中,i為相應(yīng)錨框的索引標(biāo)號(hào),pi為通過(guò)Softmax分類器計(jì)算后的相應(yīng)的正錨框的分類為前景的類別概率。p*i為相應(yīng)的錨框和某個(gè)基準(zhǔn)框相匹配或者不匹配的概率值。即假設(shè)第i個(gè)錨框和某個(gè)基準(zhǔn)框之間的交并比大于0.7,那么該錨框就被判定為正,p*i賦值為1。如果錨框和所有基準(zhǔn)框的交并比都小于0.3,那么該錨框就被判定為負(fù),p*i賦值為0。交并比在0.3和0.7之間的錨框即不判定為正也不判定為負(fù),不參與到區(qū)域生成網(wǎng)絡(luò)的訓(xùn)練中。t為通過(guò)網(wǎng)絡(luò)預(yù)測(cè)的物體邊界框,t為預(yù)測(cè)的物體邊界框所對(duì)應(yīng)的物體基準(zhǔn)框。從公式2.1可以看到,總的損失函數(shù)由類別損失項(xiàng)和回歸損失項(xiàng)?
【參考文獻(xiàn)】:
期刊論文
[1]基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)綜述[J]. 吳帥,徐勇,趙東寧. 模式識(shí)別與人工智能. 2018(04)
[2]深度學(xué)習(xí)在目標(biāo)視覺(jué)檢測(cè)中的應(yīng)用進(jìn)展與展望[J]. 張慧,王坤峰,王飛躍. 自動(dòng)化學(xué)報(bào). 2017(08)
本文編號(hào):3379592
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3379592.html
最近更新
教材專著