基于深度學(xué)習(xí)的目標(biāo)檢測研究與實現(xiàn)
發(fā)布時間:2021-01-13 08:05
目標(biāo)檢測是計算機(jī)視覺中重要的基本問題之一,它的目的主要是從靜態(tài)圖片中定位并檢測出特定的目標(biāo)。目標(biāo)檢測技術(shù)將圖像處理、語義分割、智能場景和自動控制等技術(shù)結(jié)合起來,在諸如自動駕駛、醫(yī)學(xué)影像、人機(jī)交互、運動跟蹤等方面有著廣泛的應(yīng)用;趥鹘y(tǒng)方法的目標(biāo)檢測算法將特征提取和分類決策獨立開來,使用人工提取或設(shè)計特征,這在面對復(fù)雜場景的時候很難得到理想的效果。自從深度學(xué)習(xí)概念被Hinton教授提出,研究者們發(fā)現(xiàn)深度學(xué)習(xí)方法有著巨大的性能和速度優(yōu)勢,于是越來越多地被應(yīng)用至各個領(lǐng)域中去,其中包含目標(biāo)檢測。深度學(xué)習(xí)和淺層學(xué)習(xí)的區(qū)別主要有兩點:一、加深了網(wǎng)絡(luò)模型深度,形成了更多的隱層節(jié)點;二、經(jīng)過每一層的特征變換,將原本輸入至網(wǎng)絡(luò)的圖像從一個量化空間變換到另一個新的量化空間,突出了每層特征的特點,使后續(xù)的分類檢測更加容易。深度學(xué)習(xí)不僅對模型的表達(dá)能力強(qiáng),而且能夠突出目標(biāo)在背景中的特性,同時這種方法也有一定的生物學(xué)基礎(chǔ)。本文分析了基于深度學(xué)習(xí)的目標(biāo)檢測算法的網(wǎng)絡(luò)結(jié)構(gòu)和實現(xiàn)思路,從計算復(fù)雜度、運算效率、特征提取能力和目標(biāo)框定位準(zhǔn)確性等角度出發(fā),對傳統(tǒng)目標(biāo)檢測算法和深度學(xué)習(xí)目標(biāo)檢測算法進(jìn)行了深入的研究。在此基礎(chǔ)上...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
目標(biāo)檢測結(jié)果示例
二部分是用于定位產(chǎn)生的損失。這種方法對于目標(biāo)數(shù)量固定的定位問題比較容易,當(dāng)數(shù)量不定時就不適用了。圖2.2 交并比示意圖目標(biāo)定位任務(wù)的評估指標(biāo)通常是交并比(Intersection over Union,IoU),以此值的大小衡量模型最終輸出的矩形框與真實矩形框的差異程度,交并比的值等于兩個矩形區(qū)域的重疊面積和總面積的比值,當(dāng)此值大于某一設(shè)置值,分類器就認(rèn)為成功定位到了目標(biāo)。如圖 2.2 為交并比概念示意圖。特征提取數(shù)字圖像通常是一張光柵圖或像素圖,將顏色映射到網(wǎng)格坐標(biāo)里。一張圖片可以看作是一個矩陣,矩陣中的每個元素由代表顏色值的數(shù)字組成。提取圖像特征就是將矩陣每行連起來變成一個行向量將其獲取[45-47]。傳統(tǒng)的特征提取方法主要有以下幾種:(1)局部二值模式(Local Binary Patterns,LBP)。LBP 是一種簡單但非常有效的紋理算子。LBP 算子的基本思想是
3.2 多層卷積特征融合高層特征用于度量語義相似度,底層特征用于度量細(xì)粒度相似度,因此高層和底層特征的互補(bǔ)性可以提高查詢圖像與其他候選圖像之間的相似性度量。Faster R-CNN使用最后一層共享卷積層提取特征作為 RPN 網(wǎng)絡(luò)的輸入,這種單一的從高層輸出的特征信息沒有很好地兼顧圖像目標(biāo)的底層像素信息和語義信息,這意味著 FasterR-CNN 目標(biāo)檢測模型輸出的特征會更偏向于語義特征而缺少輪廓特征,這會對小目標(biāo)會造成一定影響。因此本文利用多層卷積特征融合解決此問題。由圖3.2可以看出,VGG-16 擁有 5 段卷積,每一段內(nèi)有 2-3 個卷積層,同時每段尾部會連接一個最大池化層用來縮小圖片尺寸。每段內(nèi)的卷積核數(shù)量一樣,越靠后的段的卷積核數(shù)量越多:64-128-256-512-512。其中經(jīng)常出現(xiàn)多個完全一樣的 3×3 的卷積層堆疊在一起的情況,這是非常科學(xué)的設(shè)計,因為這樣的卷積核提高了模型的非線性擬合能力,在一定程度上彌補(bǔ)了網(wǎng)絡(luò)層數(shù)較少帶來的特征提取能力不足的缺點。因此本文使用的特征提取網(wǎng)絡(luò)為 VGGNet 系列中的 VGG-16。
【參考文獻(xiàn)】:
期刊論文
[1]基于Faster R-CNN深度網(wǎng)絡(luò)的遙感影像目標(biāo)識別方法研究[J]. 王金傳,譚喜成,王召海,鐘燕飛,董華萍,周松濤,成布怡. 地球信息科學(xué)學(xué)報. 2018(10)
[2]基于全卷積對稱網(wǎng)絡(luò)的目標(biāo)尺度自適應(yīng)追蹤[J]. 孫曉霞,龐春江. 激光與光電子學(xué)進(jìn)展. 2019(01)
[3]目標(biāo)檢測算法研究綜述[J]. 方路平,何杭江,周國民. 計算機(jī)工程與應(yīng)用. 2018(13)
[4]深度學(xué)習(xí)在目標(biāo)檢測中的應(yīng)用[J]. 侯海霞. 中國新通信. 2018(10)
[5]時空特征融合深度學(xué)習(xí)網(wǎng)絡(luò)人體行為識別方法[J]. 裴曉敏,范慧杰,唐延?xùn)|. 紅外與激光工程. 2018(02)
[6]基于VGGNet和標(biāo)簽分布學(xué)習(xí)的航拍目標(biāo)分類方法[J]. 戚銀城,趙振兵,杜麗群,喬弘,王磊. 電力建設(shè). 2018(02)
[7]基于深度學(xué)習(xí)的視頻預(yù)測研究綜述[J]. 莫凌飛,蔣紅亮,李煊鵬. 智能系統(tǒng)學(xué)報. 2018(01)
[8]基于深度卷積神經(jīng)網(wǎng)絡(luò)的飛機(jī)識別研究[J]. 唐小佩,楊小岡,劉云峰,任世杰. 電光與控制. 2018(05)
[9]深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望[J]. 張慧,王坤峰,王飛躍. 自動化學(xué)報. 2017(08)
[10]深度學(xué)習(xí)在無人駕駛汽車領(lǐng)域應(yīng)用的研究進(jìn)展[J]. 王科俊,趙彥東,邢向磊. 智能系統(tǒng)學(xué)報. 2018(01)
碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[2]基于深度學(xué)習(xí)的人臉識別研究[D]. 林妙真.大連理工大學(xué) 2013
本文編號:2974536
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
目標(biāo)檢測結(jié)果示例
二部分是用于定位產(chǎn)生的損失。這種方法對于目標(biāo)數(shù)量固定的定位問題比較容易,當(dāng)數(shù)量不定時就不適用了。圖2.2 交并比示意圖目標(biāo)定位任務(wù)的評估指標(biāo)通常是交并比(Intersection over Union,IoU),以此值的大小衡量模型最終輸出的矩形框與真實矩形框的差異程度,交并比的值等于兩個矩形區(qū)域的重疊面積和總面積的比值,當(dāng)此值大于某一設(shè)置值,分類器就認(rèn)為成功定位到了目標(biāo)。如圖 2.2 為交并比概念示意圖。特征提取數(shù)字圖像通常是一張光柵圖或像素圖,將顏色映射到網(wǎng)格坐標(biāo)里。一張圖片可以看作是一個矩陣,矩陣中的每個元素由代表顏色值的數(shù)字組成。提取圖像特征就是將矩陣每行連起來變成一個行向量將其獲取[45-47]。傳統(tǒng)的特征提取方法主要有以下幾種:(1)局部二值模式(Local Binary Patterns,LBP)。LBP 是一種簡單但非常有效的紋理算子。LBP 算子的基本思想是
3.2 多層卷積特征融合高層特征用于度量語義相似度,底層特征用于度量細(xì)粒度相似度,因此高層和底層特征的互補(bǔ)性可以提高查詢圖像與其他候選圖像之間的相似性度量。Faster R-CNN使用最后一層共享卷積層提取特征作為 RPN 網(wǎng)絡(luò)的輸入,這種單一的從高層輸出的特征信息沒有很好地兼顧圖像目標(biāo)的底層像素信息和語義信息,這意味著 FasterR-CNN 目標(biāo)檢測模型輸出的特征會更偏向于語義特征而缺少輪廓特征,這會對小目標(biāo)會造成一定影響。因此本文利用多層卷積特征融合解決此問題。由圖3.2可以看出,VGG-16 擁有 5 段卷積,每一段內(nèi)有 2-3 個卷積層,同時每段尾部會連接一個最大池化層用來縮小圖片尺寸。每段內(nèi)的卷積核數(shù)量一樣,越靠后的段的卷積核數(shù)量越多:64-128-256-512-512。其中經(jīng)常出現(xiàn)多個完全一樣的 3×3 的卷積層堆疊在一起的情況,這是非常科學(xué)的設(shè)計,因為這樣的卷積核提高了模型的非線性擬合能力,在一定程度上彌補(bǔ)了網(wǎng)絡(luò)層數(shù)較少帶來的特征提取能力不足的缺點。因此本文使用的特征提取網(wǎng)絡(luò)為 VGGNet 系列中的 VGG-16。
【參考文獻(xiàn)】:
期刊論文
[1]基于Faster R-CNN深度網(wǎng)絡(luò)的遙感影像目標(biāo)識別方法研究[J]. 王金傳,譚喜成,王召海,鐘燕飛,董華萍,周松濤,成布怡. 地球信息科學(xué)學(xué)報. 2018(10)
[2]基于全卷積對稱網(wǎng)絡(luò)的目標(biāo)尺度自適應(yīng)追蹤[J]. 孫曉霞,龐春江. 激光與光電子學(xué)進(jìn)展. 2019(01)
[3]目標(biāo)檢測算法研究綜述[J]. 方路平,何杭江,周國民. 計算機(jī)工程與應(yīng)用. 2018(13)
[4]深度學(xué)習(xí)在目標(biāo)檢測中的應(yīng)用[J]. 侯海霞. 中國新通信. 2018(10)
[5]時空特征融合深度學(xué)習(xí)網(wǎng)絡(luò)人體行為識別方法[J]. 裴曉敏,范慧杰,唐延?xùn)|. 紅外與激光工程. 2018(02)
[6]基于VGGNet和標(biāo)簽分布學(xué)習(xí)的航拍目標(biāo)分類方法[J]. 戚銀城,趙振兵,杜麗群,喬弘,王磊. 電力建設(shè). 2018(02)
[7]基于深度學(xué)習(xí)的視頻預(yù)測研究綜述[J]. 莫凌飛,蔣紅亮,李煊鵬. 智能系統(tǒng)學(xué)報. 2018(01)
[8]基于深度卷積神經(jīng)網(wǎng)絡(luò)的飛機(jī)識別研究[J]. 唐小佩,楊小岡,劉云峰,任世杰. 電光與控制. 2018(05)
[9]深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望[J]. 張慧,王坤峰,王飛躍. 自動化學(xué)報. 2017(08)
[10]深度學(xué)習(xí)在無人駕駛汽車領(lǐng)域應(yīng)用的研究進(jìn)展[J]. 王科俊,趙彥東,邢向磊. 智能系統(tǒng)學(xué)報. 2018(01)
碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[2]基于深度學(xué)習(xí)的人臉識別研究[D]. 林妙真.大連理工大學(xué) 2013
本文編號:2974536
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2974536.html
最近更新
教材專著