基于感知哈希和自適應(yīng)搜索的通用對象檢測
發(fā)布時間:2019-10-01 23:23
【摘要】:針對數(shù)字圖像中對象檢測問題,提出一種基于感知哈希和搜索策略的通用對象檢測算法,提取圖像中有可能包含對象的子區(qū)域并以矩形的形式輸出。算法首先對輸入圖像進行分割,并計算該圖像的顯著度信息;其次根據(jù)圖像每個子區(qū)域顯著度信息,自適應(yīng)地確定搜索策略的起始子區(qū)域;最終利用選擇性搜索策略,實現(xiàn)圖像中通用對象檢測。利用選擇性搜索策略檢測通用對象時,引入感知哈希算法實現(xiàn)相鄰子區(qū)域的相似度計算,在保證準確度的基礎(chǔ)上簡化算法復雜度。實驗結(jié)果顯示,本文算法具有良好的圖像對象檢測準確度。
【圖文】:
計算非常簡單快速,同時又保持一定的準確率。因此,引入感知哈希計算圖像不同子區(qū)域間的相似度。一般來說,感知哈希算法包含平均哈希和基于離散余弦變換(DCT)的哈希兩種方法。所謂平均哈希指的是一個區(qū)域內(nèi)的所有像素值與像素均值相比較的結(jié)果確定像素的哈希值:當像素值大于均值時,像素的哈希值設(shè)置為1,否則設(shè)置為0。該算法的優(yōu)點是計算簡單,缺點是易受噪聲等因素影響。相比于平均哈希算法,基于DCT的哈希算法利用DCT代替像素均值,這使得算法更具魯棒性。該算法的基本流程如圖3所示。圖像子區(qū)域經(jīng)過DCT處理后會得到一個二維系數(shù)矩陣圖如圖4所示,系數(shù)矩陣從左上角到右下角頻率由低到高。由圖可以發(fā)現(xiàn),經(jīng)過DCT處理后的系數(shù)矩陣絕大多數(shù)數(shù)據(jù)都集中在左上角。換句話說,圖像中絕大部分能量都集中于左上角低頻區(qū)域。因此,只需利用該系數(shù)矩陣左上角的局部信息來進行二值化處理;冢模茫缘墓K惴ň唧w如下:1)輸入圖像子區(qū)域,并轉(zhuǎn)換為灰度信息;2)調(diào)用DCT對圖像子區(qū)域進行處理,計算得到系數(shù)矩陣;3)選取系數(shù)矩陣左上角子區(qū)域(左上角8×8的子矩陣),并計算該矩陣的均值;4)比較DCT系數(shù)矩陣8×8子矩陣與其均值,大于等于均值的被賦值為1,否則為0;5)輸出64維的哈希值。一旦計算得到了不同圖像子區(qū)域的64維哈希值,下一步就是如何根據(jù)哈希值確定它們之間的相似度。采用漢明距離(Hammingdistance)計算不同圖像子區(qū)域間哈希值的相似度為d(H1,H2)=∑ni=1(h1鄽h2)(1)其中:H1和H2分別
圖4基于DCT的感知哈希計算示意圖:(a)原始圖像;(b)待計算的子區(qū)域;(c)子區(qū)域的DCT矩陣;(d)DCT矩陣左上角8×8子集Fig.4SchematicdiagramsofDCTbasedperceptualhashingalgorithm:(a)Inputimage;(b)Asub-regionwithintheinputimage;(c)DCTmatrixofthesub-region;(d)Upper-left8×8subsetoftheDCTmatrix4性能測試4.1室驗設(shè)計采用VOC2007圖像數(shù)據(jù)庫。該數(shù)據(jù)庫包含20個類別共4952幅不同背景下獲取的圖像,如圖5所示。較常見的衡量通用對象檢測的性能指標是召回率(recall)。然而,如圖6所示,檢測的輸出結(jié)果盡管覆蓋了幾乎全部的人工標注區(qū)域,召回率高達96.6%,但包含了過多的非標注區(qū)域,很明顯召回率無法準確說明通用對象檢測結(jié)果。因此,,采用(M-ABO,meanaveragebestoverlap)[2]測試通用對象檢測的性能。M-ABO中,ABO為ABO=1|Gc|∑gc
本文編號:2544625
【圖文】:
計算非常簡單快速,同時又保持一定的準確率。因此,引入感知哈希計算圖像不同子區(qū)域間的相似度。一般來說,感知哈希算法包含平均哈希和基于離散余弦變換(DCT)的哈希兩種方法。所謂平均哈希指的是一個區(qū)域內(nèi)的所有像素值與像素均值相比較的結(jié)果確定像素的哈希值:當像素值大于均值時,像素的哈希值設(shè)置為1,否則設(shè)置為0。該算法的優(yōu)點是計算簡單,缺點是易受噪聲等因素影響。相比于平均哈希算法,基于DCT的哈希算法利用DCT代替像素均值,這使得算法更具魯棒性。該算法的基本流程如圖3所示。圖像子區(qū)域經(jīng)過DCT處理后會得到一個二維系數(shù)矩陣圖如圖4所示,系數(shù)矩陣從左上角到右下角頻率由低到高。由圖可以發(fā)現(xiàn),經(jīng)過DCT處理后的系數(shù)矩陣絕大多數(shù)數(shù)據(jù)都集中在左上角。換句話說,圖像中絕大部分能量都集中于左上角低頻區(qū)域。因此,只需利用該系數(shù)矩陣左上角的局部信息來進行二值化處理;冢模茫缘墓K惴ň唧w如下:1)輸入圖像子區(qū)域,并轉(zhuǎn)換為灰度信息;2)調(diào)用DCT對圖像子區(qū)域進行處理,計算得到系數(shù)矩陣;3)選取系數(shù)矩陣左上角子區(qū)域(左上角8×8的子矩陣),并計算該矩陣的均值;4)比較DCT系數(shù)矩陣8×8子矩陣與其均值,大于等于均值的被賦值為1,否則為0;5)輸出64維的哈希值。一旦計算得到了不同圖像子區(qū)域的64維哈希值,下一步就是如何根據(jù)哈希值確定它們之間的相似度。采用漢明距離(Hammingdistance)計算不同圖像子區(qū)域間哈希值的相似度為d(H1,H2)=∑ni=1(h1鄽h2)(1)其中:H1和H2分別
圖4基于DCT的感知哈希計算示意圖:(a)原始圖像;(b)待計算的子區(qū)域;(c)子區(qū)域的DCT矩陣;(d)DCT矩陣左上角8×8子集Fig.4SchematicdiagramsofDCTbasedperceptualhashingalgorithm:(a)Inputimage;(b)Asub-regionwithintheinputimage;(c)DCTmatrixofthesub-region;(d)Upper-left8×8subsetoftheDCTmatrix4性能測試4.1室驗設(shè)計采用VOC2007圖像數(shù)據(jù)庫。該數(shù)據(jù)庫包含20個類別共4952幅不同背景下獲取的圖像,如圖5所示。較常見的衡量通用對象檢測的性能指標是召回率(recall)。然而,如圖6所示,檢測的輸出結(jié)果盡管覆蓋了幾乎全部的人工標注區(qū)域,召回率高達96.6%,但包含了過多的非標注區(qū)域,很明顯召回率無法準確說明通用對象檢測結(jié)果。因此,,采用(M-ABO,meanaveragebestoverlap)[2]測試通用對象檢測的性能。M-ABO中,ABO為ABO=1|Gc|∑gc
本文編號:2544625
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2544625.html
最近更新
教材專著