基于深度二階哈希的圖像檢索研究
發(fā)布時間:2021-06-19 07:55
隨著時代的高速運轉(zhuǎn),網(wǎng)絡(luò)圖像和視頻數(shù)據(jù)與日俱增,哈希技術(shù)因存儲效率高、查詢速度快在圖像檢索領(lǐng)域應用廣泛。由于在計算機視覺中卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)突出,深度哈希模型走進人們的視野。然而,目前的深度哈希方法捕獲圖像特征嚴重依賴于一階卷積特征統(tǒng)計,忽略全局結(jié)構(gòu)。為了解決這個問題,論文從模型構(gòu)建和約束優(yōu)化的角度循序漸進,利用協(xié)方差估計建立有效的深度二階哈希方法,擺脫圖像特征的片面性,為哈希研究開拓了新的方向,具體工作如下:(1)提出了基于類別監(jiān)督的深度二階哈希檢索模型。以深度哈希方法為基礎(chǔ),利用冪歸一化來估計穩(wěn)健協(xié)方差,形成獨立結(jié)構(gòu)層,然后按照逐點標簽的方式將其嵌入深度網(wǎng)絡(luò)探索二階統(tǒng)計信息,并分別借助基于軟分配和二分配的交叉熵約束端對端訓練實現(xiàn)類別監(jiān)督,獲得全局性和針對性兼?zhèn)涞墓4a。該模型根據(jù)top-k精度、準確率-召回率、平均準確率均值三種指標在四個哈希編碼位上進行評估,在MNIST、CIFAR-10及NUS-WIDE三個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他一階深度哈希算法,說明了所提方法的有效性,有力解決深度哈希捕獲圖像特征的弱全局性問題。(2)提出了基于雙標簽的深度二階哈希檢索模型。在基于類別監(jiān)督的深度...
【文章來源】:大連大學遼寧省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
哈希學習示意圖
忍卣骼幢硎就枷裥畔ⅰ?本章工作的貢獻點包括:(1)基于逐點標簽學習的單輸入方式,將協(xié)方差估計的高階信息融合至深度哈希架構(gòu)中,提出基于類別監(jiān)督的深度高階哈希新框架。(2)以交叉熵約束為前提,針對多分類和多標簽任務(wù)采用不同的概率預測方式,端對端的訓練強化哈希編碼的語義判斷性能。(3)我們的方法在MNIST[6]、CIFAR-10[7]及多標簽數(shù)據(jù)集NUS-WIDE[8]上分別進行驗證,實驗結(jié)果體現(xiàn)了該基于逐點標簽監(jiān)督的深度高階哈希框架保證特征通道的相關(guān)性,確定穩(wěn)健的特征分布,在性能上較其他幾種深度哈希算法更優(yōu)異。圖2.1基于類別信息監(jiān)督的深度二階哈希框架圖Fig.2.1ArchitectureoftheSupervisedDeepSecond-orderCovarianceHashing2.2模型介紹圖2.1展示了基于類別監(jiān)督的深度二階哈希架構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計圖,它主要包括四個子網(wǎng)絡(luò),分別對應基礎(chǔ)特征、高階池化、哈希映射和語義分類。如圖2.1所示,基礎(chǔ)特征子網(wǎng)絡(luò)實現(xiàn)提圖像表征的提取,高階池化子網(wǎng)絡(luò)主要由協(xié)方差(COV)、特征值分解(EIG)、冪歸一化(Power)組成,實現(xiàn)以協(xié)方差估計為基礎(chǔ)的全局統(tǒng)計,哈希映射子網(wǎng)絡(luò)用來實現(xiàn)哈希激活和編碼,語義分類子網(wǎng)絡(luò)是實現(xiàn)類別監(jiān)督和架構(gòu)優(yōu)化的交叉熵約束。這四個子網(wǎng)絡(luò)逐層銜接,正反向傳播實現(xiàn)網(wǎng)絡(luò)優(yōu)化,最終確立全局性和細節(jié)性相統(tǒng)一的哈希特征表示?紤]到該架構(gòu)的優(yōu)化是建立在基于類別信息的語義分類子網(wǎng)絡(luò)上的,所以需要定義圖像輸入集,在此將整個圖像集表示為1,,NXxx,其中,1,,ixiN表示數(shù)據(jù)集中的
-15-及NUS-WIDE上開展性能測試。本節(jié)主要包括四個部分:數(shù)據(jù)集及相關(guān)實驗設(shè)置,MNIST實驗結(jié)果描述與分析,CIFAR-10實驗結(jié)果與分析,NUS-WIDE實驗結(jié)果描述與分析。所有實驗均使用深度學習工具箱MatConvNet[69],依托于配備3.30GHzCPU,64GBRAM及NVIDIAGTX1080GPU的PC機,借助MATLABR2014b開展實施。2.4.1數(shù)據(jù)集及相關(guān)實驗設(shè)置本文選擇三個經(jīng)典的基準數(shù)據(jù)集開展實驗評估方法的有效性,圖2.2展示了數(shù)據(jù)集的示意圖,下面詳細介紹各數(shù)據(jù)集。圖2.2實驗數(shù)據(jù)集示意圖Fig.2.2TheschematicdiagramofexperimentaldatasetMNIST[6]:該數(shù)據(jù)集包含70000張從0到9這0個類別的手寫數(shù)字組成灰度圖像集,每類含有7000個樣本,且其像素點為28×28。它的每張圖片僅與一個標簽相匹配,是一個單標簽數(shù)據(jù)集。CIFAR-10[7]:該數(shù)據(jù)集是一個彩色圖像組成的單標簽數(shù)據(jù)集,尺寸為32×32總共60000張,作為哈希方法性能評判使用最廣泛的數(shù)據(jù)集之一,它包含10個類別,每類具有6000個樣本。NUS-WIDE[8]:不同于上面兩個圖像集,它是一個公共的多標簽數(shù)據(jù)集,包含了將近270k張來源于網(wǎng)絡(luò)的圖片,每個樣本與81個屬性中的一個或多個相匹配,且各類別下的圖片個數(shù)不平均。與文獻[9][10]的設(shè)置類似,根據(jù)各屬性下圖片數(shù)目的多少,我們選擇了21個最常見的屬性下的195834幅圖片,其中每個屬性下至少包含5000張彩色圖片[9,10]。
【參考文獻】:
碩士論文
[1]基于深度哈希的圖像示例搜索算法研究[D]. 徐祥鋒.南京郵電大學 2019
[2]基于哈希學習的圖像數(shù)據(jù)快速檢索方法研究[D]. 童鵬鵬.哈爾濱工程大學 2019
[3]基于深度學習和哈希的圖像檢索的方法研究[D]. 何濤.電子科技大學 2018
本文編號:3237425
【文章來源】:大連大學遼寧省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
哈希學習示意圖
忍卣骼幢硎就枷裥畔ⅰ?本章工作的貢獻點包括:(1)基于逐點標簽學習的單輸入方式,將協(xié)方差估計的高階信息融合至深度哈希架構(gòu)中,提出基于類別監(jiān)督的深度高階哈希新框架。(2)以交叉熵約束為前提,針對多分類和多標簽任務(wù)采用不同的概率預測方式,端對端的訓練強化哈希編碼的語義判斷性能。(3)我們的方法在MNIST[6]、CIFAR-10[7]及多標簽數(shù)據(jù)集NUS-WIDE[8]上分別進行驗證,實驗結(jié)果體現(xiàn)了該基于逐點標簽監(jiān)督的深度高階哈希框架保證特征通道的相關(guān)性,確定穩(wěn)健的特征分布,在性能上較其他幾種深度哈希算法更優(yōu)異。圖2.1基于類別信息監(jiān)督的深度二階哈希框架圖Fig.2.1ArchitectureoftheSupervisedDeepSecond-orderCovarianceHashing2.2模型介紹圖2.1展示了基于類別監(jiān)督的深度二階哈希架構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計圖,它主要包括四個子網(wǎng)絡(luò),分別對應基礎(chǔ)特征、高階池化、哈希映射和語義分類。如圖2.1所示,基礎(chǔ)特征子網(wǎng)絡(luò)實現(xiàn)提圖像表征的提取,高階池化子網(wǎng)絡(luò)主要由協(xié)方差(COV)、特征值分解(EIG)、冪歸一化(Power)組成,實現(xiàn)以協(xié)方差估計為基礎(chǔ)的全局統(tǒng)計,哈希映射子網(wǎng)絡(luò)用來實現(xiàn)哈希激活和編碼,語義分類子網(wǎng)絡(luò)是實現(xiàn)類別監(jiān)督和架構(gòu)優(yōu)化的交叉熵約束。這四個子網(wǎng)絡(luò)逐層銜接,正反向傳播實現(xiàn)網(wǎng)絡(luò)優(yōu)化,最終確立全局性和細節(jié)性相統(tǒng)一的哈希特征表示?紤]到該架構(gòu)的優(yōu)化是建立在基于類別信息的語義分類子網(wǎng)絡(luò)上的,所以需要定義圖像輸入集,在此將整個圖像集表示為1,,NXxx,其中,1,,ixiN表示數(shù)據(jù)集中的
-15-及NUS-WIDE上開展性能測試。本節(jié)主要包括四個部分:數(shù)據(jù)集及相關(guān)實驗設(shè)置,MNIST實驗結(jié)果描述與分析,CIFAR-10實驗結(jié)果與分析,NUS-WIDE實驗結(jié)果描述與分析。所有實驗均使用深度學習工具箱MatConvNet[69],依托于配備3.30GHzCPU,64GBRAM及NVIDIAGTX1080GPU的PC機,借助MATLABR2014b開展實施。2.4.1數(shù)據(jù)集及相關(guān)實驗設(shè)置本文選擇三個經(jīng)典的基準數(shù)據(jù)集開展實驗評估方法的有效性,圖2.2展示了數(shù)據(jù)集的示意圖,下面詳細介紹各數(shù)據(jù)集。圖2.2實驗數(shù)據(jù)集示意圖Fig.2.2TheschematicdiagramofexperimentaldatasetMNIST[6]:該數(shù)據(jù)集包含70000張從0到9這0個類別的手寫數(shù)字組成灰度圖像集,每類含有7000個樣本,且其像素點為28×28。它的每張圖片僅與一個標簽相匹配,是一個單標簽數(shù)據(jù)集。CIFAR-10[7]:該數(shù)據(jù)集是一個彩色圖像組成的單標簽數(shù)據(jù)集,尺寸為32×32總共60000張,作為哈希方法性能評判使用最廣泛的數(shù)據(jù)集之一,它包含10個類別,每類具有6000個樣本。NUS-WIDE[8]:不同于上面兩個圖像集,它是一個公共的多標簽數(shù)據(jù)集,包含了將近270k張來源于網(wǎng)絡(luò)的圖片,每個樣本與81個屬性中的一個或多個相匹配,且各類別下的圖片個數(shù)不平均。與文獻[9][10]的設(shè)置類似,根據(jù)各屬性下圖片數(shù)目的多少,我們選擇了21個最常見的屬性下的195834幅圖片,其中每個屬性下至少包含5000張彩色圖片[9,10]。
【參考文獻】:
碩士論文
[1]基于深度哈希的圖像示例搜索算法研究[D]. 徐祥鋒.南京郵電大學 2019
[2]基于哈希學習的圖像數(shù)據(jù)快速檢索方法研究[D]. 童鵬鵬.哈爾濱工程大學 2019
[3]基于深度學習和哈希的圖像檢索的方法研究[D]. 何濤.電子科技大學 2018
本文編號:3237425
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3237425.html
最近更新
教材專著