基于深度學(xué)習(xí)模型的圖像檢索研究
發(fā)布時(shí)間:2021-06-17 10:43
隨著圖像數(shù)量急劇增加,從海量圖像中檢索所需信息變得越來(lái)越困難,圖像檢索技術(shù)應(yīng)運(yùn)而生。圖像檢索技術(shù)能夠有效地利用圖像特征來(lái)檢索所需圖像。隨著圖像內(nèi)容復(fù)雜程度的增加,基于圖像底層特征的圖像檢索性能依然有限。因此隨著深度學(xué)習(xí)地發(fā)展,基于深度學(xué)習(xí)的圖像檢索成為了研究的熱點(diǎn)。為解決當(dāng)前的圖像檢索方法生成的哈希碼存在信息冗余,不能很好地保留圖像語(yǔ)義相似性等問(wèn)題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)哈希碼的方法。首先通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)提取出圖像的特征表示;然后將來(lái)自兩個(gè)完全連接層的圖像特征表示分割后輸入到哈希層,并將分類(lèi)誤差以及閾值誤差添加到損失函數(shù)中進(jìn)行訓(xùn)練;最后將查詢圖像輸入模型得到對(duì)應(yīng)的哈希碼。在CIFAR-10和NUS-WIDE兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提方法在均值平均精度方面優(yōu)于其他方法,能有效提高檢索性能。為了進(jìn)一步減輕存在的“語(yǔ)義鴻溝”問(wèn)題,更好地提升多目標(biāo)圖像的檢索性能,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的多目標(biāo)圖像檢索模型。首先利用區(qū)域推薦網(wǎng)絡(luò)RPN生成候選區(qū)域,再將候選區(qū)域映射到圖像的特征圖上,并通過(guò)ROI池化層將不同尺度的輸入映射成為固定尺度的特征向量,再通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)中的...
【文章來(lái)源】:中國(guó)民航大學(xué)天津市
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于內(nèi)容的圖像檢索系統(tǒng)框架圖
神經(jīng)網(wǎng)絡(luò)提取的高級(jí)語(yǔ)義特征。早期利用圖像的顏色、紋理、形狀等信息來(lái)提取圖像特征。這類(lèi)方法提取的特征是像的底層視覺(jué)特征,這種提取圖像全局特征的方法簡(jiǎn)單明了,在上世紀(jì) 90 年代至本紀(jì)初曾是圖像檢索領(lǐng)域的主流方法。但是這類(lèi)全局特征在面對(duì)形變、遮擋和裁剪等情時(shí)無(wú)法準(zhǔn)確描述圖像,因此很多學(xué)者轉(zhuǎn)向了提取局部特征的研究中。關(guān)于局部特征的研究最具代表性的就是 SIFT 特征,其不僅具有幾何不變性,而且于視角變化以及噪聲等情況也能保持一定程度的穩(wěn)定性。此外,SIFT 特征還衍生了多變種,例如、SURF、PCA-SIFT、Affine-SIFT、Color-SIFT 等。SIFT 特征對(duì)于圖像索任務(wù)的發(fā)展貢獻(xiàn)了及其重要的作用。圖 2-2 展示了近年來(lái)圖像檢索研究中的一些重時(shí)刻。2003 年詞袋模型 BoW 被引入圖像檢索任務(wù),在之后近十年的時(shí)間里,基于 SIFT征的圖像檢索方法蓬勃發(fā)展,給圖像檢索任務(wù)帶來(lái)了各種提升。而在 2012 年rizhevsky 等人將深度學(xué)習(xí)成功地應(yīng)用在圖像識(shí)別上。至此,基于 CNN 特征的圖像檢方法開(kāi)始蓬勃發(fā)展。
所以 CNN 面對(duì)更大的圖像數(shù)據(jù)時(shí),表現(xiàn)出了良好的擴(kuò)展性。圖 2-3 卷積示意圖2. 激活層假設(shè)一個(gè)模型的輸出 y 和輸入x滿足的關(guān)系如式 2.1 所示,那么這個(gè)模型就是一個(gè)線性模型。i iiy = w x +b(2.1)其中, ,iw b ∈ R為模型的參數(shù)。任意的線性模型的組合還是線性模型,這是線性模型具有的最大特點(diǎn)。線性模型能夠解決的問(wèn)題是很有限的,現(xiàn)實(shí)生活中復(fù)雜的問(wèn)題大多是無(wú)法線性分割的,因此在模型中加入非線性是非常有必要的。卷積運(yùn)算是線性運(yùn)算,因此在卷積層之外還要加入激活層,其用來(lái)在卷積神經(jīng)網(wǎng)絡(luò)中加入非線性。激活層讓每一個(gè)神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的輸出利用非線性函數(shù)來(lái)改變模型的線性結(jié)構(gòu)。這個(gè)非線性函數(shù)就是激活函數(shù)。常見(jiàn)的激活函數(shù)有ReLU,sigmoid,tanh 等。Relu 激活函數(shù)的函數(shù)表達(dá)如式 2.2 所示:f ( x ) = max(0, x)(2.2)sigmoid 函數(shù)表達(dá)形式如式 2.3 所示:1( )1xf xe =+(2.3)tanh 函數(shù)表達(dá)形式如式 2.4 所示:( )x xx xe ef xe e =+(2.4)
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN特征加權(quán)和區(qū)域整合的圖像檢索[J]. 袁暉,廖開(kāi)陽(yáng),鄭元林,曹從軍,湯梓偉,鄧軒. 計(jì)算機(jī)工程與科學(xué). 2019(01)
[2]圖像檢索中的排序哈希算法研究綜述[J]. 楊安邦,壽震宇. 數(shù)據(jù)通信. 2018(06)
[3]多媒體工程:2016——圖像檢索研究進(jìn)展與發(fā)展趨勢(shì)[J]. 于俊清,吳澤斌,吳飛,孫立峰. 中國(guó)圖象圖形學(xué)報(bào). 2017(11)
[4]目標(biāo)提取與哈希機(jī)制的多標(biāo)簽圖像檢索[J]. 陳飛,呂紹和,李軍,王曉東,竇勇. 中國(guó)圖象圖形學(xué)報(bào). 2017 (02)
[5]基于深度卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制哈希學(xué)習(xí)的圖像檢索方法[J]. 彭天強(qiáng),栗芳. 電子與信息學(xué)報(bào). 2016(08)
[6]圖像檢索技術(shù)的發(fā)展及現(xiàn)狀分析[J]. 張蓓. 福建電腦. 2009(04)
博士論文
[1]基于深度學(xué)習(xí)表征的圖像檢索技術(shù)[D]. 孫韶言.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于深度哈希的大規(guī)模圖像檢索[D]. 焦文菲.西安電子科技大學(xué) 2018
[2]面向精確圖像理解的深度學(xué)習(xí)與視覺(jué)注意技術(shù)研究[D]. 陳飛.國(guó)防科學(xué)技術(shù)大學(xué) 2016
[3]圖像檢索中分布式哈希索引技術(shù)研究[D]. 王鵬.中國(guó)科學(xué)技術(shù)大學(xué) 2014
本文編號(hào):3235043
【文章來(lái)源】:中國(guó)民航大學(xué)天津市
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于內(nèi)容的圖像檢索系統(tǒng)框架圖
神經(jīng)網(wǎng)絡(luò)提取的高級(jí)語(yǔ)義特征。早期利用圖像的顏色、紋理、形狀等信息來(lái)提取圖像特征。這類(lèi)方法提取的特征是像的底層視覺(jué)特征,這種提取圖像全局特征的方法簡(jiǎn)單明了,在上世紀(jì) 90 年代至本紀(jì)初曾是圖像檢索領(lǐng)域的主流方法。但是這類(lèi)全局特征在面對(duì)形變、遮擋和裁剪等情時(shí)無(wú)法準(zhǔn)確描述圖像,因此很多學(xué)者轉(zhuǎn)向了提取局部特征的研究中。關(guān)于局部特征的研究最具代表性的就是 SIFT 特征,其不僅具有幾何不變性,而且于視角變化以及噪聲等情況也能保持一定程度的穩(wěn)定性。此外,SIFT 特征還衍生了多變種,例如、SURF、PCA-SIFT、Affine-SIFT、Color-SIFT 等。SIFT 特征對(duì)于圖像索任務(wù)的發(fā)展貢獻(xiàn)了及其重要的作用。圖 2-2 展示了近年來(lái)圖像檢索研究中的一些重時(shí)刻。2003 年詞袋模型 BoW 被引入圖像檢索任務(wù),在之后近十年的時(shí)間里,基于 SIFT征的圖像檢索方法蓬勃發(fā)展,給圖像檢索任務(wù)帶來(lái)了各種提升。而在 2012 年rizhevsky 等人將深度學(xué)習(xí)成功地應(yīng)用在圖像識(shí)別上。至此,基于 CNN 特征的圖像檢方法開(kāi)始蓬勃發(fā)展。
所以 CNN 面對(duì)更大的圖像數(shù)據(jù)時(shí),表現(xiàn)出了良好的擴(kuò)展性。圖 2-3 卷積示意圖2. 激活層假設(shè)一個(gè)模型的輸出 y 和輸入x滿足的關(guān)系如式 2.1 所示,那么這個(gè)模型就是一個(gè)線性模型。i iiy = w x +b(2.1)其中, ,iw b ∈ R為模型的參數(shù)。任意的線性模型的組合還是線性模型,這是線性模型具有的最大特點(diǎn)。線性模型能夠解決的問(wèn)題是很有限的,現(xiàn)實(shí)生活中復(fù)雜的問(wèn)題大多是無(wú)法線性分割的,因此在模型中加入非線性是非常有必要的。卷積運(yùn)算是線性運(yùn)算,因此在卷積層之外還要加入激活層,其用來(lái)在卷積神經(jīng)網(wǎng)絡(luò)中加入非線性。激活層讓每一個(gè)神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的輸出利用非線性函數(shù)來(lái)改變模型的線性結(jié)構(gòu)。這個(gè)非線性函數(shù)就是激活函數(shù)。常見(jiàn)的激活函數(shù)有ReLU,sigmoid,tanh 等。Relu 激活函數(shù)的函數(shù)表達(dá)如式 2.2 所示:f ( x ) = max(0, x)(2.2)sigmoid 函數(shù)表達(dá)形式如式 2.3 所示:1( )1xf xe =+(2.3)tanh 函數(shù)表達(dá)形式如式 2.4 所示:( )x xx xe ef xe e =+(2.4)
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN特征加權(quán)和區(qū)域整合的圖像檢索[J]. 袁暉,廖開(kāi)陽(yáng),鄭元林,曹從軍,湯梓偉,鄧軒. 計(jì)算機(jī)工程與科學(xué). 2019(01)
[2]圖像檢索中的排序哈希算法研究綜述[J]. 楊安邦,壽震宇. 數(shù)據(jù)通信. 2018(06)
[3]多媒體工程:2016——圖像檢索研究進(jìn)展與發(fā)展趨勢(shì)[J]. 于俊清,吳澤斌,吳飛,孫立峰. 中國(guó)圖象圖形學(xué)報(bào). 2017(11)
[4]目標(biāo)提取與哈希機(jī)制的多標(biāo)簽圖像檢索[J]. 陳飛,呂紹和,李軍,王曉東,竇勇. 中國(guó)圖象圖形學(xué)報(bào). 2017 (02)
[5]基于深度卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制哈希學(xué)習(xí)的圖像檢索方法[J]. 彭天強(qiáng),栗芳. 電子與信息學(xué)報(bào). 2016(08)
[6]圖像檢索技術(shù)的發(fā)展及現(xiàn)狀分析[J]. 張蓓. 福建電腦. 2009(04)
博士論文
[1]基于深度學(xué)習(xí)表征的圖像檢索技術(shù)[D]. 孫韶言.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于深度哈希的大規(guī)模圖像檢索[D]. 焦文菲.西安電子科技大學(xué) 2018
[2]面向精確圖像理解的深度學(xué)習(xí)與視覺(jué)注意技術(shù)研究[D]. 陳飛.國(guó)防科學(xué)技術(shù)大學(xué) 2016
[3]圖像檢索中分布式哈希索引技術(shù)研究[D]. 王鵬.中國(guó)科學(xué)技術(shù)大學(xué) 2014
本文編號(hào):3235043
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3235043.html
最近更新
教材專(zhuān)著