基于深度學(xué)習(xí)的圖像檢索
發(fā)布時(shí)間:2017-05-21 14:07
本文關(guān)鍵詞:基于深度學(xué)習(xí)的圖像檢索,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著圖像處理的信息量越來越大,基于文本的圖像檢索已越來越不合時(shí)宜。對(duì)此,研究者逐漸將研究的重心轉(zhuǎn)向基于內(nèi)容的圖像檢索,各種基于內(nèi)容的圖像檢索算法也因此迅速興起。而有效地表示圖像內(nèi)容對(duì)于大規(guī)模基于內(nèi)容的圖像檢索而言,是一項(xiàng)意義重大的任務(wù)。由于二進(jìn)制哈希碼的計(jì)算和存儲(chǔ)效率都比較高,二進(jìn)制哈希算法已經(jīng)引起了廣泛的關(guān)注,但是同時(shí)提取SIFT描述子時(shí),會(huì)降低算法的計(jì)算速度。這其中,深度學(xué)習(xí)作為目前機(jī)器學(xué)習(xí)研究中最火的一項(xiàng)技術(shù),它可以通過建立模型讓模型自己直接學(xué)習(xí)圖片的特征,這樣大大降低了因人工提取圖片特征而產(chǎn)生的誤差。而深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)由于其相對(duì)簡單高效,提取的特征比傳統(tǒng)的特征提取算法更為精確,因此成為了目前最常用的一項(xiàng)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)在圖像檢索方面已經(jīng)取得了重大突破。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的使用不僅可以讓模型通過隱藏層學(xué)習(xí)到訓(xùn)練樣本數(shù)據(jù)的二進(jìn)制表示,而且可以讓模型學(xué)習(xí)到圖像的表示。首先,本文提出了一個(gè)簡單但是高效的深度學(xué)習(xí)網(wǎng)絡(luò)模型卷積神經(jīng)網(wǎng)絡(luò),用此網(wǎng)絡(luò)模型可生成二進(jìn)制哈希編碼,并以此進(jìn)行快速的圖像檢索。另外,通過在深度卷積神經(jīng)網(wǎng)絡(luò)模型中添加一個(gè)隱藏屬性,使得這個(gè)網(wǎng)絡(luò)模型不僅能用領(lǐng)域相關(guān)的圖像表示,而且可以去學(xué)習(xí)一系列的哈希函數(shù)。我們知道,大部分的監(jiān)督學(xué)習(xí)算法為了學(xué)習(xí)到圖像的二進(jìn)制表示,一般都需要兩張圖片作為輸入,而本文的深度學(xué)習(xí)方法則是通過一張圖片作為輸入來學(xué)習(xí)圖像的二進(jìn)制編碼和圖像表示,這樣大大減少了計(jì)算量和存儲(chǔ)空間。因此,本文提出的深度學(xué)習(xí)二進(jìn)制哈希檢索時(shí),其檢索速率很高,但是檢索精度會(huì)有所降低;用浮點(diǎn)性特征做圖像檢索時(shí),其檢索精度高,但是計(jì)算量龐大,其檢索速率十分低下。針對(duì)這一問題,本文提出了一種綜合的由粗到精的檢索方法,先利用二進(jìn)制特征初步檢索出與查詢圖片相似的圖片,由于一個(gè)二進(jìn)制編碼可以對(duì)應(yīng)很多不同標(biāo)簽的圖片,因此,利用二進(jìn)制特征檢索出來的圖片中有很多干擾圖片,這一步是粗水平的檢索。當(dāng)我們再利用浮點(diǎn)型特征進(jìn)一步剔除干擾圖片,這一步是精細(xì)水平上的檢索。這樣不但保證了圖像檢索的精度,而且提高了圖像檢索的速度。在不同大小的數(shù)據(jù)集上,我們進(jìn)行了三類實(shí)驗(yàn):基于MNIST數(shù)據(jù)集的模型測試、基于CIFAR-10數(shù)據(jù)集的模型測試、基于Yahoo-1M數(shù)據(jù)集的模型測試。從這三類實(shí)驗(yàn)可得出以下結(jié)論:隨著數(shù)據(jù)集的增大,本文提出的CNN模型相比于之前的模型仍能保持著高效穩(wěn)定的性能,這進(jìn)一步表明本文提出的模型適合大規(guī)模的圖像檢索。
【關(guān)鍵詞】:圖像檢索 SIFT描述子 深度學(xué)習(xí) CNN 哈希
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.41
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 課題研究的背景10-12
- 1.2 國內(nèi)外研究的現(xiàn)狀12-13
- 1.3 本文的組織結(jié)構(gòu)13-15
- 第2章 相關(guān)技術(shù)概述15-25
- 2.1 深度學(xué)習(xí)16-19
- 2.1.1 深度學(xué)習(xí)的定義16
- 2.1.2 深度學(xué)習(xí)的優(yōu)勢16-19
- 2.1.3 深度學(xué)習(xí)的基本思想19
- 2.2 受限玻爾茲曼機(jī)(RBM)19-20
- 2.3 特征提取算法20-24
- 2.3.1 高區(qū)分性局部特征算法20-21
- 2.3.2 使用哈希映射的二進(jìn)制特征21-22
- 2.3.3 直接提取二進(jìn)制特征22-23
- 2.3.4 二進(jìn)制特征檢索模型的改進(jìn)23-24
- 2.3.5 搜索后的幾何驗(yàn)證24
- 2.4 小結(jié)24-25
- 第3章 基于拉普拉斯特征映射的多核卷積神經(jīng)網(wǎng)絡(luò)25-40
- 3.1 CAFFE開發(fā)工具26-27
- 3.1.1 Caffe的網(wǎng)絡(luò)定義26
- 3.1.2 Caffe的各層的定義26-27
- 3.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)27-29
- 3.3 多核卷積神經(jīng)網(wǎng)絡(luò)的建立29-31
- 3.3.1 學(xué)習(xí)二進(jìn)制哈希編碼30
- 3.3.2 圖像檢索30-31
- 3.4 卷積層的參數(shù)訓(xùn)練過程31-33
- 3.5 子采樣層的訓(xùn)練過程33-34
- 3.6 拉普拉斯特征映射降維34-37
- 3.7 算法的流程37-38
- 3.8 本章小結(jié)38-40
- 第4章 模型測試與數(shù)據(jù)分析40-50
- 4.1 數(shù)據(jù)集40-41
- 4.2 評(píng)估標(biāo)準(zhǔn)41
- 4.3 基于MNIST數(shù)據(jù)集的模型測試41-43
- 4.4 基于CIFAR-10數(shù)據(jù)集的模型測試43-46
- 4.5 基于YAHOO-1M數(shù)據(jù)集的模型測試46-48
- 4.6 本章小節(jié)48-50
- 第5章 總結(jié)與展望50-53
- 5.1 總結(jié)50-51
- 5.2 展望51-53
- 參考文獻(xiàn)53-56
- 作者簡介及在學(xué)校期間所取得的科研成果56-57
- 致謝57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 孫玉寶;肖亮;韋志輝;邵文澤;;基于Gabor感知多成份字典的圖像稀疏表示算法研究[J];自動(dòng)化學(xué)報(bào);2008年11期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 孫君頂;基于內(nèi)容的圖像檢索技術(shù)研究[D];西安電子科技大學(xué);2005年
2 夏定元;基于內(nèi)容的圖像檢索通用技術(shù)研究及應(yīng)用[D];華中科技大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 陳碩;深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用研究[D];華南理工大學(xué);2013年
2 林妙真;基于深度學(xué)習(xí)的人臉識(shí)別研究[D];大連理工大學(xué);2013年
3 謝文蘭;基于BP神經(jīng)網(wǎng)絡(luò)的語義風(fēng)景圖像檢索技術(shù)的研究[D];湘潭大學(xué);2009年
本文關(guān)鍵詞:基于深度學(xué)習(xí)的圖像檢索,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):383883
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/383883.html
最近更新
教材專著