基于深度學(xué)習(xí)的圖像檢索
發(fā)布時間:2017-05-21 14:07
本文關(guān)鍵詞:基于深度學(xué)習(xí)的圖像檢索,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著圖像處理的信息量越來越大,基于文本的圖像檢索已越來越不合時宜。對此,研究者逐漸將研究的重心轉(zhuǎn)向基于內(nèi)容的圖像檢索,各種基于內(nèi)容的圖像檢索算法也因此迅速興起。而有效地表示圖像內(nèi)容對于大規(guī)模基于內(nèi)容的圖像檢索而言,是一項意義重大的任務(wù)。由于二進制哈希碼的計算和存儲效率都比較高,二進制哈希算法已經(jīng)引起了廣泛的關(guān)注,但是同時提取SIFT描述子時,會降低算法的計算速度。這其中,深度學(xué)習(xí)作為目前機器學(xué)習(xí)研究中最火的一項技術(shù),它可以通過建立模型讓模型自己直接學(xué)習(xí)圖片的特征,這樣大大降低了因人工提取圖片特征而產(chǎn)生的誤差。而深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)由于其相對簡單高效,提取的特征比傳統(tǒng)的特征提取算法更為精確,因此成為了目前最常用的一項技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)在圖像檢索方面已經(jīng)取得了重大突破。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的使用不僅可以讓模型通過隱藏層學(xué)習(xí)到訓(xùn)練樣本數(shù)據(jù)的二進制表示,而且可以讓模型學(xué)習(xí)到圖像的表示。首先,本文提出了一個簡單但是高效的深度學(xué)習(xí)網(wǎng)絡(luò)模型卷積神經(jīng)網(wǎng)絡(luò),用此網(wǎng)絡(luò)模型可生成二進制哈希編碼,并以此進行快速的圖像檢索。另外,通過在深度卷積神經(jīng)網(wǎng)絡(luò)模型中添加一個隱藏屬性,使得這個網(wǎng)絡(luò)模型不僅能用領(lǐng)域相關(guān)的圖像表示,而且可以去學(xué)習(xí)一系列的哈希函數(shù)。我們知道,大部分的監(jiān)督學(xué)習(xí)算法為了學(xué)習(xí)到圖像的二進制表示,一般都需要兩張圖片作為輸入,而本文的深度學(xué)習(xí)方法則是通過一張圖片作為輸入來學(xué)習(xí)圖像的二進制編碼和圖像表示,這樣大大減少了計算量和存儲空間。因此,本文提出的深度學(xué)習(xí)二進制哈希檢索時,其檢索速率很高,但是檢索精度會有所降低;用浮點性特征做圖像檢索時,其檢索精度高,但是計算量龐大,其檢索速率十分低下。針對這一問題,本文提出了一種綜合的由粗到精的檢索方法,先利用二進制特征初步檢索出與查詢圖片相似的圖片,由于一個二進制編碼可以對應(yīng)很多不同標簽的圖片,因此,利用二進制特征檢索出來的圖片中有很多干擾圖片,這一步是粗水平的檢索。當我們再利用浮點型特征進一步剔除干擾圖片,這一步是精細水平上的檢索。這樣不但保證了圖像檢索的精度,而且提高了圖像檢索的速度。在不同大小的數(shù)據(jù)集上,我們進行了三類實驗:基于MNIST數(shù)據(jù)集的模型測試、基于CIFAR-10數(shù)據(jù)集的模型測試、基于Yahoo-1M數(shù)據(jù)集的模型測試。從這三類實驗可得出以下結(jié)論:隨著數(shù)據(jù)集的增大,本文提出的CNN模型相比于之前的模型仍能保持著高效穩(wěn)定的性能,這進一步表明本文提出的模型適合大規(guī)模的圖像檢索。
【關(guān)鍵詞】:圖像檢索 SIFT描述子 深度學(xué)習(xí) CNN 哈希
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.41
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 課題研究的背景10-12
- 1.2 國內(nèi)外研究的現(xiàn)狀12-13
- 1.3 本文的組織結(jié)構(gòu)13-15
- 第2章 相關(guān)技術(shù)概述15-25
- 2.1 深度學(xué)習(xí)16-19
- 2.1.1 深度學(xué)習(xí)的定義16
- 2.1.2 深度學(xué)習(xí)的優(yōu)勢16-19
- 2.1.3 深度學(xué)習(xí)的基本思想19
- 2.2 受限玻爾茲曼機(RBM)19-20
- 2.3 特征提取算法20-24
- 2.3.1 高區(qū)分性局部特征算法20-21
- 2.3.2 使用哈希映射的二進制特征21-22
- 2.3.3 直接提取二進制特征22-23
- 2.3.4 二進制特征檢索模型的改進23-24
- 2.3.5 搜索后的幾何驗證24
- 2.4 小結(jié)24-25
- 第3章 基于拉普拉斯特征映射的多核卷積神經(jīng)網(wǎng)絡(luò)25-40
- 3.1 CAFFE開發(fā)工具26-27
- 3.1.1 Caffe的網(wǎng)絡(luò)定義26
- 3.1.2 Caffe的各層的定義26-27
- 3.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)27-29
- 3.3 多核卷積神經(jīng)網(wǎng)絡(luò)的建立29-31
- 3.3.1 學(xué)習(xí)二進制哈希編碼30
- 3.3.2 圖像檢索30-31
- 3.4 卷積層的參數(shù)訓(xùn)練過程31-33
- 3.5 子采樣層的訓(xùn)練過程33-34
- 3.6 拉普拉斯特征映射降維34-37
- 3.7 算法的流程37-38
- 3.8 本章小結(jié)38-40
- 第4章 模型測試與數(shù)據(jù)分析40-50
- 4.1 數(shù)據(jù)集40-41
- 4.2 評估標準41
- 4.3 基于MNIST數(shù)據(jù)集的模型測試41-43
- 4.4 基于CIFAR-10數(shù)據(jù)集的模型測試43-46
- 4.5 基于YAHOO-1M數(shù)據(jù)集的模型測試46-48
- 4.6 本章小節(jié)48-50
- 第5章 總結(jié)與展望50-53
- 5.1 總結(jié)50-51
- 5.2 展望51-53
- 參考文獻53-56
- 作者簡介及在學(xué)校期間所取得的科研成果56-57
- 致謝57
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 孫玉寶;肖亮;韋志輝;邵文澤;;基于Gabor感知多成份字典的圖像稀疏表示算法研究[J];自動化學(xué)報;2008年11期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 孫君頂;基于內(nèi)容的圖像檢索技術(shù)研究[D];西安電子科技大學(xué);2005年
2 夏定元;基于內(nèi)容的圖像檢索通用技術(shù)研究及應(yīng)用[D];華中科技大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 陳碩;深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究[D];華南理工大學(xué);2013年
2 林妙真;基于深度學(xué)習(xí)的人臉識別研究[D];大連理工大學(xué);2013年
3 謝文蘭;基于BP神經(jīng)網(wǎng)絡(luò)的語義風景圖像檢索技術(shù)的研究[D];湘潭大學(xué);2009年
本文關(guān)鍵詞:基于深度學(xué)習(xí)的圖像檢索,由筆耕文化傳播整理發(fā)布。
本文編號:383884
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/383884.html
最近更新
教材專著