基于大規(guī)模相似性搜索的Hashing算法研究
發(fā)布時間:2017-07-16 00:02
本文關(guān)鍵詞:基于大規(guī)模相似性搜索的Hashing算法研究
更多相關(guān)文章: 相似性搜索 圖像檢索 線性投影 局部結(jié)構(gòu) Hashing 算法
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展與普及,網(wǎng)絡(luò)多媒體數(shù)據(jù)(包括:文檔、圖片、視頻等)正在呈現(xiàn)爆炸式的增長,這給那些需要進(jìn)行相似性搜索的應(yīng)用帶來了巨大的挑戰(zhàn),最典型的就是基于內(nèi)容的圖像檢索。近年來,Hashing算法被廣泛用來進(jìn)行相似性搜索,因為它不僅可以節(jié)約存儲空間,還可以顯著地提高檢索的時間效率。本文正是針對大規(guī)模相似性搜索這一問題,對Hashing算法進(jìn)行研究。首先以傳統(tǒng)譜哈希算法作為切入點,對它進(jìn)行優(yōu)化和改進(jìn)。然后針對傳統(tǒng)Hashing算法框架的缺點,提出新的Hashing模型。最后對現(xiàn)有的半監(jiān)督Hashing算法進(jìn)行重新建模,提高了檢索準(zhǔn)確度。本文主要工作和創(chuàng)新點包括:(1)提出了局部線性譜哈希模型。該模型針對譜哈希的缺點,對其進(jìn)行優(yōu)化,包括:(1)譜哈希只考慮了數(shù)據(jù)的近鄰關(guān)系,對非近鄰關(guān)系沒有做處理。本文的方法則既考慮了近鄰關(guān)系,也考慮了非近鄰關(guān)系;(2)譜哈希需要計算一個n×n大小的相似性矩陣,當(dāng)數(shù)據(jù)容量特別大的時候,該矩陣的構(gòu)造非常耗時。本文的方法則采用了一個m×m(mn)的局部相似性矩陣,因為m遠(yuǎn)小于n,因此矩陣的構(gòu)造效率非常高;(3)譜哈希在求解時,假設(shè)數(shù)據(jù)符合均勻分布,并且求解分析過程比較復(fù)雜。均勻分布的假設(shè)在很多情況下不符合實際,本文回避了該假設(shè),并用相對簡單的線性模型來求解提出的模型。最后的實驗結(jié)果證明本文的方法既簡單又高效。(2)提出了保局哈希模型。傳統(tǒng)的Hashing算法會依次進(jìn)行兩個步驟:降維+量化。降維過程中,把高維數(shù)據(jù)降到低維空間上。量化過程中,把降維后的實數(shù)值量化成二值碼。因為量化時,一般采用直接閾值化操作,因此這類方法很有可能會把降維過程中保留的數(shù)據(jù)局部結(jié)構(gòu)給破壞掉。而本文將降維和量化結(jié)合在一起,用一種聯(lián)合優(yōu)化模型同時完成降維和量化操作,這樣可以避免量化過程對數(shù)據(jù)局部結(jié)構(gòu)的破壞。實驗結(jié)果驗證了本文的保局策略更加合理。(3)提出了保局判別哈希模型。Hashing算法可以分為非監(jiān)督、半監(jiān)督和監(jiān)督三大類。半監(jiān)督方法因為結(jié)合了標(biāo)簽和非標(biāo)簽數(shù)據(jù),性能非常卓越,最具代表性的就是半監(jiān)督哈希算法。但是該算法只考慮了標(biāo)簽數(shù)據(jù)的點對關(guān)系,忽略了全局信息。其次,它沒有很好地去保留數(shù)據(jù)的局部空間結(jié)構(gòu)。本文結(jié)合線性判別分析和線性保局投影,提出了保局判別哈希模型來同時考慮數(shù)據(jù)的局部結(jié)構(gòu)和全局結(jié)構(gòu)。在三個標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果證實了本文方法的穩(wěn)定性和優(yōu)越性。
【關(guān)鍵詞】:相似性搜索 圖像檢索 線性投影 局部結(jié)構(gòu) Hashing 算法
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.41
【目錄】:
- 摘要3-5
- ABSTRACT5-12
- 第一章 緒論12-16
- 1.1 研究背景12-13
- 1.2 問題描述13-14
- 1.3 論文結(jié)構(gòu)安排14-16
- 第二章 線性譜哈希16-30
- 2.1 相關(guān)工作16-17
- 2.1.1 譜哈希16-17
- 2.2 研究動機(jī)17
- 2.3 線性譜哈希17-22
- 2.3.1 問題描述17-18
- 2.3.2 線性解法18
- 2.3.3 松弛與求解18-22
- 2.4 實驗22-25
- 2.4.1 CIFAR-1022-25
- 2.4.2 STL-1025
- 2.5 本章小結(jié)25-30
- 第三章 保局哈希30-48
- 3.1 相關(guān)工作30-31
- 3.2 研究動機(jī)31-32
- 3.3 保局哈希32-39
- 3.3.1 投影階段33-34
- 3.3.2 量化階段34-35
- 3.3.3 聯(lián)合優(yōu)化框架35-36
- 3.3.4 松弛和優(yōu)化36-39
- 3.4 實驗39-42
- 3.4.1 數(shù)據(jù)集39-40
- 3.4.2 評價準(zhǔn)則和方法40-41
- 3.4.3 結(jié)果分析41-42
- 3.5 本章小結(jié)42-48
- 第四章 保局判別哈希48-62
- 4.1 相關(guān)工作48-50
- 4.1.1 線性判別分析48-49
- 4.1.2 線性保局投影49-50
- 4.2 研究動機(jī)50-51
- 4.3 保局判別哈希51-55
- 4.3.1 目標(biāo)函數(shù)51-52
- 4.3.2 求解算法52-54
- 4.3.3 復(fù)雜度分析54-55
- 4.4 實驗55-59
- 4.4.1 數(shù)據(jù)集和評價準(zhǔn)則55
- 4.4.2 結(jié)果與分析55-59
- 4.5 本章小結(jié)59-62
- 全文總結(jié)62-64
- 參考文獻(xiàn)64-68
- 致謝68-70
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄70-72
- 攻讀學(xué)位期間參與的項目72-74
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 趙康;基于大規(guī)模相似性搜索的Hashing算法研究[D];上海交通大學(xué);2015年
,本文編號:546271
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/546271.html
最近更新
教材專著