大規(guī)模圖像檢索中高維索引技術(shù)研究
發(fā)布時間:2017-03-26 23:02
本文關(guān)鍵詞:大規(guī)模圖像檢索中高維索引技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:大規(guī)模圖像檢索(Large-scale Image Retrieval)旨在從大規(guī)模圖像庫中快速、準(zhǔn)確地查找與查詢圖像內(nèi)容相似的圖像,已在多媒體檢索、版權(quán)保護(hù)和網(wǎng)絡(luò)信息監(jiān)控等領(lǐng)域得到廣泛的應(yīng)用和飛速的發(fā)展。大規(guī)模圖像檢索系統(tǒng)一般采用特征提取技術(shù)將圖像的視覺內(nèi)容描述為高維特征數(shù)據(jù),從而將圖像檢索問題轉(zhuǎn)化為高維數(shù)據(jù)的相似性度量問題。在網(wǎng)絡(luò)大規(guī)模圖像檢索背景下,特征數(shù)據(jù)動輒上百維且特征規(guī)模在千萬級以上,因此高維索引技術(shù)是影響大規(guī)模圖像檢索性能的關(guān)鍵!熬S數(shù)災(zāi)難”問題導(dǎo)致傳統(tǒng)的樹型索引性能急劇下降,且大規(guī)模數(shù)據(jù)環(huán)境下內(nèi)存資源也成為影響系統(tǒng)性能的瓶頸。如何對大規(guī)模高維特征數(shù)據(jù)建立有效的索引,以滿足檢索性能和內(nèi)存資源的要求,是一個極具挑戰(zhàn)的研究熱點與難點問題。為實現(xiàn)大規(guī)模數(shù)據(jù)環(huán)境下高效率、高精度和低內(nèi)存消耗的高維索引,本文圍繞分布式局部敏感哈希索引、數(shù)據(jù)依賴的多索引哈希算法和二進(jìn)制層次索引技術(shù)等關(guān)鍵問題進(jìn)行了較為深入的研究,取得了如下成果:(1)分布式局部敏感哈希索引局部敏感哈希索引是目前比較通用的近似最近鄰查詢算法。由于該算法在建立哈希表時對數(shù)據(jù)空間進(jìn)行均勻劃分,而真實數(shù)據(jù)并不呈均勻分布,因此其不能有效處理數(shù)據(jù)非均勻分布問題,進(jìn)而影響其查詢性能。本文首先提出數(shù)據(jù)依賴的局部敏感哈希索引算法,該算法具有兩層結(jié)構(gòu)。在第一層,通過訓(xùn)練數(shù)據(jù)集得到一系列聚類中心,然后根據(jù)聚類中心把待索引的數(shù)據(jù)集劃分成一個個類,從而使得每類中的數(shù)據(jù)呈近似均勻分布。在第二層,對每一類中的數(shù)據(jù)建立哈希表。對于查詢數(shù)據(jù),首先把它映射到相似的類中心,然后在每一類的哈希表中進(jìn)行近似最近鄰查詢。為了進(jìn)一步提升索引的性能,提出優(yōu)化的分布式局部敏感哈希算法。在國際基準(zhǔn)測試數(shù)據(jù)集上的實驗結(jié)果表明,與通用的E2LSH算法相比,數(shù)據(jù)依賴的局部敏感哈希索引算法在保持高查詢精度的同時可以使查詢速度提升48倍,并且分布式實現(xiàn)可以使查詢速度得到進(jìn)一步提升。(2)數(shù)據(jù)依賴的多索引哈希算法多索引哈希是目前使用廣泛的針對二進(jìn)制碼的精確查詢索引算法。由于多索引哈;跀(shù)據(jù)集中的二進(jìn)制碼呈均勻分布這一假設(shè),不能有效處理非均勻分布的數(shù)據(jù)集;且在計算海明距離時為二進(jìn)制碼的每一位賦予相同的權(quán)重導(dǎo)致距離度量模糊。針對這一問題,本文提出數(shù)據(jù)依賴的多索引哈希算法。首先把二進(jìn)制碼劃分為多個連續(xù)不重合的子串,并通過協(xié)方差矩陣計算二進(jìn)制碼每位之間的相關(guān)性,為每一個子串學(xué)習(xí)得到自適應(yīng)投影向量。在為每個子串建立哈希表時,使用投影向量對子串進(jìn)行投影從而得到哈希表中的下標(biāo)。采用自適應(yīng)投影的方法可以使得哈希表中的元素接近于均勻分布,進(jìn)而提升查詢速度。本文進(jìn)一步利用協(xié)方差矩陣提出查詢結(jié)果重排序算法,通過為二進(jìn)制碼的每一位賦予不同的權(quán)重對查詢結(jié)果進(jìn)行重排序。在大規(guī)模數(shù)據(jù)集上的實驗表明,與多索引哈希算法相比數(shù)據(jù)依賴的多索引哈希算法可以使查詢速度提升36.9%-87.4%,查詢精度提升22.2%。(3)二進(jìn)制層次索引技術(shù)為了進(jìn)一步提高索引的查詢速度,研究者提出二進(jìn)制碼近似查詢算法,其中層次聚類樹得到廣泛應(yīng)用。但是該算法隨機(jī)選取類中心并且使用整個二進(jìn)制碼建立索引,影響查詢性能。針對這一問題,本文提出二進(jìn)制層次索引技術(shù)。首先提出一種新的聚類方法,通過二進(jìn)制碼的相對距離選取類中心實現(xiàn)對數(shù)據(jù)集的均勻劃分。然后提出二進(jìn)制碼壓縮技術(shù),利用均方差的特性衡量二進(jìn)制碼每位的區(qū)分性,生成短小且區(qū)分性高的二進(jìn)制碼,并根據(jù)壓縮二進(jìn)制碼建立層次聚類樹。最后采用粗篩選與精確過濾相結(jié)合的方式,進(jìn)行索引查詢。在十億級數(shù)據(jù)集上的實驗表明,本文算法在保證精度的前提下明顯提高了查詢速度,并且大幅度降低內(nèi)存消耗。本文的研究工作在分析現(xiàn)有高維索引技術(shù)不足的基礎(chǔ)上,通過對上述關(guān)鍵問題的深入研究,提高了高維索引在應(yīng)對大規(guī)模高維數(shù)據(jù)的性能,從而為大規(guī)模圖像檢索提供良好的技術(shù)基礎(chǔ),具有廣闊的應(yīng)用前景。
【關(guān)鍵詞】:高維索引 分布式局部敏感哈希 數(shù)據(jù)依賴的多索引哈希 二進(jìn)制層次索引
【學(xué)位授予單位】:中國海洋大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.41
【目錄】:
- 摘要5-7
- ABSTRACT7-13
- 1 引言13-20
- 1.1 研究背景與意義13-15
- 1.2 研究現(xiàn)狀與存在的問題15-17
- 1.3 研究內(nèi)容17-18
- 1.4 本文的組織結(jié)構(gòu)18-20
- 2 大規(guī)模圖像檢索中的高維索引技術(shù)綜述20-55
- 2.1 引言20-21
- 2.2 大規(guī)模圖像檢索21-22
- 2.3 圖像特征提取22-38
- 2.3.1 全局特征23-26
- 2.3.2 局部特征26-34
- 2.3.3 二進(jìn)制特征34-38
- 2.4 高維索引38-53
- 2.4.1 距離度量與相似性查詢39-43
- 2.4.2 樹型結(jié)構(gòu)的多維索引43-47
- 2.4.3 近似最近鄰索引47-51
- 2.4.4 二進(jìn)制索引51-53
- 2.5 高維索引評測準(zhǔn)則53-54
- 2.6 小結(jié)54-55
- 3 分布式數(shù)據(jù)依賴的局部敏感哈希索引55-68
- 3.1 概述55-57
- 3.2 數(shù)據(jù)依賴的局部敏感哈希索引57-60
- 3.2.1 問題提出57-58
- 3.2.2 數(shù)據(jù)依賴的局部敏感哈希索引58-60
- 3.3 分布式實現(xiàn)60-62
- 3.3.1 問題提出60-61
- 3.3.2 數(shù)據(jù)集均衡分配61-62
- 3.4 實驗結(jié)果62-67
- 3.4.1 實驗設(shè)置62-63
- 3.4.2 參數(shù)選取63-64
- 3.4.3 數(shù)據(jù)依賴的局部敏感哈希索引有效性驗證64-66
- 3.4.4 分布式實現(xiàn)有效性驗證66-67
- 3.5 小結(jié)67-68
- 4 數(shù)據(jù)依賴的多索引哈希算法68-84
- 4.1 概述68-70
- 4.2 數(shù)據(jù)依賴的多索引哈希算法70-75
- 4.2.1 多索引哈希算法70-71
- 4.2.2 問題提出71-72
- 4.2.3 數(shù)據(jù)依賴的多索引哈希算法72-75
- 4.2.4 哈希表數(shù)據(jù)分布評估75
- 4.3 查詢結(jié)果重排序75-76
- 4.3.1 問題提出75
- 4.3.2 位權(quán)重計算75-76
- 4.4 實驗結(jié)果76-83
- 4.4.1 實驗設(shè)置76-77
- 4.4.2 訓(xùn)練數(shù)據(jù)對算法性能的影響77-78
- 4.4.3 算法有效性和可擴(kuò)展性驗證78-80
- 4.4.4 重排序性能驗證80-81
- 4.4.5 在圖像檢索上的應(yīng)用81-83
- 4.5 小結(jié)83-84
- 5 二進(jìn)制層次索引84-100
- 5.1 概述84-86
- 5.2 二進(jìn)制層次索引86-91
- 5.2.1 問題提出86
- 5.2.2 構(gòu)建二進(jìn)制層次聚類樹86-88
- 5.2.3 二進(jìn)制碼壓縮88-90
- 5.2.4 二進(jìn)制層次索引90-91
- 5.3 實驗結(jié)果91-98
- 5.3.1 實驗設(shè)置91-92
- 5.3.2 參數(shù)選取92-95
- 5.3.3 算法有效性驗證95-97
- 5.3.4 算法可擴(kuò)展性驗證97
- 5.3.5 在圖像檢索上的應(yīng)用97-98
- 5.4 小結(jié)98-100
- 6 總結(jié)與展望100-103
- 6.1 總結(jié)100-101
- 6.2 本課題研究展望101-103
- 參考文獻(xiàn)103-110
- 致謝110-112
- 個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果112-113
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 馬艷萍;姬光榮;鄒海林;謝洪濤;;數(shù)據(jù)依賴的多索引哈希算法[J];西安電子科技大學(xué)學(xué)報;2015年04期
2 ;多媒體技術(shù)研究:2012——多媒體數(shù)據(jù)索引與檢索技術(shù)研究進(jìn)展[J];中國圖象圖形學(xué)報;2013年11期
3 袁培森;沙朝鋒;王曉玲;周傲英;;一種基于學(xué)習(xí)的高維數(shù)據(jù)c-近似最近鄰查詢算法[J];軟件學(xué)報;2012年08期
4 張明波,陸鋒,申排偉,程昌秀;R樹家族的演變和發(fā)展[J];計算機(jī)學(xué)報;2005年03期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 梁俊杰;大規(guī)模圖像庫的高維索引技術(shù)研究[D];華中科技大學(xué);2007年
本文關(guān)鍵詞:大規(guī)模圖像檢索中高維索引技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:269477
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/269477.html
最近更新
教材專著