Hadoop平臺下基于LSH的圖像索引系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2021-10-19 09:44
圖像相似性檢索是計算機科學中的一個基礎問題,隨著數(shù)據(jù)特征的維度升高,樹型結構索引算法查找效率急劇下降,這就是很多近鄰搜索遭遇的“維度災難”問題,解決這一問題的一種方法就是采用局部敏感哈希算法(Locality Sensitive Hash,LSH)。LSH算法的性能對幾個參數(shù)非常敏感,而這些參數(shù)必須由算法實現(xiàn)時選擇。同時,傳統(tǒng)的集中式圖像檢索系統(tǒng)當面對海量數(shù)據(jù)時就會暴露出性能瓶頸問題。本文針對上述特性及現(xiàn)存方案的一些不足,開展Hadoop平臺下基于LSH算法的圖像索引系統(tǒng)的研究。本文首先研究了圖像檢索的關鍵技術,分析了Hadoop平臺的結構組成、基本特性等,基于LSH算法利用Hadoop云平臺的Master-Slaver結構來存儲海量圖像數(shù)據(jù),并以此作為分而治之地處理圖像的依據(jù),為海量圖像提供有效的檢索方法。這為全方位的分析和研究圖像檢索奠定了基礎,為原型系統(tǒng)設計與實現(xiàn)提供了理論和技術方法?紤]到LSH算法中的參數(shù)與數(shù)據(jù)集有關,本文抽取數(shù)據(jù)集樣本,觀察數(shù)據(jù)集分布,建立數(shù)據(jù)集分布和參數(shù)的關系模型,提出參數(shù)自適應優(yōu)化的方法,有助于提高召回率和準確率。針對LSH算法參數(shù)選擇困難的特點,本文提...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
Hadoop集群配置信息
圖 4.8 Hadoop 集群配置信息4.3.3 性能測試由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要驗證分布式計算對于算法時間性能的影響程度。由于實驗條件限制,采用的實現(xiàn)機器是 1 臺物理機作為主節(jié)點和 6 臺虛擬機作為從節(jié)點,物理機主機名為 master,虛擬機主機名為 slaver1,slaver2…slaver6,每臺虛擬機分配單核 CPU 和 512M 內(nèi)存,磁盤分配 20G,網(wǎng)絡采用 NAT 方法連接。接下來要驗證不同的節(jié)點個數(shù)對實驗運行時間的影響,實驗驗證時所使用的從節(jié)點個數(shù)分別為 2,3…6。當從節(jié)點個數(shù)為 4 的時候,實驗結果如圖 4.9 所示:
圖 4.9 從節(jié)點個數(shù)為 4 時運行時間不同個數(shù)從節(jié)點的運行時間如圖 4.10 所示:圖 4.10 不同個數(shù)從節(jié)點和運行時間的關系示意圖從上圖中可以看出,當從節(jié)點個數(shù)逐漸遞增的時候,程序運行時間逐漸遞減,可以體現(xiàn)出 Hadoop 集群對于 LSH 算法有一定的加速效果,但加速效果會減緩,是由于算法的運行速
【參考文獻】:
期刊論文
[1]智慧城市中的大數(shù)據(jù)[J]. 李德仁. 中國建設信息. 2014(03)
[2]高維數(shù)據(jù)的相似性度量研究[J]. 賀玲,蔡益朝,楊征. 計算機科學. 2010(05)
[3]HPMR在并行矩陣計算中的應用[J]. 鄭啟龍,吳曉偉,房明,王昊,汪勝,王向前. 計算機工程. 2010(08)
[4]網(wǎng)絡計算系統(tǒng)的分類研究[J]. 徐志偉,廖華明,余海燕,查禮. 計算機學報. 2008(09)
碩士論文
[1]基于Hadoop的圖像檢索算法研究與實現(xiàn)[D]. 陳永權.華南理工大學 2013
本文編號:3444631
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
Hadoop集群配置信息
圖 4.8 Hadoop 集群配置信息4.3.3 性能測試由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要驗證分布式計算對于算法時間性能的影響程度。由于實驗條件限制,采用的實現(xiàn)機器是 1 臺物理機作為主節(jié)點和 6 臺虛擬機作為從節(jié)點,物理機主機名為 master,虛擬機主機名為 slaver1,slaver2…slaver6,每臺虛擬機分配單核 CPU 和 512M 內(nèi)存,磁盤分配 20G,網(wǎng)絡采用 NAT 方法連接。接下來要驗證不同的節(jié)點個數(shù)對實驗運行時間的影響,實驗驗證時所使用的從節(jié)點個數(shù)分別為 2,3…6。當從節(jié)點個數(shù)為 4 的時候,實驗結果如圖 4.9 所示:
圖 4.9 從節(jié)點個數(shù)為 4 時運行時間不同個數(shù)從節(jié)點的運行時間如圖 4.10 所示:圖 4.10 不同個數(shù)從節(jié)點和運行時間的關系示意圖從上圖中可以看出,當從節(jié)點個數(shù)逐漸遞增的時候,程序運行時間逐漸遞減,可以體現(xiàn)出 Hadoop 集群對于 LSH 算法有一定的加速效果,但加速效果會減緩,是由于算法的運行速
【參考文獻】:
期刊論文
[1]智慧城市中的大數(shù)據(jù)[J]. 李德仁. 中國建設信息. 2014(03)
[2]高維數(shù)據(jù)的相似性度量研究[J]. 賀玲,蔡益朝,楊征. 計算機科學. 2010(05)
[3]HPMR在并行矩陣計算中的應用[J]. 鄭啟龍,吳曉偉,房明,王昊,汪勝,王向前. 計算機工程. 2010(08)
[4]網(wǎng)絡計算系統(tǒng)的分類研究[J]. 徐志偉,廖華明,余海燕,查禮. 計算機學報. 2008(09)
碩士論文
[1]基于Hadoop的圖像檢索算法研究與實現(xiàn)[D]. 陳永權.華南理工大學 2013
本文編號:3444631
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3444631.html
最近更新
教材專著