云計算環(huán)境下的并行Skyline算法及其應(yīng)用研究
發(fā)布時間:2019-09-26 11:52
【摘要】:隨著互聯(lián)網(wǎng)飛速發(fā)展,數(shù)據(jù)呈爆炸式增長,海量數(shù)據(jù)的處理需求越來越大。然而,由于數(shù)據(jù)量過大,使得海量數(shù)據(jù)處理對軟硬件要求高、系統(tǒng)資源占用多,因此海量數(shù)據(jù)的處理技術(shù)面臨著巨大挑戰(zhàn)。目前,以MapReduce為代表的云計算技術(shù)越來越受到學(xué)術(shù)界和商業(yè)界的關(guān)注,并且在海量數(shù)據(jù)處理上得到了普遍的應(yīng)用和推廣。Skylin e算法作為一種有效的海量數(shù)據(jù)處理算法,可以幫助人們從數(shù)據(jù)中提取最感興趣或最關(guān)心的信息,有效地剪枝掉無用數(shù)據(jù),避免數(shù)據(jù)分析時的干擾。本文以云計算技術(shù)為依托,研究海量數(shù)據(jù)的Skyline算法,重點研究海量數(shù)據(jù)的靜態(tài)Skyline算法、動態(tài)Skyline算法和圖像數(shù)據(jù)的度量空間Skyline算法,以及這些算法在MapReduce架構(gòu)下的優(yōu)化和應(yīng)用問題。論文完成的主要研究工作如下:針對海量數(shù)據(jù)靜態(tài)Skyline查詢時通信開銷大及其計算量大的問題,本文提出了高效的基于用戶喜好的子空間Skyline算法。針對海量數(shù)據(jù)計算量和通信開銷問題,該算法利用了基于網(wǎng)格的剪枝策略來減少參與運算的數(shù)據(jù)點。針對海量數(shù)據(jù)Skyline計算返回用戶終端的結(jié)果集龐大、不利于用戶決策,并且用戶終端的存儲及網(wǎng)絡(luò)通信資源有限的問題,該算法采用基于用戶需求的SQM-filtering和ε-filtering過濾方法來返回Skyline結(jié)果的子集。最后利用MapReduce實現(xiàn)了基于用戶喜好的子空間Skyline算法,并在不同分布的數(shù)據(jù)集上進(jìn)行實驗分析,實驗結(jié)果表明這些方法有效提高了子空間Skyline算法在處理海量數(shù)據(jù)時的效率。針對海量數(shù)據(jù)動態(tài)Skyline查詢時,一方面被查詢對象的屬性值隨著查詢對象的變化而變化,另一方面云計算環(huán)境的分布式存儲、并行處理情況復(fù)雜,因此動態(tài)Skyline算法處理海量數(shù)據(jù)時存在計算開銷大、實時性差等問題。針對這些問題,本文提出了一種基于MapReduce的動態(tài)Skyline算法,它利用基于網(wǎng)格的粗粒度全局Skyline格來實現(xiàn)快速查詢,通過全局Skyline格計算獲得候選結(jié)果集。這樣有效地剪枝掉一些非結(jié)果點,節(jié)省了大量的計算開銷,提高了動態(tài)Skyline算法處理海量數(shù)據(jù)的運行效率。最后為了驗證該算法的效率和實用性,我們將該方法應(yīng)用到網(wǎng)絡(luò)監(jiān)控流數(shù)據(jù)的異常情況檢測中。在圖像大數(shù)據(jù)的度量空間Skyline查詢中,針對基于語義度量空間選擇帶來的計算復(fù)雜度高等問題,本文提出了一種基于圖像多特征融合的度量空間Skyline算法,其核心是采用多特征融合圖像檢索方法(SKFF)。它在度量空間上采用圖像的底層特征來描述圖像,基于詞袋模型生成相似度向量,并將Skyline操作應(yīng)用到新的度量空間中進(jìn)行圖像檢索。其特點是不需要針對不同圖像庫為每個特征設(shè)置權(quán)值,采用這種方法得到的結(jié)果不僅與查詢圖像在多個特征上都比較相似,而且還可以返回在某一特征上與查詢圖像相似的候選圖像。該算法克服了傳統(tǒng)多特征融合方法參數(shù)多、自適應(yīng)性差的問題。同時,利用MapReduce能提高算法的效率和可擴展性。最后通過一系列實驗驗證了該算法的有效性和可擴展性。
【圖文】:
MapReduce[7l它大量普通機器代替了集群中的高性能服務(wù)器,已被證明具有易逡逑部署、高容錯性及可擴展性等特點近些年來Hadoop得到了廣泛應(yīng)用,成為海逡逑量數(shù)據(jù)并行處理的代表技術(shù)之一。逡逑正如思科公司所預(yù)測,2016年全球?qū)⒂校罚梗サ臄?shù)據(jù)中屯、托管著云計算平臺。逡逑海量數(shù)據(jù)存儲在這些云計算平臺中,由于數(shù)據(jù)量過大,使得這些海量數(shù)據(jù)處理技逡逑術(shù)對軟硬件要求非常高、系統(tǒng)資源占用非常多,帶來了算法效率低下的問題。海逡逑量數(shù)據(jù)處理是一個熱點的研究方向,眾多學(xué)者們依托云計算平臺提出很多新的高逡逑效的海量數(shù)據(jù)處理算法,Skyline算法是其中的一種高效的數(shù)據(jù)查詢和提取方法,逡逑可レッ快速地從海量數(shù)據(jù)中抽取出關(guān)鍵的信息,大大減少數(shù)據(jù)量,降低海量數(shù)據(jù)處逡逑理中對軟硬件的要求,提高數(shù)據(jù)處理的效率。逡逑Skyline算法M是從一個給定數(shù)據(jù)集中返回不被其他任何數(shù)據(jù)對象支配的數(shù)據(jù)逡逑對象集合的過程,查詢的結(jié)果是數(shù)據(jù)集中一部分特殊的數(shù)據(jù)對象,即數(shù)據(jù)集的邊逡逑界點,其主要目標(biāo)是提取數(shù)據(jù)集的邊界點作為候選集提供給用戶進(jìn)行決策。逡逑遺逡逑
圖2.2邋HDFS體系結(jié)構(gòu)逡逑Fig.邋2.2邋HDFS邋architecture逡逑如圖2.2所示,HDFS是一個主從式體系結(jié)j9w,它是�。拥拈_源實現(xiàn)。HDFS逡逑集群系統(tǒng)由H部分組成,,分別是一個主服務(wù)器節(jié)點(命名節(jié)點)、多個從節(jié)點(數(shù)據(jù)逡逑節(jié)點)和客戶端姐成。主服務(wù)器節(jié)點管理文件系統(tǒng)的命名空間和控制客戶端對文件逡逑-15-逡逑
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP391.41
本文編號:2542135
【圖文】:
MapReduce[7l它大量普通機器代替了集群中的高性能服務(wù)器,已被證明具有易逡逑部署、高容錯性及可擴展性等特點近些年來Hadoop得到了廣泛應(yīng)用,成為海逡逑量數(shù)據(jù)并行處理的代表技術(shù)之一。逡逑正如思科公司所預(yù)測,2016年全球?qū)⒂校罚梗サ臄?shù)據(jù)中屯、托管著云計算平臺。逡逑海量數(shù)據(jù)存儲在這些云計算平臺中,由于數(shù)據(jù)量過大,使得這些海量數(shù)據(jù)處理技逡逑術(shù)對軟硬件要求非常高、系統(tǒng)資源占用非常多,帶來了算法效率低下的問題。海逡逑量數(shù)據(jù)處理是一個熱點的研究方向,眾多學(xué)者們依托云計算平臺提出很多新的高逡逑效的海量數(shù)據(jù)處理算法,Skyline算法是其中的一種高效的數(shù)據(jù)查詢和提取方法,逡逑可レッ快速地從海量數(shù)據(jù)中抽取出關(guān)鍵的信息,大大減少數(shù)據(jù)量,降低海量數(shù)據(jù)處逡逑理中對軟硬件的要求,提高數(shù)據(jù)處理的效率。逡逑Skyline算法M是從一個給定數(shù)據(jù)集中返回不被其他任何數(shù)據(jù)對象支配的數(shù)據(jù)逡逑對象集合的過程,查詢的結(jié)果是數(shù)據(jù)集中一部分特殊的數(shù)據(jù)對象,即數(shù)據(jù)集的邊逡逑界點,其主要目標(biāo)是提取數(shù)據(jù)集的邊界點作為候選集提供給用戶進(jìn)行決策。逡逑遺逡逑
圖2.2邋HDFS體系結(jié)構(gòu)逡逑Fig.邋2.2邋HDFS邋architecture逡逑如圖2.2所示,HDFS是一個主從式體系結(jié)j9w,它是�。拥拈_源實現(xiàn)。HDFS逡逑集群系統(tǒng)由H部分組成,,分別是一個主服務(wù)器節(jié)點(命名節(jié)點)、多個從節(jié)點(數(shù)據(jù)逡逑節(jié)點)和客戶端姐成。主服務(wù)器節(jié)點管理文件系統(tǒng)的命名空間和控制客戶端對文件逡逑-15-逡逑
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP391.41
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 王淑艷;楊鑫;李克秋;;MapReduce框架下基于超平面投影劃分的Skyline計算[J];計算機研究與發(fā)展;2014年12期
2 林朝暉;于俊清;何云峰;管濤;艾列富;;高維分布式局部敏感哈希索引方法[J];計算機科學(xué)與探索;2013年09期
3 丁琳琳;信俊昌;王國仁;黃山;;基于Map-Reduce的海量數(shù)據(jù)高效Skyline查詢處理[J];計算機學(xué)報;2011年10期
4 張麗;鄒鵬;賈焰;田李;;數(shù)據(jù)流上連續(xù)動態(tài)skyline查詢研究[J];計算機研究與發(fā)展;2011年01期
5 謝超,麥聯(lián)叨,都志輝,馬群生;關(guān)于并行計算系統(tǒng)中加速比的研究與分析[J];計算機工程與應(yīng)用;2003年26期
本文編號:2542135
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2542135.html
最近更新
教材專著