基于MapReduce的相似自連接新方法:過濾和內(nèi)切圓算法
發(fā)布時間:2017-06-19 07:06
本文關(guān)鍵詞:基于MapReduce的相似自連接新方法:過濾和內(nèi)切圓算法,由筆耕文化傳播整理發(fā)布。
【摘要】:相似自連接是一個在很多應(yīng)用領(lǐng)域中很重要的問題.對于海量數(shù)據(jù)集,MapReduce可以提供一個有效的分布式計算框架,相似自連接操作也同樣可以應(yīng)用在MapReduce框架下.但已有研究工作仍然存在不足,如對于聚集數(shù)據(jù)區(qū)域采用加細(xì)劃分方法,目的是負(fù)載平衡,但不易實現(xiàn).現(xiàn)有的算法不能有效地完成海量數(shù)據(jù)集的相似自連接操作.為此提出了2個新穎的基于MapReduce的相似自連接算法,其思想是采用坐標(biāo)過濾技術(shù),形成有效候選集,以及針對聚集區(qū)域采用六邊形劃分的內(nèi)切圓算法.過慮技術(shù)是在等寬網(wǎng)格劃分基礎(chǔ)上,利用同一維坐標(biāo)間的距離差與相似性約束閾值ε進(jìn)行比較,可以明顯地減少候選集的數(shù)量,也證明了六邊形劃分是所有正多邊形全覆蓋中最優(yōu)的劃分方法.實驗結(jié)果表明:新方法比其他算法有更高的效率,提高效率80%以上,它能夠有效地解決有聚集區(qū)域的海量數(shù)據(jù)集的相似自連接問題.
【作者單位】: 黑龍江大學(xué)計算機科學(xué)與技術(shù)學(xué)院;哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 海量數(shù)據(jù)集 過濾 相似自連接 數(shù)據(jù)劃分 Hadoop平臺 MapReduce編程模型
【基金】:國家“九七三”重點基礎(chǔ)研究發(fā)展計劃基金項目(2012CB316200) 國家自然科學(xué)基金項目(61302139)~~
【分類號】:TP311.13
【正文快照】: 連接操作(join)是一個很重要的數(shù)據(jù)庫操作,相似自連接是join的一種特殊類型,即對同一數(shù)據(jù)類型進(jìn)行相似自連接操作.它在數(shù)據(jù)分析中扮演很重要的角色:數(shù)據(jù)清理[1]、相近的文本查重[2]、文件相似性分析[3]和數(shù)據(jù)挖掘等工作,特別在基于密度的聚類分析中也用到了相似自連接操作的結(jié)
本文關(guān)鍵詞:基于MapReduce的相似自連接新方法:過濾和內(nèi)切圓算法,由筆耕文化傳播整理發(fā)布。
,本文編號:461767
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/461767.html
最近更新
教材專著