Top-k相似連接算法性能優(yōu)化
本文關(guān)鍵詞:Top-k相似連接算法性能優(yōu)化
更多相關(guān)文章: Top-k相似連接 事件驅(qū)動(dòng)框架 Token批處理 哈希查找優(yōu)化
【摘要】:相似連接算法在數(shù)據(jù)清理、數(shù)據(jù)集成和重復(fù)網(wǎng)頁(yè)檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用.現(xiàn)有相似連接算法有兩種類(lèi)型:基于相似度閾值的相似連接和Top-k相似連接.Top-k連接算法非常適合于相似度閾值未知的應(yīng)用場(chǎng)景,目前最為有效的Top-k相似連接算法是Xiao等人提出的Topk-join.為了解決Topk-join中存在的性能問(wèn)題,提出了一種Top-k相似連接算法Opt-join,該算法將Token批處理技術(shù)集成在現(xiàn)有的事件驅(qū)動(dòng)框架中,以降低前綴事件的處理代價(jià);通過(guò)置換哈希查找與過(guò)濾操作的執(zhí)行位置來(lái)降低哈希查找代價(jià),并理論證明了該置換的正確性.實(shí)驗(yàn)結(jié)果表明:與Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.實(shí)驗(yàn)數(shù)據(jù)還顯示:隨著數(shù)據(jù)長(zhǎng)度的增加或k值的增長(zhǎng),Opt-join的性能優(yōu)勢(shì)有不斷增加的趨勢(shì).
【作者單位】: 東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: Top-k相似連接 事件驅(qū)動(dòng)框架 Token批處理 哈希查找優(yōu)化
【基金】:國(guó)家自然科學(xué)基金(61370205) 上海市自然科學(xué)基金(13ZR1400800) 中央高;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金~~
【分類(lèi)號(hào)】:TP301.6
【正文快照】: cn/1000-9825/5012.htm英文引用格式:Wang HY,Yang LH,Liu XQ.Optimizing top-k similarity join algorithm.Ruan Jian Xue Bao/Journal of Software,2016,27(12):3051?3066(in Chinese).http://www.jos.org.cn/1000-9825/5012.htmOptimizing Top-k Similarity Join Algorithm
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 盛剛;溫濤;郭權(quán);印瑩;;云計(jì)算中偏好top-k查詢(xún)的正確性驗(yàn)證[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2014年01期
2 張海杰;姜守旭;鄒兆年;;不確定圖上的高效top-k近鄰查詢(xún)處理算法[J];計(jì)算機(jī)學(xué)報(bào);2011年10期
3 劉維弋;金遠(yuǎn)平;;一種基于動(dòng)態(tài)修正值的分布數(shù)據(jù)流Top-K查詢(xún)處理算法[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
4 何盈捷;文繼軍;馮月利;王珊;;P2P環(huán)境下數(shù)據(jù)管理系統(tǒng)上的Top-k查詢(xún)[J];計(jì)算機(jī)科學(xué);2005年10期
5 甘亮;于莉莉;李潤(rùn)恒;賈焰;金鑫;;一種基于逆支配點(diǎn)集的數(shù)據(jù)流Top-k計(jì)算方法[J];計(jì)算機(jī)工程與科學(xué);2012年06期
6 顧彥慧;趙斌;周俊生;曲維光;;Top-k相似短文本快速抽取算法[J];計(jì)算機(jī)科學(xué)與探索;2014年08期
7 張連寬;楊波;唐屹;;提高P2P下top-k搜索性能的研究[J];計(jì)算機(jī)應(yīng)用研究;2009年01期
8 劉德喜;萬(wàn)常選;劉喜平;;不確定數(shù)據(jù)庫(kù)中基于x-tuple的高效Top-k查詢(xún)處理算法[J];計(jì)算機(jī)研究與發(fā)展;2010年08期
9 焦雷;;一種基于ZBDD結(jié)構(gòu)的Top-k挖掘算法[J];現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版);2011年25期
10 蘭超;張勇;邢春曉;;海量多版本文檔的加權(quán)持久性top-k檢索[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 佟星;王宏志;李建中;高宏;;基于樹(shù)結(jié)構(gòu)索引的帶權(quán)值字符串的Top-k查詢(xún)算法[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 張麗;賈焰;鄒鵬;;一種數(shù)據(jù)流上的多Top-k查詢(xún)資源共享技術(shù)研究[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
3 劉德喜;萬(wàn)常選;劉喜平;;不確定數(shù)據(jù)庫(kù)中基于x-tuple的高效Top-k查詢(xún)處理算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 楊健;基于編輯距離字符串Top-k相似性搜索算法的研究[D];哈爾濱工業(yè)大學(xué);2015年
2 劉玉靜;針對(duì)K-匿名數(shù)據(jù)的top-k查詢(xún)問(wèn)題研究[D];東華大學(xué);2014年
3 黎玲利;XML數(shù)據(jù)流上的TOP-K關(guān)鍵字查詢(xún)處理[D];哈爾濱工業(yè)大學(xué);2010年
4 盧鑫;云環(huán)境下海量不確定性數(shù)據(jù)的Top-k查詢(xún)技術(shù)[D];寧波大學(xué);2013年
,本文編號(hào):871281
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/871281.html