Top-k相似連接算法性能優(yōu)化
本文關(guān)鍵詞:Top-k相似連接算法性能優(yōu)化
更多相關(guān)文章: Top-k相似連接 事件驅(qū)動框架 Token批處理 哈希查找優(yōu)化
【摘要】:相似連接算法在數(shù)據(jù)清理、數(shù)據(jù)集成和重復網(wǎng)頁檢測等領(lǐng)域有著廣泛的應(yīng)用.現(xiàn)有相似連接算法有兩種類型:基于相似度閾值的相似連接和Top-k相似連接.Top-k連接算法非常適合于相似度閾值未知的應(yīng)用場景,目前最為有效的Top-k相似連接算法是Xiao等人提出的Topk-join.為了解決Topk-join中存在的性能問題,提出了一種Top-k相似連接算法Opt-join,該算法將Token批處理技術(shù)集成在現(xiàn)有的事件驅(qū)動框架中,以降低前綴事件的處理代價;通過置換哈希查找與過濾操作的執(zhí)行位置來降低哈希查找代價,并理論證明了該置換的正確性.實驗結(jié)果表明:與Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.實驗數(shù)據(jù)還顯示:隨著數(shù)據(jù)長度的增加或k值的增長,Opt-join的性能優(yōu)勢有不斷增加的趨勢.
【作者單位】: 東華大學計算機科學與技術(shù)學院;
【關(guān)鍵詞】: Top-k相似連接 事件驅(qū)動框架 Token批處理 哈希查找優(yōu)化
【基金】:國家自然科學基金(61370205) 上海市自然科學基金(13ZR1400800) 中央高校基本科研業(yè)務(wù)費專項資金~~
【分類號】:TP301.6
【正文快照】: cn/1000-9825/5012.htm英文引用格式:Wang HY,Yang LH,Liu XQ.Optimizing top-k similarity join algorithm.Ruan Jian Xue Bao/Journal of Software,2016,27(12):3051?3066(in Chinese).http://www.jos.org.cn/1000-9825/5012.htmOptimizing Top-k Similarity Join Algorithm
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 盛剛;溫濤;郭權(quán);印瑩;;云計算中偏好top-k查詢的正確性驗證[J];吉林大學學報(工學版);2014年01期
2 張海杰;姜守旭;鄒兆年;;不確定圖上的高效top-k近鄰查詢處理算法[J];計算機學報;2011年10期
3 劉維弋;金遠平;;一種基于動態(tài)修正值的分布數(shù)據(jù)流Top-K查詢處理算法[J];計算機應(yīng)用與軟件;2009年01期
4 何盈捷;文繼軍;馮月利;王珊;;P2P環(huán)境下數(shù)據(jù)管理系統(tǒng)上的Top-k查詢[J];計算機科學;2005年10期
5 甘亮;于莉莉;李潤恒;賈焰;金鑫;;一種基于逆支配點集的數(shù)據(jù)流Top-k計算方法[J];計算機工程與科學;2012年06期
6 顧彥慧;趙斌;周俊生;曲維光;;Top-k相似短文本快速抽取算法[J];計算機科學與探索;2014年08期
7 張連寬;楊波;唐屹;;提高P2P下top-k搜索性能的研究[J];計算機應(yīng)用研究;2009年01期
8 劉德喜;萬常選;劉喜平;;不確定數(shù)據(jù)庫中基于x-tuple的高效Top-k查詢處理算法[J];計算機研究與發(fā)展;2010年08期
9 焦雷;;一種基于ZBDD結(jié)構(gòu)的Top-k挖掘算法[J];現(xiàn)代計算機(專業(yè)版);2011年25期
10 蘭超;張勇;邢春曉;;海量多版本文檔的加權(quán)持久性top-k檢索[J];計算機研究與發(fā)展;2013年S2期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 佟星;王宏志;李建中;高宏;;基于樹結(jié)構(gòu)索引的帶權(quán)值字符串的Top-k查詢算法[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 張麗;賈焰;鄒鵬;;一種數(shù)據(jù)流上的多Top-k查詢資源共享技術(shù)研究[A];第八屆全國信息隱藏與多媒體安全學術(shù)大會湖南省計算機學會第十一屆學術(shù)年會論文集[C];2009年
3 劉德喜;萬常選;劉喜平;;不確定數(shù)據(jù)庫中基于x-tuple的高效Top-k查詢處理算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
中國碩士學位論文全文數(shù)據(jù)庫 前4條
1 楊健;基于編輯距離字符串Top-k相似性搜索算法的研究[D];哈爾濱工業(yè)大學;2015年
2 劉玉靜;針對K-匿名數(shù)據(jù)的top-k查詢問題研究[D];東華大學;2014年
3 黎玲利;XML數(shù)據(jù)流上的TOP-K關(guān)鍵字查詢處理[D];哈爾濱工業(yè)大學;2010年
4 盧鑫;云環(huán)境下海量不確定性數(shù)據(jù)的Top-k查詢技術(shù)[D];寧波大學;2013年
,本文編號:871281
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/871281.html