基于特征串的網(wǎng)頁文本并行去重算法
本文關(guān)鍵詞:基于特征串的網(wǎng)頁文本并行去重算法
更多相關(guān)文章: 搜索引擎 特征串 網(wǎng)頁去重 Simhash Map/Reduce
【摘要】:針對(duì)海量網(wǎng)頁文本去重效率不高問題,提出了一種高效的并行網(wǎng)頁去重算法.該算法利用Hadoop框架的Map/Reduce機(jī)制,通過對(duì)網(wǎng)頁文本提取特征串,使用Google的Simhash算法對(duì)提取的特征串進(jìn)行哈希映射得到相應(yīng)的哈希碼,然后對(duì)產(chǎn)生的哈希碼進(jìn)行海明距離比較,從而得到重復(fù)的網(wǎng)頁數(shù)據(jù).實(shí)驗(yàn)表明,與相關(guān)去重算法相比,所提算法有效地提高了文本去重計(jì)算效率.
【作者單位】: 同濟(jì)大學(xué)電子與信息工程學(xué)院;
【關(guān)鍵詞】: 搜索引擎 特征串 網(wǎng)頁去重 Simhash Map/Reduce
【基金】:國家自然科學(xué)基金項(xiàng)目(71170148) 國家科技計(jì)劃課題(2012BAD35B01)
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 1引言搜索引擎在爬取網(wǎng)頁階段,會(huì)爬取到大量的冗余網(wǎng)頁.冗余網(wǎng)頁的產(chǎn)生主要是由于互聯(lián)網(wǎng)本身存在的一些類似轉(zhuǎn)載的現(xiàn)象,導(dǎo)致爬取的網(wǎng)頁存在很多的重復(fù)內(nèi)容,這對(duì)數(shù)據(jù)存儲(chǔ)、索引效率以及用戶體驗(yàn)都有很大的影響.傳統(tǒng)的搜索引擎對(duì)于這種現(xiàn)象的處理一般是采用MD5算法,通過對(duì)網(wǎng)頁正
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期
2 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
3 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
4 程們森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁和近似網(wǎng)頁識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期
5 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期
6 趙德平;蔡麗靜;李鵬;;基于Newshingling的相似文本檢測(cè)算法[J];沈陽建筑大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
7 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[J];中國索引;2009年01期
8 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
9 張小娣;宋余慶;;基于網(wǎng)頁正文邏輯段落和長句提取的網(wǎng)頁去重算法[J];圖書情報(bào)研究;2012年02期
10 周楊;;基于關(guān)鍵長句及正文長度預(yù)分類的網(wǎng)頁去重算法研究[J];軟件導(dǎo)刊;2012年10期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年
2 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁查重算法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 龔才春;短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2008年
2 李衛(wèi);領(lǐng)域知識(shí)的獲取[D];北京郵電大學(xué);2008年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊品;;一種基于http協(xié)議的網(wǎng)絡(luò)應(yīng)用特征串提取方法改進(jìn)[J];信息與電腦(理論版);2014年03期
2 吳昊;程光;;HTTP網(wǎng)絡(luò)應(yīng)用特征串的自動(dòng)提取[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年S1期
3 于泠,李國建;基于特征串樹的病毒特征碼匹配算法[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2003年04期
4 鄭晉平,李榮陸;廣譜抗病毒技術(shù)[J];山西電子技術(shù);1997年03期
5 姚新波;馬治坤;;基于特征串的網(wǎng)頁去重算法[J];科技信息;2008年28期
6 龍愛兵;請(qǐng)注意 國慶節(jié)期間將有病毒發(fā)作![J];軟件世界;1995年06期
7 熊忠陽;牙漫;張玉芳;;基于網(wǎng)頁正文結(jié)構(gòu)和特征串的相似網(wǎng)頁去重算法[J];計(jì)算機(jī)應(yīng)用;2013年02期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 水手;為IM軟件上把鎖[N];電腦報(bào);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 李雪;大規(guī)模特征串匹配技術(shù)的研究[D];北京郵電大學(xué);2008年
2 祁琛;網(wǎng)頁消重技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
,本文編號(hào):1108760
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1108760.html