天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征串的網(wǎng)頁文本并行去重算法

發(fā)布時(shí)間:2017-10-28 15:11

  本文關(guān)鍵詞:基于特征串的網(wǎng)頁文本并行去重算法


  更多相關(guān)文章: 搜索引擎 特征串 網(wǎng)頁去重 Simhash Map/Reduce


【摘要】:針對(duì)海量網(wǎng)頁文本去重效率不高問題,提出了一種高效的并行網(wǎng)頁去重算法.該算法利用Hadoop框架的Map/Reduce機(jī)制,通過對(duì)網(wǎng)頁文本提取特征串,使用Google的Simhash算法對(duì)提取的特征串進(jìn)行哈希映射得到相應(yīng)的哈希碼,然后對(duì)產(chǎn)生的哈希碼進(jìn)行海明距離比較,從而得到重復(fù)的網(wǎng)頁數(shù)據(jù).實(shí)驗(yàn)表明,與相關(guān)去重算法相比,所提算法有效地提高了文本去重計(jì)算效率.
【作者單位】: 同濟(jì)大學(xué)電子與信息工程學(xué)院;
【關(guān)鍵詞】搜索引擎 特征串 網(wǎng)頁去重 Simhash Map/Reduce
【基金】:國家自然科學(xué)基金項(xiàng)目(71170148) 國家科技計(jì)劃課題(2012BAD35B01)
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 1引言搜索引擎在爬取網(wǎng)頁階段,會(huì)爬取到大量的冗余網(wǎng)頁.冗余網(wǎng)頁的產(chǎn)生主要是由于互聯(lián)網(wǎng)本身存在的一些類似轉(zhuǎn)載的現(xiàn)象,導(dǎo)致爬取的網(wǎng)頁存在很多的重復(fù)內(nèi)容,這對(duì)數(shù)據(jù)存儲(chǔ)、索引效率以及用戶體驗(yàn)都有很大的影響.傳統(tǒng)的搜索引擎對(duì)于這種現(xiàn)象的處理一般是采用MD5算法,通過對(duì)網(wǎng)頁正

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期

2 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

3 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

4 程們森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁和近似網(wǎng)頁識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期

5 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期

6 趙德平;蔡麗靜;李鵬;;基于Newshingling的相似文本檢測(cè)算法[J];沈陽建筑大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

7 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[J];中國索引;2009年01期

8 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期

9 張小娣;宋余慶;;基于網(wǎng)頁正文邏輯段落和長句提取的網(wǎng)頁去重算法[J];圖書情報(bào)研究;2012年02期

10 周楊;;基于關(guān)鍵長句及正文長度預(yù)分類的網(wǎng)頁去重算法研究[J];軟件導(dǎo)刊;2012年10期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條

1 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年

2 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁查重算法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 龔才春;短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2008年

2 李衛(wèi);領(lǐng)域知識(shí)的獲取[D];北京郵電大學(xué);2008年

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 楊品;;一種基于http協(xié)議的網(wǎng)絡(luò)應(yīng)用特征串提取方法改進(jìn)[J];信息與電腦(理論版);2014年03期

2 吳昊;程光;;HTTP網(wǎng)絡(luò)應(yīng)用特征串的自動(dòng)提取[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年S1期

3 于泠,李國建;基于特征串樹的病毒特征碼匹配算法[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2003年04期

4 鄭晉平,李榮陸;廣譜抗病毒技術(shù)[J];山西電子技術(shù);1997年03期

5 姚新波;馬治坤;;基于特征串的網(wǎng)頁去重算法[J];科技信息;2008年28期

6 龍愛兵;請(qǐng)注意 國慶節(jié)期間將有病毒發(fā)作![J];軟件世界;1995年06期

7 熊忠陽;牙漫;張玉芳;;基于網(wǎng)頁正文結(jié)構(gòu)和特征串的相似網(wǎng)頁去重算法[J];計(jì)算機(jī)應(yīng)用;2013年02期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

中國重要報(bào)紙全文數(shù)據(jù)庫 前1條

1 水手;為IM軟件上把鎖[N];電腦報(bào);2004年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 李雪;大規(guī)模特征串匹配技術(shù)的研究[D];北京郵電大學(xué);2008年

2 祁琛;網(wǎng)頁消重技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年

,

本文編號(hào):1108760

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1108760.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ff29***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com