天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)頁正文結(jié)構(gòu)和特征串的相似網(wǎng)頁去重算法

發(fā)布時(shí)間:2018-07-16 16:30
【摘要】:為了減少重復(fù)網(wǎng)頁對(duì)用戶的干擾,提高去重效率,提出一種新的大規(guī)模網(wǎng)頁去重算法。首先利用預(yù)定義網(wǎng)頁標(biāo)簽值建立網(wǎng)頁正文結(jié)構(gòu)樹,實(shí)現(xiàn)了層次計(jì)算指紋相似度;其次,提取網(wǎng)頁中高頻標(biāo)點(diǎn)字符所在句子中的首尾漢字作為特征碼;最后,利用Bloom Filter算法對(duì)獲取的特征指紋進(jìn)行網(wǎng)頁相似度判別。實(shí)驗(yàn)表明,該算法將召回率提高到了90%以上,時(shí)間復(fù)雜度降低到了O(n)。
[Abstract]:In order to reduce the interference of repeated pages to users and improve the efficiency of de-reduplication, a new large-scale de-duplication algorithm is proposed. Firstly, the text structure tree is established by predefined page label value, and the similarity of hierarchical fingerprint is realized. Secondly, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted as the signature; finally, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted. Bloom filter algorithm is used to identify the similarity of the obtained feature fingerprint. Experiments show that the recall rate is increased to more than 90% and the time complexity is reduced to O (n).
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期

2 黃仁;馮勝;楊吉云;劉宇;敖民;;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重算法[J];計(jì)算機(jī)應(yīng)用研究;2010年07期

3 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報(bào);2003年02期

4 毛曉燕;;搜索引擎用戶滿意度研究的實(shí)證分析——以百度和Google中國為例[J];圖書館雜志;2008年03期

相關(guān)碩士學(xué)位論文 前2條

1 白廣慧;網(wǎng)頁排重技術(shù)研究及應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年

2 李建超;《信息交換用漢字編碼字符集·基本集》(GB2312-80)二級(jí)漢字理據(jù)性研究[D];山東師范大學(xué);2010年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期

2 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期

3 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期

4 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

5 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

6 梁葉;梁京章;陽紅;葉云;;近似鏡像檢測(cè)算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期

7 程們森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁和近似網(wǎng)頁識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期

8 葛曉玢;劉杰;崔健;;基于版權(quán)信息的新聞網(wǎng)頁去重策略研究[J];電腦知識(shí)與技術(shù);2012年26期

9 高殊麗;;基于MapReduce框架的網(wǎng)頁并行去重算法研究[J];黑龍江科學(xué);2010年05期

10 李曉明,朱家稷,閆宏飛;互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2003年12期

相關(guān)會(huì)議論文 前4條

1 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年

3 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁查重算法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 俞昊e,

本文編號(hào):2126963


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2126963.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6d540***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com