基于網(wǎng)頁正文結(jié)構(gòu)和特征串的相似網(wǎng)頁去重算法
[Abstract]:In order to reduce the interference of repeated pages to users and improve the efficiency of de-reduplication, a new large-scale de-duplication algorithm is proposed. Firstly, the text structure tree is established by predefined page label value, and the similarity of hierarchical fingerprint is realized. Secondly, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted as the signature; finally, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted. Bloom filter algorithm is used to identify the similarity of the obtained feature fingerprint. Experiments show that the recall rate is increased to more than 90% and the time complexity is reduced to O (n).
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
2 黃仁;馮勝;楊吉云;劉宇;敖民;;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重算法[J];計(jì)算機(jī)應(yīng)用研究;2010年07期
3 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報(bào);2003年02期
4 毛曉燕;;搜索引擎用戶滿意度研究的實(shí)證分析——以百度和Google中國為例[J];圖書館雜志;2008年03期
相關(guān)碩士學(xué)位論文 前2條
1 白廣慧;網(wǎng)頁排重技術(shù)研究及應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
2 李建超;《信息交換用漢字編碼字符集·基本集》(GB2312-80)二級(jí)漢字理據(jù)性研究[D];山東師范大學(xué);2010年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
2 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期
3 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期
4 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
5 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
6 梁葉;梁京章;陽紅;葉云;;近似鏡像檢測(cè)算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
7 程們森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁和近似網(wǎng)頁識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期
8 葛曉玢;劉杰;崔健;;基于版權(quán)信息的新聞網(wǎng)頁去重策略研究[J];電腦知識(shí)與技術(shù);2012年26期
9 高殊麗;;基于MapReduce框架的網(wǎng)頁并行去重算法研究[J];黑龍江科學(xué);2010年05期
10 李曉明,朱家稷,閆宏飛;互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2003年12期
相關(guān)會(huì)議論文 前4條
1 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個(gè)基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會(huì)第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集[C];2008年
3 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁查重算法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 俞昊e,
本文編號(hào):2126963
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2126963.html