天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重

發(fā)布時間:2018-05-30 13:46

  本文選題:層次指紋 + 文本結(jié)構(gòu); 參考:《計算機應(yīng)用》2007年11期


【摘要】:搜索引擎返回的重復(fù)網(wǎng)頁不但浪費了存儲資源,而且加重了用戶瀏覽的負擔(dān)。針對網(wǎng)頁重復(fù)的特征和網(wǎng)頁文本自身的特點,提出了一種動態(tài)的網(wǎng)頁去重方法。該方法通過將網(wǎng)頁的正文表示成目錄結(jié)構(gòu)樹的形式,實現(xiàn)了一種動態(tài)的特征提取算法和層次指紋的相似度計算算法。實驗證明,該方法對全文重復(fù)和部分重復(fù)的網(wǎng)頁都能進行準確的檢測。
[Abstract]:Duplicate pages returned by search engines not only waste storage resources, but also increase the burden of browsing. According to the characteristics of web page repetition and the characteristics of web page text, a dynamic web page de-reduplication method is proposed. In this method, a dynamic feature extraction algorithm and a similarity calculation algorithm for hierarchical fingerprints are implemented by representing the text of a web page as a directory structure tree. Experimental results show that this method can detect both full text and partial duplicate web pages accurately.
【作者單位】: 山西大學(xué)計算機與信息技術(shù)學(xué)院 山西大學(xué)計算機與信息技術(shù)學(xué)院
【基金】:國家自然科學(xué)基金資助項目(60473139;60775041) 山西省自然科學(xué)基金資助項目(20051034)
【分類號】:TP393.092;TP391.1

【共引文獻】

相關(guān)期刊論文 前4條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(自然科學(xué)版);2001年05期

2 李曉明,朱家稷,閆宏飛;互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J];計算機研究與發(fā)展;2003年12期

3 劉華;;網(wǎng)頁信息抽取及建庫系統(tǒng)C#實現(xiàn)[J];計算機工程;2006年16期

4 劉華;;超大規(guī)模分類語料庫構(gòu)建[J];現(xiàn)代圖書情報技術(shù);2006年01期

相關(guān)博士學(xué)位論文 前3條

1 程軍;基于統(tǒng)計的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻情報中心);2003年

2 劉華;基于關(guān)鍵短語的文本內(nèi)容標(biāo)引研究[D];北京語言大學(xué);2005年

3 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 吳平博;基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D];清華大學(xué);2004年

2 邱功凱;基于移動主體的網(wǎng)格服務(wù)資源搜索引擎關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2004年

3 胡蓉;一種基于相關(guān)反饋和用戶建模的網(wǎng)絡(luò)搜索個性化服務(wù)[D];湘潭大學(xué);2005年

4 郭琛;數(shù)字圖書館的中文網(wǎng)頁文本分類器研究[D];武漢理工大學(xué);2005年

5 姚永祥;基于XTM的政務(wù)知識導(dǎo)航系統(tǒng)的研究與實現(xiàn)[D];大連理工大學(xué);2006年

6 連浩;基于布爾模型的網(wǎng)頁查重算法研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年

7 李軍輝;中文郵件語料庫建設(shè)[D];蘇州大學(xué);2006年

8 朱斐;一種富文本分類方法的研究與實現(xiàn)[D];蘇州大學(xué);2006年

9 劉斌;數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2002年

10 于歌;搜索引擎中自動分類關(guān)鍵技術(shù)研究[D];燕山大學(xué);2006年

【相似文獻】

相關(guān)會議論文 前8條

1 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本結(jié)構(gòu)的自動分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

2 劉玲;周經(jīng)野;羅慧慧;;基于XML的文本規(guī)劃方法[A];2005年全國理論計算機科學(xué)學(xué)術(shù)年會論文集[C];2005年

3 楊艷;李巍;玄萍;;數(shù)字圖書館中基于Ontology的文本模型[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年

4 李成城;;基于修辭結(jié)構(gòu)理論的自動文摘研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

5 王慧芳;張勇;邢春曉;張文珂;楊吉江;;文本摘要算法集成與實現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年

6 劉德喜;吳世漢;吳通;;基于隨機沖浪模型的XML文摘句子重排[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

7 鄧小妮;老松楊;胡曉峰;;超文本系統(tǒng)的功能結(jié)構(gòu)模型[A];第十一屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1993年

8 匡海波;陳小荷;;唐詩文本自動分類的算法研究[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年

相關(guān)博士學(xué)位論文 前8條

1 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

2 蔣斌;文本載體信息隱藏及相關(guān)技術(shù)研究[D];解放軍信息工程大學(xué);2008年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

4 龍華;定義問答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年

5 李博;基于LDA和LSA的醫(yī)學(xué)文本和影像分析模型及應(yīng)用研究[D];吉林大學(xué);2012年

6 翟延冬;基于WordNet的短文本語義網(wǎng)挖掘算法研究[D];吉林大學(xué);2012年

7 眭新光;文本信息隱藏及分析技術(shù)研究[D];解放軍信息工程大學(xué);2007年

8 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 華秀麗;文本抄襲檢測方法研究[D];蘇州大學(xué);2012年

2 張文明;文本案例知識庫構(gòu)建的關(guān)鍵技術(shù)研究[D];西北大學(xué);2010年

3 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年

4 杜爾斌;基于改進KNN的文本分類算法的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2010年

5 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年

6 孫昌年;基于主題模型的文本相似度計算研究與實現(xiàn)[D];安徽大學(xué);2012年

7 姜琪;從文本圖解到非文本圖解的動畫視覺敘事研究[D];華中師范大學(xué);2012年

8 石安磊;基于文本相似度評分的中醫(yī)案例分析系統(tǒng)研究與實現(xiàn)[D];西北大學(xué);2011年

9 曹菲菲;基于內(nèi)容分析的專利挖掘技術(shù)研究[D];東北大學(xué);2008年

10 張大虎;基于主題的文本數(shù)據(jù)采集系統(tǒng)的研究與實現(xiàn)[D];東北大學(xué);2010年

,

本文編號:1955512

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1955512.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶82acb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com