天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MD5的網(wǎng)頁去重算法的設(shè)計與研究

發(fā)布時間:2018-03-10 01:27

  本文選題:結(jié)構(gòu)化網(wǎng)頁 切入點:MD 出處:《實驗室研究與探索》2013年12期  論文類型:期刊論文


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展及網(wǎng)絡(luò)信息的指數(shù)狀增長,網(wǎng)絡(luò)上出現(xiàn)了大量的重復(fù)網(wǎng)頁,降低了檢索的查全率和查準率,影響了檢索效率。因此,網(wǎng)頁去重的準確度直接影響著搜索引擎的質(zhì)量。本文通過對結(jié)構(gòu)化文本的描述,提出了一種基于MD5的改進的網(wǎng)頁去重算法,并從算法內(nèi)容、算法特征、算法設(shè)計進行了闡述,實驗表明該方法對提高查全率和查準率具有很好的效果。
[Abstract]:With the development of the Internet and the exponential growth of network information, a large number of repeated web pages appear on the network, which reduces the recall and precision of retrieval, and affects the efficiency of retrieval. The accuracy of web page de-reduplication directly affects the quality of search engine. This paper presents an improved web page de-duplication algorithm based on MD5 by describing the structured text, and describes the algorithm content, algorithm features and algorithm design. Experiments show that this method has a good effect on improving recall and precision.
【作者單位】: 山西大學(xué)商務(wù)學(xué)院;
【基金】:山西省科學(xué)技術(shù)廳軟科學(xué)研究項目(2013041049-03) 山西省教育科學(xué)規(guī)劃課題(GH-11178)
【分類號】:TP393.092

【參考文獻】

相關(guān)期刊論文 前10條

1 閻亞杰;;網(wǎng)頁去重方法研究[J];電腦開發(fā)與應(yīng)用;2008年08期

2 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期

3 梁葉;梁京章;陽紅;葉云;;近似鏡像檢測算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2010年02期

4 王祖析;;基于網(wǎng)頁內(nèi)容的網(wǎng)頁消重高效檢測算法研究[J];佳木斯大學(xué)學(xué)報(自然科學(xué)版);2010年01期

5 樊勇;鄭家恒;;網(wǎng)頁去重方法研究[J];計算機工程與應(yīng)用;2009年12期

6 魏麗霞;鄭家恒;;基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重[J];計算機應(yīng)用;2007年11期

7 黃仁;馮勝;楊吉云;劉宇;敖民;;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重算法[J];計算機應(yīng)用研究;2010年07期

8 姚新波;馬治坤;;基于特征串的網(wǎng)頁去重算法[J];科技信息;2008年28期

9 曹傳東;郭理;;一種基于文本抽取的網(wǎng)頁正文去重算法[J];科技信息;2009年01期

10 王哲;;基于特征碼的網(wǎng)頁去重算法研究[J];山東廣播電視大學(xué)學(xué)報;2009年01期

【共引文獻】

相關(guān)期刊論文 前10條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(自然科學(xué)版);2001年05期

2 張玉連;王莎莎;宋桂江;;基于元搜索的網(wǎng)頁去重算法[J];燕山大學(xué)學(xué)報;2011年02期

3 孟時;王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期

4 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期

5 林萍;;提高檔案信息利用效率研究[J];福建電腦;2009年05期

6 余海萍;梁征;;B/S結(jié)構(gòu)網(wǎng)絡(luò)設(shè)備運行管理系統(tǒng)的設(shè)計與實現(xiàn)[J];廣西科學(xué)院學(xué)報;2007年01期

7 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報;2009年04期

8 梁葉;梁京章;陽紅;葉云;;近似鏡像檢測算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2010年02期

9 沙蕓;張國英;孟凡亮;;基于關(guān)鍵詞提取的娛樂新聞文檔去重算法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期

10 程們森;安俊秀;;基于特征詞群的新聞類重復(fù)網(wǎng)頁和近似網(wǎng)頁識別算法[J];成都信息工程學(xué)院學(xué)報;2012年04期

相關(guān)博士學(xué)位論文 前5條

1 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年

2 程軍;基于統(tǒng)計的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻情報中心);2003年

3 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年

4 李衛(wèi);領(lǐng)域知識的獲取[D];北京郵電大學(xué);2008年

5 李旭;基于指紋和語義知識表示的中文文檔復(fù)制檢測方法[D];燕山大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年

2 賈志凱;海量數(shù)據(jù)消冗系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學(xué);2011年

3 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年

4 宗寶琴;基于自然語言理解的智能檢索接口技術(shù)的研究及其應(yīng)用[D];河北科技大學(xué);2011年

5 段飛;相似網(wǎng)頁識別算法的研究與實現(xiàn)[D];北京郵電大學(xué);2011年

6 聶洋;改進算法的文本去重研究[D];北京郵電大學(xué);2011年

7 田鶴楠;質(zhì)檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D];北京郵電大學(xué);2011年

8 李琚彪;質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究[D];北京郵電大學(xué);2011年

9 金川明;垂直搜索引擎研究與實現(xiàn)[D];云南大學(xué);2011年

10 盧小康;中文文本復(fù)制檢測技術(shù)研究[D];杭州電子科技大學(xué);2009年

【二級參考文獻】

相關(guān)期刊論文 前10條

1 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期

2 閻亞杰;;網(wǎng)頁去重方法研究[J];電腦開發(fā)與應(yīng)用;2008年08期

3 彭曙蓉,章兢,楊文忠;MD5算法在消除重復(fù)網(wǎng)頁算法中的應(yīng)用[J];電腦知識與技術(shù);2005年29期

4 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期

5 梁京章;李幼紅;潘瑩;葉云;;P2P資料搜索引擎的研究和設(shè)計[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2006年04期

6 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學(xué)學(xué)報(自然科學(xué)版);2001年04期

7 王建會,胡運發(fā),李榮陸;自適應(yīng)確定摘要長度[J];計算機研究與發(fā)展;2004年03期

8 馮是聰,單松巍,龔筆宏,張志剛,李曉明;“天網(wǎng)”目錄導(dǎo)航服務(wù)研究[J];計算機研究與發(fā)展;2004年04期

9 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計算機工程與應(yīng)用;2003年15期

10 趙汀,孟祥武;基于LUCENEAPI的中文全文數(shù)據(jù)庫設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2003年20期

相關(guān)碩士學(xué)位論文 前2條

1 李立燕;中文科技文獻自動摘要系統(tǒng)[D];電子科技大學(xué);2006年

2 徐曉哲;基于多Agent的Internet上構(gòu)件獲取技術(shù)研究[D];哈爾濱工程大學(xué);2007年

【相似文獻】

相關(guān)期刊論文 前10條

1 陳志賢,王紹棣;SIP協(xié)議中認證注冊機制的研究[J];南京郵電學(xué)院學(xué)報;2003年03期

2 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期

3 付強,帥青紅;PGP軟件系統(tǒng)[J];西南民族學(xué)院學(xué)報(自然科學(xué)版);2001年04期

4 易紅軍;佘名高;;MD5算法與數(shù)字簽名[J];計算機與數(shù)字工程;2006年05期

5 陳善利;姚瀅;;網(wǎng)頁防篡改系統(tǒng)的研究與設(shè)計方案[J];科技信息;2010年09期

6 徐靜波;陳陶偉;;數(shù)字指紋對Web網(wǎng)頁的雙重保護[J];東華大學(xué)學(xué)報(自然科學(xué)版);2006年01期

7 林永旺,張大江,錢華林;一個基于集中管理的協(xié)作式Web緩存系統(tǒng)[J];計算機研究與發(fā)展;2001年01期

8 陳琳,李之棠;Web主頁的監(jiān)控與恢復(fù)[J];計算機工程與科學(xué);2001年02期

9 彭曙蓉,章兢,楊文忠;MD5算法在消除重復(fù)網(wǎng)頁算法中的應(yīng)用[J];電腦知識與技術(shù);2005年29期

10 竇立莉;;MD5技術(shù)解析及改進措施[J];科技傳播;2010年16期

相關(guān)會議論文 前6條

1 胡景浩;;在網(wǎng)站安全性應(yīng)用中對MD5碼的改進[A];第三屆全國軟件測試會議與移動計算、柵格、智能化高級論壇論文集[C];2009年

2 樊勇;鄭家恒;張虎;;網(wǎng)頁去重系統(tǒng)的設(shè)計與實現(xiàn)[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

3 袁玉斌;鄭利平;;質(zhì)量保證系統(tǒng)及其安全性設(shè)計[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年

4 李鵬超;辛陽;鈕心忻;;在線抽獎系統(tǒng)的安全保障體系[A];第一屆中國高校通信類院系學(xué)術(shù)研討會論文集[C];2007年

5 宋曄;于秋;張元;潘海軍;馬文良;;基于Web平臺的數(shù)據(jù)安全傳輸系統(tǒng)的研究[A];全國第五屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議?(第一冊)[C];2011年

6 崔寅;鄭康鋒;;OSPF協(xié)議安全性分析及改進[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年

相關(guān)碩士學(xué)位論文 前10條

1 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學(xué);2005年

2 肖陽;基于角色訪問控制的身份認證研究[D];吉林大學(xué);2009年

3 冷靜;Intranet信息安全中關(guān)鍵技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2005年

4 楊威;基于PKI技術(shù)的形象安全電子印章系統(tǒng)的研究[D];南昌大學(xué);2006年

5 陳建輝;認證協(xié)議抵御DoS攻擊研究及協(xié)議改進安全方案的實現(xiàn)[D];南京航空航天大學(xué);2007年

6 曹曉靜;基于RSA的一次性口令身份認證系統(tǒng)[D];暨南大學(xué);2006年

7 魏麗霞;基于文本結(jié)構(gòu)的近似鏡像網(wǎng)頁去重[D];山西大學(xué);2008年

8 葉倩;基于.NET的精品課程動態(tài)網(wǎng)站設(shè)計與實現(xiàn)[D];西北大學(xué);2009年

9 袁順;容忍入侵的J2EE應(yīng)用服務(wù)器平臺及其關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2008年

10 萬春艷;DHCP安全系統(tǒng)構(gòu)架的研究[D];浙江大學(xué);2007年

,

本文編號:1591175

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1591175.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶722db***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com