基于MD5的網(wǎng)頁(yè)去重算法的設(shè)計(jì)與研究
本文選題:結(jié)構(gòu)化網(wǎng)頁(yè) 切入點(diǎn):MD 出處:《實(shí)驗(yàn)室研究與探索》2013年12期 論文類型:期刊論文
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展及網(wǎng)絡(luò)信息的指數(shù)狀增長(zhǎng),網(wǎng)絡(luò)上出現(xiàn)了大量的重復(fù)網(wǎng)頁(yè),降低了檢索的查全率和查準(zhǔn)率,影響了檢索效率。因此,網(wǎng)頁(yè)去重的準(zhǔn)確度直接影響著搜索引擎的質(zhì)量。本文通過(guò)對(duì)結(jié)構(gòu)化文本的描述,提出了一種基于MD5的改進(jìn)的網(wǎng)頁(yè)去重算法,并從算法內(nèi)容、算法特征、算法設(shè)計(jì)進(jìn)行了闡述,實(shí)驗(yàn)表明該方法對(duì)提高查全率和查準(zhǔn)率具有很好的效果。
[Abstract]:With the development of the Internet and the exponential growth of network information, a large number of repeated web pages appear on the network, which reduces the recall and precision of retrieval, and affects the efficiency of retrieval. The accuracy of web page de-reduplication directly affects the quality of search engine. This paper presents an improved web page de-duplication algorithm based on MD5 by describing the structured text, and describes the algorithm content, algorithm features and algorithm design. Experiments show that this method has a good effect on improving recall and precision.
【作者單位】: 山西大學(xué)商務(wù)學(xué)院;
【基金】:山西省科學(xué)技術(shù)廳軟科學(xué)研究項(xiàng)目(2013041049-03) 山西省教育科學(xué)規(guī)劃課題(GH-11178)
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 閻亞杰;;網(wǎng)頁(yè)去重方法研究[J];電腦開(kāi)發(fā)與應(yīng)用;2008年08期
2 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
3 梁葉;梁京章;陽(yáng)紅;葉云;;近似鏡像檢測(cè)算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
4 王祖析;;基于網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)消重高效檢測(cè)算法研究[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
5 樊勇;鄭家恒;;網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
6 魏麗霞;鄭家恒;;基于網(wǎng)頁(yè)文本結(jié)構(gòu)的網(wǎng)頁(yè)去重[J];計(jì)算機(jī)應(yīng)用;2007年11期
7 黃仁;馮勝;楊吉云;劉宇;敖民;;基于正文結(jié)構(gòu)和長(zhǎng)句提取的網(wǎng)頁(yè)去重算法[J];計(jì)算機(jī)應(yīng)用研究;2010年07期
8 姚新波;馬治坤;;基于特征串的網(wǎng)頁(yè)去重算法[J];科技信息;2008年28期
9 曹傳東;郭理;;一種基于文本抽取的網(wǎng)頁(yè)正文去重算法[J];科技信息;2009年01期
10 王哲;;基于特征碼的網(wǎng)頁(yè)去重算法研究[J];山東廣播電視大學(xué)學(xué)報(bào);2009年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
2 張玉連;王莎莎;宋桂江;;基于元搜索的網(wǎng)頁(yè)去重算法[J];燕山大學(xué)學(xué)報(bào);2011年02期
3 孟時(shí);王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期
4 樊勇;鄭家恒;;基于主題的網(wǎng)頁(yè)去重[J];電腦開(kāi)發(fā)與應(yīng)用;2008年04期
5 林萍;;提高檔案信息利用效率研究[J];福建電腦;2009年05期
6 余海萍;梁征;;B/S結(jié)構(gòu)網(wǎng)絡(luò)設(shè)備運(yùn)行管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];廣西科學(xué)院學(xué)報(bào);2007年01期
7 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁(yè)正文主題和摘要的網(wǎng)頁(yè)去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
8 梁葉;梁京章;陽(yáng)紅;葉云;;近似鏡像檢測(cè)算法在文本消重中的應(yīng)用研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
9 沙蕓;張國(guó)英;孟凡亮;;基于關(guān)鍵詞提取的娛樂(lè)新聞文檔去重算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
10 程們森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁(yè)和近似網(wǎng)頁(yè)識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期
相關(guān)博士學(xué)位論文 前5條
1 楊瑞龍;基于短語(yǔ)特征的Web文檔聚類方法研究[D];重慶大學(xué);2010年
2 程軍;基于統(tǒng)計(jì)的文本分類技術(shù)研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
3 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年
4 李衛(wèi);領(lǐng)域知識(shí)的獲取[D];北京郵電大學(xué);2008年
5 李旭;基于指紋和語(yǔ)義知識(shí)表示的中文文檔復(fù)制檢測(cè)方法[D];燕山大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年
2 賈志凱;海量數(shù)據(jù)消冗系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2011年
3 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
4 宗寶琴;基于自然語(yǔ)言理解的智能檢索接口技術(shù)的研究及其應(yīng)用[D];河北科技大學(xué);2011年
5 段飛;相似網(wǎng)頁(yè)識(shí)別算法的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
6 聶洋;改進(jìn)算法的文本去重研究[D];北京郵電大學(xué);2011年
7 田鶴楠;質(zhì)檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D];北京郵電大學(xué);2011年
8 李琚彪;質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究[D];北京郵電大學(xué);2011年
9 金川明;垂直搜索引擎研究與實(shí)現(xiàn)[D];云南大學(xué);2011年
10 盧小康;中文文本復(fù)制檢測(cè)技術(shù)研究[D];杭州電子科技大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 樊勇;鄭家恒;;基于主題的網(wǎng)頁(yè)去重[J];電腦開(kāi)發(fā)與應(yīng)用;2008年04期
2 閻亞杰;;網(wǎng)頁(yè)去重方法研究[J];電腦開(kāi)發(fā)與應(yīng)用;2008年08期
3 彭曙蓉,章兢,楊文忠;MD5算法在消除重復(fù)網(wǎng)頁(yè)算法中的應(yīng)用[J];電腦知識(shí)與技術(shù);2005年29期
4 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
5 梁京章;李幼紅;潘瑩;葉云;;P2P資料搜索引擎的研究和設(shè)計(jì)[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
6 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
7 王建會(huì),胡運(yùn)發(fā),李榮陸;自適應(yīng)確定摘要長(zhǎng)度[J];計(jì)算機(jī)研究與發(fā)展;2004年03期
8 馮是聰,單松巍,龔筆宏,張志剛,李曉明;“天網(wǎng)”目錄導(dǎo)航服務(wù)研究[J];計(jì)算機(jī)研究與發(fā)展;2004年04期
9 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年15期
10 趙汀,孟祥武;基于LUCENEAPI的中文全文數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年20期
相關(guān)碩士學(xué)位論文 前2條
1 李立燕;中文科技文獻(xiàn)自動(dòng)摘要系統(tǒng)[D];電子科技大學(xué);2006年
2 徐曉哲;基于多Agent的Internet上構(gòu)件獲取技術(shù)研究[D];哈爾濱工程大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳志賢,王紹棣;SIP協(xié)議中認(rèn)證注冊(cè)機(jī)制的研究[J];南京郵電學(xué)院學(xué)報(bào);2003年03期
2 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
3 付強(qiáng),帥青紅;PGP軟件系統(tǒng)[J];西南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2001年04期
4 易紅軍;佘名高;;MD5算法與數(shù)字簽名[J];計(jì)算機(jī)與數(shù)字工程;2006年05期
5 陳善利;姚瀅;;網(wǎng)頁(yè)防篡改系統(tǒng)的研究與設(shè)計(jì)方案[J];科技信息;2010年09期
6 徐靜波;陳陶偉;;數(shù)字指紋對(duì)Web網(wǎng)頁(yè)的雙重保護(hù)[J];東華大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期
7 林永旺,張大江,錢華林;一個(gè)基于集中管理的協(xié)作式Web緩存系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2001年01期
8 陳琳,李之棠;Web主頁(yè)的監(jiān)控與恢復(fù)[J];計(jì)算機(jī)工程與科學(xué);2001年02期
9 彭曙蓉,章兢,楊文忠;MD5算法在消除重復(fù)網(wǎng)頁(yè)算法中的應(yīng)用[J];電腦知識(shí)與技術(shù);2005年29期
10 竇立莉;;MD5技術(shù)解析及改進(jìn)措施[J];科技傳播;2010年16期
相關(guān)會(huì)議論文 前6條
1 胡景浩;;在網(wǎng)站安全性應(yīng)用中對(duì)MD5碼的改進(jìn)[A];第三屆全國(guó)軟件測(cè)試會(huì)議與移動(dòng)計(jì)算、柵格、智能化高級(jí)論壇論文集[C];2009年
2 樊勇;鄭家恒;張虎;;網(wǎng)頁(yè)去重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 袁玉斌;鄭利平;;質(zhì)量保證系統(tǒng)及其安全性設(shè)計(jì)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
4 李鵬超;辛陽(yáng);鈕心忻;;在線抽獎(jiǎng)系統(tǒng)的安全保障體系[A];第一屆中國(guó)高校通信類院系學(xué)術(shù)研討會(huì)論文集[C];2007年
5 宋曄;于秋;張?jiān)?潘海軍;馬文良;;基于Web平臺(tái)的數(shù)據(jù)安全傳輸系統(tǒng)的研究[A];全國(guó)第五屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議?(第一冊(cè))[C];2011年
6 崔寅;鄭康鋒;;OSPF協(xié)議安全性分析及改進(jìn)[A];第十三屆中國(guó)科協(xié)年會(huì)第11分會(huì)場(chǎng)-中國(guó)智慧城市論壇論文集[C];2011年
相關(guān)碩士學(xué)位論文 前10條
1 羅永蓮;突發(fā)事件語(yǔ)料噪聲排除與網(wǎng)頁(yè)去重方法研究[D];山西大學(xué);2005年
2 肖陽(yáng);基于角色訪問(wèn)控制的身份認(rèn)證研究[D];吉林大學(xué);2009年
3 冷靜;Intranet信息安全中關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2005年
4 楊威;基于PKI技術(shù)的形象安全電子印章系統(tǒng)的研究[D];南昌大學(xué);2006年
5 陳建輝;認(rèn)證協(xié)議抵御DoS攻擊研究及協(xié)議改進(jìn)安全方案的實(shí)現(xiàn)[D];南京航空航天大學(xué);2007年
6 曹曉靜;基于RSA的一次性口令身份認(rèn)證系統(tǒng)[D];暨南大學(xué);2006年
7 魏麗霞;基于文本結(jié)構(gòu)的近似鏡像網(wǎng)頁(yè)去重[D];山西大學(xué);2008年
8 葉倩;基于.NET的精品課程動(dòng)態(tài)網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2009年
9 袁順;容忍入侵的J2EE應(yīng)用服務(wù)器平臺(tái)及其關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2008年
10 萬(wàn)春艷;DHCP安全系統(tǒng)構(gòu)架的研究[D];浙江大學(xué);2007年
,本文編號(hào):1591175
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1591175.html