天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁(yè)正文結(jié)構(gòu)樹(shù)的近似網(wǎng)頁(yè)去重算法研究

發(fā)布時(shí)間:2018-03-05 10:09

  本文選題:網(wǎng)頁(yè)去重 切入點(diǎn):正文結(jié)構(gòu)樹(shù) 出處:《重慶大學(xué)》2013年碩士論文 論文類(lèi)型:學(xué)位論文


【摘要】:據(jù)美國(guó)計(jì)算機(jī)協(xié)會(huì)統(tǒng)計(jì),重復(fù)網(wǎng)頁(yè)數(shù)量約占網(wǎng)頁(yè)總量的30%-45%。伴隨搜索引擎數(shù)量不斷增加,用戶(hù)對(duì)搜索引擎體驗(yàn)要求的提高,,搜素質(zhì)量成為各搜索引擎贏取用戶(hù)的砝碼。搜索引擎若能夠及時(shí)去除這些重復(fù)網(wǎng)頁(yè),系統(tǒng)不僅能節(jié)省大量存儲(chǔ)空間,間接降低設(shè)備采購(gòu)成本,也能提高網(wǎng)絡(luò)的檢索質(zhì)量和訪(fǎng)問(wèn)效率,提高用戶(hù)體驗(yàn)滿(mǎn)意率。 網(wǎng)頁(yè)正文內(nèi)容的特征提取以及大規(guī)模相似性比較是網(wǎng)頁(yè)去重的關(guān)鍵問(wèn)題。按照傳統(tǒng)算法的各自突出特點(diǎn)將其分為三類(lèi):基于URL去重算法,僅能根據(jù)URL地址去除完全重復(fù)網(wǎng)頁(yè);基于特征串匹配去重算法,具有較高的準(zhǔn)確率,但去重時(shí)間消耗高;基于聚類(lèi)去重算法,具有較高的召回率,對(duì)于一些新聞?lì)}材或模板類(lèi)文章準(zhǔn)確率較低。 分析轉(zhuǎn)載網(wǎng)頁(yè)發(fā)現(xiàn),重復(fù)網(wǎng)頁(yè)在內(nèi)容上可能有變化,但文檔格式較少發(fā)生改變,即網(wǎng)頁(yè)正文結(jié)構(gòu)幾乎不變。針對(duì)此特點(diǎn),本文提出基于正文結(jié)構(gòu)樹(shù)的兩個(gè)去重算法。 通過(guò)分析重復(fù)網(wǎng)頁(yè)發(fā)現(xiàn),長(zhǎng)句不具有主題代表性。面對(duì)網(wǎng)頁(yè)采集器更改規(guī)則,越長(zhǎng)的句子表現(xiàn)越脆弱。本文對(duì)基于正文結(jié)構(gòu)及長(zhǎng)句去重算法進(jìn)行改進(jìn),提出基于正文結(jié)構(gòu)樹(shù)及關(guān)鍵句的算法。算法中提取包含關(guān)鍵詞的句子作為特征句,且特征句的數(shù)目由段落長(zhǎng)度決定,使得提取的特征句的數(shù)目更全面的概括文章內(nèi)容。實(shí)驗(yàn)表明,改進(jìn)算法去重準(zhǔn)確率、召回率都有所提高。 特征項(xiàng)的粒度越小,散列后的特征指紋越不易被干擾。依據(jù)此特性,本文提出了基于正文結(jié)構(gòu)樹(shù)及特征串的去重算法。首先,此算法中提取網(wǎng)頁(yè)中高頻標(biāo)點(diǎn)所在句子中的首尾漢字作為特征碼。其次,利用Bloom Filter算法獲取特征指紋。最后,按層次指紋進(jìn)行相似度判別。實(shí)驗(yàn)表明,此算法在召回率方面有大幅度提高,在對(duì)小文檔去重上表現(xiàn)的尤其明顯,且大大降低了去重時(shí)間。
[Abstract]:According to the American computer Association, the number of duplicate pages accounts for about 30-45% of the total web pages. With the constant increase in the number of search engines, users' requirements for search engine experience have increased. Search quality becomes a weight for search engines to win users. If search engines can remove these duplicate pages in time, the system can not only save a lot of storage space, but also indirectly reduce the cost of purchasing equipment. It can also improve the retrieval quality and access efficiency of the network, and improve the satisfaction rate of the user experience. The feature extraction and large-scale similarity comparison of the text of the page are the key problems of the webpage removal. According to the outstanding characteristics of the traditional algorithms, they can be divided into three categories: based on the URL algorithm, only the complete duplicate pages can be removed according to the URL address; The algorithm based on feature string matching has higher accuracy rate, but high time consumption; based on clustering de-duplication algorithm, it has a higher recall rate, and low accuracy for some news or template articles. After analyzing the reprinted pages, it is found that there may be changes in the content of the reprinted pages, but the format of the document is seldom changed, that is, the structure of the text is almost unchanged. In view of this feature, this paper proposes two de-reduplication algorithms based on the text structure tree. Through the analysis of repeated web pages, it is found that long sentences are not representative of the subject. The longer the sentence is, the more vulnerable it is to change the rules of the page collector. In this paper, we improve the algorithm based on the text structure and the long sentence de-duplication algorithm. This paper proposes an algorithm based on text structure tree and key sentences, in which sentences containing keywords are extracted as feature sentences, and the number of feature sentences is determined by paragraph length. The experimental results show that the improved algorithm improves the accuracy rate and the recall rate. The smaller the granularity of the feature item, the less easily the feature fingerprint will be disturbed. According to this characteristic, a new algorithm based on text structure tree and feature string is proposed. In this algorithm, the first and last Chinese characters in the sentences with high frequency punctuation are extracted as the signature. Secondly, the Bloom Filter algorithm is used to obtain the feature fingerprint. Finally, the similarity is judged according to the hierarchical fingerprint. The experiment shows that, The algorithm has a significant increase in recall rate, especially for small documents, and greatly reduces the time of de-reduplication.
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁(yè)快速去重算法研究[J];中文信息學(xué)報(bào);2003年02期

2 郭牧怡;劉萍;譚建龍;郭莉;;基于文件標(biāo)題特征的網(wǎng)絡(luò)視頻去重研究[J];計(jì)算機(jī)工程;2010年09期

3 張玉連;王莎莎;宋桂江;;基于元搜索的網(wǎng)頁(yè)去重算法[J];燕山大學(xué)學(xué)報(bào);2011年02期

4 申文明;黃家裕;劉連芳;;平行語(yǔ)料庫(kù)的相似語(yǔ)句去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

5 王鵬;張永奎;張彥;劉睿;;基于新聞網(wǎng)頁(yè)主題要素的網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年28期

6 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁(yè)正文主題和摘要的網(wǎng)頁(yè)去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期

7 夏明偉;施榮華;;電信話(huà)單去重技術(shù)的研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年07期

8 張素智;樊得強(qiáng);;網(wǎng)頁(yè)去重方法研究及算法設(shè)計(jì)[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期

9 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

10 賀晟;程家興;王為為;蔡欣寶;;結(jié)構(gòu)化Web數(shù)據(jù)的自動(dòng)去重方法[J];計(jì)算機(jī)應(yīng)用與軟件;2010年12期

相關(guān)會(huì)議論文 前7條

1 楊喜權(quán);張一鳴;王大勇;;基于特征碼的大規(guī)模XML文檔去重算法研究[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

2 王鵬;張永奎;;基于新聞網(wǎng)頁(yè)主題要素的網(wǎng)頁(yè)去重方法研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

3 汪啟思;;打造學(xué)生工作新平臺(tái),架設(shè)師生互動(dòng)新時(shí)空——基于輔導(dǎo)員個(gè)人工作網(wǎng)頁(yè)建設(shè)的新探索[A];福建省高校思想政治教育研究會(huì)2008年年會(huì)優(yōu)秀論文專(zhuān)輯(二)[C];2008年

4 徐仙君;王紅英;;浙江本科院校體育網(wǎng)頁(yè)建設(shè)現(xiàn)狀研究與分析[A];第八屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(二)[C];2007年

5 ;學(xué)會(huì)信息化建設(shè)現(xiàn)狀與發(fā)展對(duì)策調(diào)研報(bào)告[A];第三屆海南省科技論壇論文選編[C];2005年

6 朱命冬;申德榮;寇月;聶鐵錚;于戈;;一種應(yīng)用于Deep Web環(huán)境下的重復(fù)記錄識(shí)別模型[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

7 周佳慶;李曉燕;陳珂;胡天磊;陳剛;;一種自學(xué)習(xí)的中文地址判重算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年

相關(guān)重要報(bào)紙文章 前10條

1 通訊員 張廣臣;威寧全面推進(jìn)“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程[N];畢節(jié)日?qǐng)?bào);2011年

2 通訊員 張應(yīng)旭 劉月;納雍全面啟動(dòng)“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程建設(shè)[N];畢節(jié)日?qǐng)?bào);2011年

3 尹雄 本報(bào)記者 李凱;全省“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程建設(shè)啟動(dòng)所有鄉(xiāng)鎮(zhèn)行政村將有自己網(wǎng)頁(yè)[N];貴州日?qǐng)?bào);2011年

4 劉一南 特約記者 孫振彪;網(wǎng)頁(yè)建設(shè)要富有特色[N];人民武警;2008年

5 柯林 侯亞君;廣元切實(shí)推進(jìn)信息化建設(shè)[N];人民公安報(bào)·交通安全周刊;2009年

6 陳紅娟;市城鄉(xiāng)建設(shè)規(guī)劃局全面推行政務(wù)公開(kāi)[N];銅川日?qǐng)?bào);2007年

7 王洪濤 翟曉敏;永年縣電力公司加快信息化建設(shè)[N];中國(guó)電力報(bào);2006年

8 本報(bào)記者 栗中 本報(bào)通訊員 俞立進(jìn);牢記生命的囑托[N];忻州日?qǐng)?bào);2007年

9 暨南大學(xué)深圳中旅學(xué)院99旅游管理 蘇黎;為旅游景區(qū)網(wǎng)站把脈[N];中國(guó)旅游報(bào);2003年

10 張華;清流實(shí)現(xiàn)農(nóng)村藥品“網(wǎng)上監(jiān)管”[N];醫(yī)藥經(jīng)濟(jì)報(bào);2007年

相關(guān)碩士學(xué)位論文 前10條

1 牙漫;基于網(wǎng)頁(yè)正文結(jié)構(gòu)樹(shù)的近似網(wǎng)頁(yè)去重算法研究[D];重慶大學(xué);2013年

2 李家琪;一種基于信息分布的元搜索結(jié)果后處理方法研究[D];北京郵電大學(xué);2008年

3 李明;巴蜀重點(diǎn)中學(xué)校園網(wǎng)頁(yè)文化建設(shè)研究[D];西南大學(xué);2010年

4 李賀;移動(dòng)智能公交系統(tǒng)中違章車(chē)輛抓拍算法研究[D];中國(guó)海洋大學(xué);2013年

5 丁益斌;相似網(wǎng)頁(yè)去重算法的并行化研究與實(shí)現(xiàn)[D];華中科技大學(xué);2009年

6 劉四維;不同類(lèi)型數(shù)據(jù)間的聚類(lèi)算法[D];復(fù)旦大學(xué);2010年

7 覃冰梅;聯(lián)機(jī)漢語(yǔ)拼音書(shū)寫(xiě)教學(xué)關(guān)鍵技術(shù)研究[D];湘潭大學(xué);2012年

8 牛娟娟;搜索引擎系統(tǒng)中網(wǎng)頁(yè)消重的研究與實(shí)現(xiàn)[D];河南大學(xué);2011年

9 張燦;基于多本體的智能搜索引擎模型研究與實(shí)現(xiàn)[D];首都師范大學(xué);2013年

10 王莎莎;元搜索引擎結(jié)果合成技術(shù)的研究[D];燕山大學(xué);2011年



本文編號(hào):1569796

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1569796.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)70460***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com