基于段落指紋的大規(guī)模近似網(wǎng)頁(yè)檢測(cè)算法研究
發(fā)布時(shí)間:2019-09-19 13:48
【摘要】:隨著信息技術(shù)的飛躍式發(fā)展,互聯(lián)網(wǎng)進(jìn)入了一個(gè)信息爆炸的時(shí)代,搜索引擎成為了人們獲取信息最主要的途徑。然而,互聯(lián)網(wǎng)上存在很多近似網(wǎng)頁(yè),一方面加重了用戶從中尋找有價(jià)值信息的負(fù)擔(dān),另一方面,為近似網(wǎng)頁(yè)建立索引消耗了大量不必要的存儲(chǔ)和計(jì)算資源,進(jìn)而影響整個(gè)搜索引擎的質(zhì)量和性能?梢(jiàn),對(duì)網(wǎng)頁(yè)進(jìn)行近似檢測(cè)不僅能夠提高索引效率,節(jié)約存儲(chǔ)資源,同時(shí)能夠顯著地提升搜索引擎的用戶體驗(yàn)。 本文首先對(duì)近似網(wǎng)頁(yè)檢測(cè)的研究現(xiàn)狀做出綜述,并對(duì)現(xiàn)有算法做出深入分析。 隨后,提出了一種基于加權(quán)DOM樹(shù)的網(wǎng)頁(yè)正文提取算法,通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法在各類網(wǎng)頁(yè)集上均獲得高的正文提取準(zhǔn)確率,并將其應(yīng)用于本文的近似網(wǎng)頁(yè)檢測(cè)算法。 接著,提出了一種基于段落指紋的近似網(wǎng)頁(yè)檢測(cè)算法,該算法充分利用了中文語(yǔ)言的語(yǔ)法結(jié)構(gòu)、文章主題語(yǔ)義和HTML標(biāo)簽語(yǔ)義,實(shí)驗(yàn)數(shù)據(jù)表明,本文算法能夠獲得高的準(zhǔn)確率和召回率。實(shí)現(xiàn)了三種已有的優(yōu)秀近似網(wǎng)頁(yè)檢測(cè)算法,實(shí)驗(yàn)數(shù)據(jù)表明,本文算法在準(zhǔn)確率、召回率、效率和指紋占用的存儲(chǔ)資源這些關(guān)鍵方面均有優(yōu)勢(shì)。 最后,基于MapReduce計(jì)算模型,對(duì)本文近似網(wǎng)頁(yè)檢測(cè)算法的并行化做出了深入研究,給出了詳細(xì)的并行化設(shè)計(jì)方案,并在Hadoop分布式平臺(tái)上實(shí)現(xiàn)了該方案。在不同的Hadoop集群規(guī)模下進(jìn)行實(shí)驗(yàn),數(shù)據(jù)表明,本文算法經(jīng)過(guò)并行化設(shè)計(jì)后,效率得到了顯著提升,很好地突破了單機(jī)處理的資源瓶頸,是一種能夠適用于海量數(shù)據(jù)規(guī)模的且實(shí)際可行的方案。
【圖文】:
頁(yè)雖然結(jié)構(gòu)不盡相同,但是正文內(nèi)容卻都是重復(fù)的。搜索引擎的搜索返回結(jié)果中存在大量近似網(wǎng)頁(yè)不僅加重了人們?yōu)g覽和篩選信息的負(fù)擔(dān),而且占用了大量不必要的存儲(chǔ)源,降低了索引效率,嚴(yán)重影響了搜索引擎的質(zhì)量和性能。因此,在網(wǎng)頁(yè)抓取后,須要首先對(duì)近似網(wǎng)頁(yè)進(jìn)行檢測(cè),并去除存在近似的網(wǎng)頁(yè),,進(jìn)而提高索引效率與搜索引擎的用戶體驗(yàn)。這就需要有效的大規(guī)模近似網(wǎng)頁(yè)檢測(cè)算法,快速準(zhǔn)確地發(fā)現(xiàn)近似網(wǎng)頁(yè)。1.1研究背景近年來(lái),互聯(lián)網(wǎng)技術(shù)得到迅猛的發(fā)展,越來(lái)越明顯地改變著人們的生活,同時(shí)顛覆了傳統(tǒng)的信息產(chǎn)生與傳播方式,使信息處理進(jìn)入了一個(gè)嶄新的時(shí)代。根據(jù)Neteraft最新統(tǒng)計(jì)[,l,截至2011年11月,互聯(lián)網(wǎng)上共有525,998,433個(gè)站點(diǎn),站點(diǎn)數(shù)量比上一個(gè)月增長(zhǎng)了4.3%,比2010年同期增長(zhǎng)了約110.85%,可見(jiàn)互聯(lián)網(wǎng)規(guī)模的發(fā)展是空前的。圖1給出了從2003年至2011年的互聯(lián)網(wǎng)站點(diǎn)數(shù)量增長(zhǎng)趨勢(shì)。若按照Netcraft估計(jì)的平均每個(gè)站點(diǎn)擁有273個(gè)網(wǎng)頁(yè)標(biāo)準(zhǔn)進(jìn)行計(jì)算,則目前互聯(lián)網(wǎng)上網(wǎng)頁(yè)的數(shù)量約為1,435億。600,000,000
3.計(jì)算特征項(xiàng)的指紋,對(duì)特征項(xiàng)進(jìn)行壓縮或降維處理以方便存儲(chǔ)和檢索。4.基于特征指紋計(jì)算相似度,判定原始網(wǎng)頁(yè)是否近似。對(duì)以上四個(gè)主要步驟的直觀描述如圖2.1所示。網(wǎng)網(wǎng)頁(yè)預(yù)處理理理對(duì)正文進(jìn)行特特特生成特征指紋紋紋基于特征指紋紋征 征征 征提取 取取 取取計(jì)算相似度 度網(wǎng)頁(yè)正文庫(kù)網(wǎng)頁(yè)指紋庫(kù)近似網(wǎng)頁(yè)圖2.1近似網(wǎng)頁(yè)檢測(cè)算法主要步驟其中第一步是近似網(wǎng)頁(yè)檢測(cè)的一項(xiàng)前置工作,準(zhǔn)確的正文提取是進(jìn)行近似檢測(cè)的重要前提,一般應(yīng)用中作為獨(dú)立于近似檢測(cè)算法之外的模塊,本文將在第3章中詳細(xì)說(shuō)明。8
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.092
本文編號(hào):2538171
【圖文】:
頁(yè)雖然結(jié)構(gòu)不盡相同,但是正文內(nèi)容卻都是重復(fù)的。搜索引擎的搜索返回結(jié)果中存在大量近似網(wǎng)頁(yè)不僅加重了人們?yōu)g覽和篩選信息的負(fù)擔(dān),而且占用了大量不必要的存儲(chǔ)源,降低了索引效率,嚴(yán)重影響了搜索引擎的質(zhì)量和性能。因此,在網(wǎng)頁(yè)抓取后,須要首先對(duì)近似網(wǎng)頁(yè)進(jìn)行檢測(cè),并去除存在近似的網(wǎng)頁(yè),,進(jìn)而提高索引效率與搜索引擎的用戶體驗(yàn)。這就需要有效的大規(guī)模近似網(wǎng)頁(yè)檢測(cè)算法,快速準(zhǔn)確地發(fā)現(xiàn)近似網(wǎng)頁(yè)。1.1研究背景近年來(lái),互聯(lián)網(wǎng)技術(shù)得到迅猛的發(fā)展,越來(lái)越明顯地改變著人們的生活,同時(shí)顛覆了傳統(tǒng)的信息產(chǎn)生與傳播方式,使信息處理進(jìn)入了一個(gè)嶄新的時(shí)代。根據(jù)Neteraft最新統(tǒng)計(jì)[,l,截至2011年11月,互聯(lián)網(wǎng)上共有525,998,433個(gè)站點(diǎn),站點(diǎn)數(shù)量比上一個(gè)月增長(zhǎng)了4.3%,比2010年同期增長(zhǎng)了約110.85%,可見(jiàn)互聯(lián)網(wǎng)規(guī)模的發(fā)展是空前的。圖1給出了從2003年至2011年的互聯(lián)網(wǎng)站點(diǎn)數(shù)量增長(zhǎng)趨勢(shì)。若按照Netcraft估計(jì)的平均每個(gè)站點(diǎn)擁有273個(gè)網(wǎng)頁(yè)標(biāo)準(zhǔn)進(jìn)行計(jì)算,則目前互聯(lián)網(wǎng)上網(wǎng)頁(yè)的數(shù)量約為1,435億。600,000,000
3.計(jì)算特征項(xiàng)的指紋,對(duì)特征項(xiàng)進(jìn)行壓縮或降維處理以方便存儲(chǔ)和檢索。4.基于特征指紋計(jì)算相似度,判定原始網(wǎng)頁(yè)是否近似。對(duì)以上四個(gè)主要步驟的直觀描述如圖2.1所示。網(wǎng)網(wǎng)頁(yè)預(yù)處理理理對(duì)正文進(jìn)行特特特生成特征指紋紋紋基于特征指紋紋征 征征 征提取 取取 取取計(jì)算相似度 度網(wǎng)頁(yè)正文庫(kù)網(wǎng)頁(yè)指紋庫(kù)近似網(wǎng)頁(yè)圖2.1近似網(wǎng)頁(yè)檢測(cè)算法主要步驟其中第一步是近似網(wǎng)頁(yè)檢測(cè)的一項(xiàng)前置工作,準(zhǔn)確的正文提取是進(jìn)行近似檢測(cè)的重要前提,一般應(yīng)用中作為獨(dú)立于近似檢測(cè)算法之外的模塊,本文將在第3章中詳細(xì)說(shuō)明。8
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 何友全;徐澄;徐小樂(lè);唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹(shù)的網(wǎng)頁(yè)去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
2 樊勇;鄭家恒;;基于主題的網(wǎng)頁(yè)去重[J];電腦開(kāi)發(fā)與應(yīng)用;2008年04期
3 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
4 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
5 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語(yǔ)義網(wǎng)絡(luò)的近似網(wǎng)頁(yè)檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期
本文編號(hào):2538171
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2538171.html
最近更新
教材專著