天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于正文結(jié)構(gòu)樹的近似網(wǎng)頁去重研究

發(fā)布時間:2017-09-25 12:17

  本文關(guān)鍵詞:基于正文結(jié)構(gòu)樹的近似網(wǎng)頁去重研究


  更多相關(guān)文章: 網(wǎng)頁去重 前綴過濾 正文結(jié)構(gòu)樹 網(wǎng)頁指紋相似度 布隆過濾器


【摘要】:隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)級的增長。大量信息一方面帶來更多的消息渠道,另一方面重復(fù)網(wǎng)頁也帶來了檢索困難。重復(fù)網(wǎng)頁不但浪費時間、使索引質(zhì)量降低,而且還會使排序靠后。因此面對日益增長的網(wǎng)頁信息,如何快速、準(zhǔn)確的網(wǎng)頁去重,成了互聯(lián)網(wǎng)的一個重要問題。首先,針對各大網(wǎng)站網(wǎng)頁互相轉(zhuǎn)載、復(fù)制時,轉(zhuǎn)載網(wǎng)頁僅僅在內(nèi)容上進行增刪操作,而在網(wǎng)頁正文結(jié)構(gòu)上很少作調(diào)整這一普遍的現(xiàn)象,分析重復(fù)網(wǎng)頁產(chǎn)生的原因并闡述傳統(tǒng)網(wǎng)頁去重算法的優(yōu)缺點,在其基礎(chǔ)上提出基于正文結(jié)構(gòu)樹的去重算法,可有效地提高去重的準(zhǔn)確率和召回率。其次,結(jié)合網(wǎng)頁正文結(jié)構(gòu)樹的特點,提出基于正文結(jié)構(gòu)樹和關(guān)鍵句的去重算法。對網(wǎng)頁進行預(yù)處理,引入前綴過濾算法初步去重,對保留網(wǎng)頁建立正文結(jié)構(gòu)樹;采用IDFTF-統(tǒng)計方法對關(guān)鍵字分析時引入標(biāo)簽權(quán)重,同時為了避免標(biāo)簽權(quán)重過大使得最后的分詞權(quán)重可比性降低,對標(biāo)簽權(quán)重標(biāo)準(zhǔn)化;關(guān)鍵句提取時,采用根據(jù)段落長短按比例進行關(guān)鍵句提取的方法;之后用MD5算法進行相似性“指紋”比較。再次,結(jié)合網(wǎng)頁正文結(jié)構(gòu)樹的特點,提出基于正文結(jié)構(gòu)樹的布隆過濾去重算法。對預(yù)處理后的網(wǎng)頁建立正文結(jié)構(gòu)樹;網(wǎng)頁特征串提取時,采用首1尾2個漢字的提取方法;利用Bloom Filter算法,計算并比較正文結(jié)構(gòu)樹的每層結(jié)點的“指紋”相似度,該算法能夠在允許一定誤差的情況下,有效地降低時間和空間復(fù)雜度。最后,對提出的算法在去重結(jié)果和去重時間方面進行實驗驗證和分析。
【關(guān)鍵詞】:網(wǎng)頁去重 前綴過濾 正文結(jié)構(gòu)樹 網(wǎng)頁指紋相似度 布隆過濾器
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3;TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 課題背景和意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-14
  • 1.3 研究內(nèi)容和目標(biāo)14-15
  • 1.4 論文的組織結(jié)構(gòu)15-16
  • 第2章 網(wǎng)頁去重相關(guān)理論概述16-24
  • 2.1 搜索引擎介紹16-18
  • 2.1.1 搜索引擎種類16-17
  • 2.1.2 搜索引擎組成及原理17-18
  • 2.2 重復(fù)網(wǎng)頁簡述18-22
  • 2.2.1 網(wǎng)頁重復(fù)產(chǎn)生的原因18-20
  • 2.2.2 網(wǎng)頁重復(fù)的類型20-22
  • 2.3 搜索引擎的評價標(biāo)準(zhǔn)22-23
  • 2.3.1 準(zhǔn)確率和召回率22-23
  • 2.3.2 重復(fù)網(wǎng)頁對搜索引擎的影響23
  • 2.4 本章小結(jié)23-24
  • 第3章 基于正文結(jié)構(gòu)樹和關(guān)鍵句去重算法24-38
  • 3.1 前綴過濾以及倒排索引25-28
  • 3.1.1 前綴過濾25-27
  • 3.1.2 倒排索引27-28
  • 3.2 正文結(jié)構(gòu)樹28-34
  • 3.2.1 網(wǎng)頁要素提取28-32
  • 3.2.2 標(biāo)簽權(quán)重的設(shè)定32-33
  • 3.2.3 正文結(jié)構(gòu)樹建立33-34
  • 3.3 正文關(guān)鍵句的提取34-35
  • 3.3.1 關(guān)鍵字篩選34-35
  • 3.3.2 網(wǎng)頁段落關(guān)鍵句提取35
  • 3.4 基于正文結(jié)構(gòu)樹和關(guān)鍵句去重算法描述35-37
  • 3.5 本章小結(jié)37-38
  • 第4章 基于正文結(jié)構(gòu)樹的布隆過濾器去重算法38-48
  • 4.1 Bloom Filter算法38-40
  • 4.1.1 Bloom Filter算法原理38-39
  • 4.1.2 Bloom Filter算法實現(xiàn)39-40
  • 4.2 基于正文結(jié)構(gòu)樹的布隆過濾器去重算法40-45
  • 4.2.1 基于正文結(jié)構(gòu)樹的布隆過濾器去重算法系統(tǒng)結(jié)構(gòu)41-42
  • 4.2.2 特征串提取42-43
  • 4.2.3 判斷正文標(biāo)題的相似性43-44
  • 4.2.4 判斷正文關(guān)鍵詞的相似性44-45
  • 4.2.5 判斷結(jié)構(gòu)樹各層結(jié)點的相似性45
  • 4.3 基于正文結(jié)構(gòu)樹的布隆過濾器去重算法描述45-47
  • 4.4 本章小結(jié)47-48
  • 第5章 實驗結(jié)果與分析48-55
  • 5.1 實驗環(huán)境配置48
  • 5.2 實驗評價標(biāo)準(zhǔn)48-49
  • 5.3 實驗結(jié)果分析49-54
  • 5.3.1 不同算法網(wǎng)頁去重結(jié)果分析49-51
  • 5.3.2 不同算法網(wǎng)頁去重時間分析51
  • 5.3.3 準(zhǔn)確率與召回率關(guān)系分析51-52
  • 5.3.4 算法對不同類型近似鏡像網(wǎng)頁分析52-54
  • 5.4 本章小結(jié)54-55
  • 結(jié)論55-57
  • 參考文獻57-60
  • 致謝60

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2009年03期

2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期

3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期

6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期

8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期

10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學(xué)院學(xué)報(自然科學(xué));2001年06期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學(xué)會年會暨中國工程院機械與運載工程學(xué)部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學(xué);2015年

2 毛凱;基于Jsoup的通用網(wǎng)頁采集系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年

3 王延江;企業(yè)搜索引擎排序技術(shù)的研究[D];大連海事大學(xué);2016年

4 石雁;基于查詢偏好的個性化搜索引擎的研究與實現(xiàn)[D];江南大學(xué);2016年

5 王一兵;病友系統(tǒng)關(guān)鍵技術(shù)應(yīng)用研究與實現(xiàn)[D];浙江大學(xué);2016年

6 肖悅;基于文本密度和頁面結(jié)構(gòu)的網(wǎng)頁信息抽取技術(shù)研究與實現(xiàn)[D];中國海洋大學(xué);2015年

7 聶英;網(wǎng)頁設(shè)計中信息傳達的人性化探究[D];西北師范大學(xué);2015年

8 陳屹;基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用[D];中國海洋大學(xué);2015年

9 韋永壯;中文新聞重復(fù)網(wǎng)頁檢測研究[D];南京大學(xué);2014年

10 李明冬;基于內(nèi)存計算的文本聚類算法的研究與實現(xiàn)[D];東南大學(xué);2015年

,

本文編號:917315

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/917315.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2ebef***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美一级片日韩一级片| 又色又爽又黄的三级视频| 亚洲欧美日韩另类第一页| 日韩一区二区三区高清在| 国产亚洲精品香蕉视频播放| 99久久国产综合精品二区| 成人免费观看视频免费| 久久老熟女一区二区三区福利| 麻豆最新出品国产精品| 视频一区中文字幕日韩| 草草草草在线观看视频| 国产精品一区二区香蕉视频 | 大胆裸体写真一区二区| 老司机激情五月天在线不卡| 婷婷激情四射在线观看视频| 精品人妻一区二区四区| 亚洲一区二区久久观看| 蜜桃传媒视频麻豆第一区| 日本午夜免费观看视频| 黄片在线免费观看全集| 日本av一区二区不卡| 高中女厕偷拍一区二区三区| 欧美日韩亚洲精品在线观看| 熟女少妇久久一区二区三区| 国产成人午夜在线视频| 偷拍偷窥女厕一区二区视频| 久久91精品国产亚洲| 午夜福利国产精品不卡| 极品少妇嫩草视频在线观看| 国产精品视频一区麻豆专区| 九九热九九热九九热九九热 | 制服丝袜美腿美女一区二区| 欧美丝袜诱惑一区二区| 黄色av尤物白丝在线播放网址| 国产黄色高清内射熟女视频 | 日本在线不卡高清欧美 | 亚洲国产精品久久琪琪| 亚洲五月婷婷中文字幕| 青草草在线视频免费视频| 制服丝袜美腿美女一区二区| 亚洲免费观看一区二区三区|