中文新聞重復(fù)網(wǎng)頁檢測研究
本文關(guān)鍵詞:中文新聞重復(fù)網(wǎng)頁檢測研究,由筆耕文化傳播整理發(fā)布。
【摘要】:當今世界,互聯(lián)網(wǎng)已成為人們獲取和傳播信息的主要途徑。其中,網(wǎng)頁是互聯(lián)網(wǎng)傳播信息的主要載體。然而,互聯(lián)網(wǎng)中存在的大量重復(fù)網(wǎng)頁給人們在瀏覽網(wǎng)頁時造成了許多困擾。因此,網(wǎng)頁文檔需要進行重復(fù)檢測處理。新聞網(wǎng)頁是人們?yōu)g覽最多的網(wǎng)頁類型之一,解決新聞網(wǎng)頁的查重處理問題,可以在很大程度上提高用戶獲取信息的效率。因此,本文主要針對中文新聞網(wǎng)頁的查重處理進行研究,旨在找到一種方法來同時提高中文新聞網(wǎng)頁查重處理的精度和效率。重復(fù)文檔檢測是信息檢索領(lǐng)域中一個非常重要的問題,由于網(wǎng)頁文檔在結(jié)構(gòu)和內(nèi)容上的復(fù)雜性,重復(fù)網(wǎng)頁文檔檢測問題顯得尤為重要。重復(fù)網(wǎng)頁檢測問題已有許多經(jīng)典研究工作,然而這些研究工作均是針對英文文本進行處理,由于中文文本在語法和語義上的特殊性,現(xiàn)有的網(wǎng)頁查重技術(shù)所基于的特征提取和相似性計算等方法均不適用于中文文本的處理,因此,它們在中文網(wǎng)頁查重上沒有達到很好的準確性。而且,隨著網(wǎng)頁數(shù)量的急劇增加,網(wǎng)頁查重技術(shù)需要針對網(wǎng)頁數(shù)據(jù)的快速增加問題提供相應(yīng)的解決方法。經(jīng)研究發(fā)現(xiàn),句號在中文新聞網(wǎng)頁查重處理過程中起到非常重要的作用。一方面,句號通常只在中文網(wǎng)頁的正文內(nèi)容中出現(xiàn),而不會在諸如廣告、外鏈和版權(quán)聲明等非正文內(nèi)容中出現(xiàn),因此,中文句號可以很好的用于區(qū)分正文內(nèi)容和非正文內(nèi)容;另一方面,基于中文句號提取的特征可以很好的用于網(wǎng)頁之間的相似性計算;谏鲜鏊枷,本文提出一種基于句號特征的中文網(wǎng)頁查重算法,稱為CCDeto首先,CCDet算法采用了一種新的相似性度量模型,稱為CCS和CLR,這種度量模型可同時度量網(wǎng)頁的重復(fù)關(guān)系和包含關(guān)系;其次,CCDet算法基于中文句號特征來完成重復(fù)文檔的相似性計算,并提出了一種基于索引剪切的噪音特征過濾方法;最后,為了適應(yīng)大規(guī)模新聞網(wǎng)頁的查重處理,本文使用MapReduce編程框架實現(xiàn)了并行化的CCDet算法,使之能夠并行化地進行重復(fù)網(wǎng)頁檢測。實驗結(jié)果表明,并行化的CCDet算法具有較好的檢測效果和計算性能,并具有良好的可擴展性。為了驗證CCDet算法在真實的分布式搜索引擎運行環(huán)境中行之有效,本文還基于CCDet算法實現(xiàn)了一個具有重復(fù)網(wǎng)頁檢測功能的分布式搜索引擎,稱為Bingo。Bingo基于已有的開源框架Hadoop和Nutch,運行在分布式集群環(huán)境下,可及時更新每天爬取到的大量網(wǎng)頁數(shù)據(jù)。同時,Bingo會對用戶的搜索結(jié)果進行查重處理,并將搜索結(jié)果以更加合理的方式展示給用戶。搜索結(jié)果表明,Bingo在處理大量中文新聞網(wǎng)頁數(shù)據(jù)時是行之有效的。
【關(guān)鍵詞】:CCDet算法 重復(fù)網(wǎng)頁檢測 中文句號特征 索引剪切 Bingo
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092
【目錄】:
- 摘要6-7
- Abstract7-11
- 第一章 緒論11-24
- 1.1 重復(fù)網(wǎng)頁檢測研究的背景11-13
- 1.2 重復(fù)網(wǎng)頁檢測相關(guān)研究現(xiàn)狀13-21
- 1.2.1 研究工作的主要發(fā)展歷程13-15
- 1.2.2 重復(fù)網(wǎng)頁檢測相關(guān)算法簡介15-21
- 1.2.3 現(xiàn)有研究工作的不足21
- 1.3 本文研究內(nèi)容和主要工作21-22
- 1.4 本文的組織結(jié)構(gòu)22-24
- 第二章 重復(fù)網(wǎng)頁檢測算法24-33
- 2.1 重復(fù)網(wǎng)頁檢測算法的總體思路24-25
- 2.2 相似性度量模型25-26
- 2.3 中文句號特征26-27
- 2.3.1 中文句號特征的作用26-27
- 2.3.2 句號特征的定義和抽取27
- 2.4 噪音特征的過濾27-28
- 2.5 CCDet算法的實現(xiàn)28-31
- 2.5.1 相似性計算過程28-29
- 2.5.2 噪音特征的過濾過程29-30
- 2.5.3 完整的重復(fù)網(wǎng)頁檢測和判定過程30-31
- 2.6 本章小結(jié)31-33
- 第三章 重復(fù)網(wǎng)頁檢測算法并行化33-39
- 3.1 MapReduce并行化框架33-34
- 3.2 基于MapReduce實現(xiàn)CCDet算法的各個步驟34-38
- 3.2.1 獲取文檔34-35
- 3.2.2 提取特征并建立倒排索引35-36
- 3.2.3 噪音特征過濾并統(tǒng)計文檔對相同句號特征36-37
- 3.2.4 計算相似性并判斷重復(fù)關(guān)系37-38
- 3.3 本章小結(jié)38-39
- 第四章 實驗及其結(jié)果分析39-47
- 4.1 實驗數(shù)據(jù)和環(huán)境設(shè)置39
- 4.2 精確率和召回率對比實驗39-44
- 4.2.1 CCDet與SpotSigs,Shingling和CoDet的比較40-43
- 4.2.2 CCDet與IMatch(-S/-P)和LSH(-S/-P)比較43-44
- 4.2.3 倒排索引剪切44
- 4.3 算法效率比較實驗44-45
- 4.4 并行化算法的性能和可擴展性實驗45-46
- 4.5 本章實驗小結(jié)46-47
- 第五章 搜索引擎原型系統(tǒng)設(shè)計47-56
- 5.1 Bingo系統(tǒng)框架47-48
- 5.2 Nutch介紹48-50
- 5.3 Bingo的后端設(shè)計50-52
- 5.3.1 Bingo的模塊設(shè)計50
- 5.3.2 重復(fù)網(wǎng)頁的聚類50-52
- 5.3.3 Bingo的索引設(shè)計52
- 5.4 Bingo的前端設(shè)計52-53
- 5.5 Bingo的檢索結(jié)果53-56
- 第六章 總結(jié)56-58
- 6.1 本文小結(jié)56-57
- 6.2 未來工作57-58
- 參考文獻58-62
- 致謝62-63
- 附錄63-64
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學院學報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學院學報(自然科學);2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術(shù)交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學;2015年
2 毛凱;基于Jsoup的通用網(wǎng)頁采集系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學;2015年
3 王延江;企業(yè)搜索引擎排序技術(shù)的研究[D];大連海事大學;2016年
4 石雁;基于查詢偏好的個性化搜索引擎的研究與實現(xiàn)[D];江南大學;2016年
5 王一兵;病友系統(tǒng)關(guān)鍵技術(shù)應(yīng)用研究與實現(xiàn)[D];浙江大學;2016年
6 肖悅;基于文本密度和頁面結(jié)構(gòu)的網(wǎng)頁信息抽取技術(shù)研究與實現(xiàn)[D];中國海洋大學;2015年
7 聶英;網(wǎng)頁設(shè)計中信息傳達的人性化探究[D];西北師范大學;2015年
8 陳屹;基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用[D];中國海洋大學;2015年
9 韋永壯;中文新聞重復(fù)網(wǎng)頁檢測研究[D];南京大學;2014年
10 李明冬;基于內(nèi)存計算的文本聚類算法的研究與實現(xiàn)[D];東南大學;2015年
本文關(guān)鍵詞:中文新聞重復(fù)網(wǎng)頁檢測研究,,由筆耕文化傳播整理發(fā)布。
本文編號:429616
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/429616.html