垃圾網頁檢測的關鍵技術研究

發(fā)布時間：2017-07-31 18:03

本文關鍵詞：垃圾網頁檢測的關鍵技術研究

【摘要】：網頁作弊是指作弊者運用各種手段欺騙搜索引擎,使網頁在搜索結果中獲得高于其本身應得排名的行為。垃圾網頁的泛濫嚴重危害了搜索引擎公司、合法網站和各類用戶的利益,因此研究垃圾網頁檢測技術已成為一項艱巨而重要的任務。針對鏈接作弊,排序算法是一種有效手段。但由于Web中存在由正常網頁指向垃圾網頁的鏈接,導致排序算法(Anti-TrustRank等)檢測性能降低,且多數(shù)排序算法沒有考慮網頁內容特性,因此本文改進Anti-TrustRank和加權非信任值排序(Weighted Anti-TrustRank, WATR)算法,提出了一種主題相似度和鏈接權重相結合,共同調節(jié)網頁非信任值傳播的排序算法,即結合主題與鏈接的非信任排序(Distrust Rank based on Topic and Link integration,TLDR)。其中,主題相似度權重運用隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型計算,鏈接權重根據鏈接結構計算。實驗結果表明,與Anti-TrustRank和WATR相比,TLDR算法能使網頁得到更合理的非信任值,檢測性能有明顯的提高。針對內容和鏈接作弊,本文從Web信息源質量、Web內容質量和Web應用質量三個子維度量化了網頁質量,從危害度特性和主題特性兩方面量化了語義特征,并與內容和鏈接特征共同構建了區(qū)分度高的特征集。此外,分類算法常用來解決垃圾網頁檢測問題,但分類算法性能易受數(shù)據分布不均衡的影響,而離群點挖掘算法正適用于不均衡的情況。因此本文采用基于熵的離群點挖掘(Entropy-based Outlier Mining, EOM)算法,并設計了級聯(lián)檢測框架,將檢測分為內容特性檢測、鏈接特性檢測和語義特性檢測三級進行。通過多組對比實驗表明,本文的質量和語義特征能有效提高檢測性能,EOM級聯(lián)檢測框架檢測性能較高,且在數(shù)據分布不均衡的情況下相對于分類算法更具優(yōu)勢。
【關鍵詞】：垃圾網頁檢測 非信任值排序算法 離群點挖掘 級聯(lián)檢測 多類特征
【學位授予單位】：西南交通大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP393.092
【目錄】：

摘要6-7
Abstract7-10
第1章緒論10-16
1.1 研究背景和意義10
1.2 國內外研究現(xiàn)狀10-14
1.3 論文的研究內容和組織結構14-16
1.3.1 論文的主要研究內容14-15
1.3.2 論文的各章節(jié)內容安排15-16
第2章垃圾網頁檢測的相關技術16-26
2.1 基于內容和鏈接作弊的垃圾網頁16-19
2.1.1 基于內容作弊的垃圾網頁16-17
2.1.2 基于鏈接作弊的垃圾網頁17-19
2.2 垃圾網頁檢測技術19-25
2.2.1 排序檢測19-21
2.2.2 分類檢測21-24
2.2.3 離群點挖掘24-25
2.3 本章小結25-26
第3章針對鏈接作弊的垃圾網頁排序檢測26-38
3.1 非信任值的傳播原理26-27
3.2 隱含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)27-28
3.3 主題相似度權重28-29
3.4 鏈接權重與計算示例29-30
3.5 種子集選取30
3.6 結合主題相似度與鏈接權重的排序算法30-32
3.7 排序檢測實驗32-36
3.7.1 數(shù)據集33
3.7.2 參數(shù)設置與評價指標33-34
3.7.3 實驗結果與分析34-36
3.8 本章小結36-38
第4章基于離群點挖掘的垃圾網頁級聯(lián)檢測機制38-51
4.1 級聯(lián)檢測框架38
4.2 特征提取38-42
4.2.1 內容和鏈接特征39
4.2.2 質量特征39-40
4.2.3 語義特征40-42
4.3 基于熵的離群點挖掘算法的級聯(lián)檢測42-49
4.3.1 信息熵43
4.3.2 基于熵的離散化43-44
4.3.3 基于最小熵交換的檢測方法44-46
4.3.4 基于熵的排序46-48
4.3.5 級聯(lián)檢測48-49
4.4 本章小結49-51
第5章基于離群點挖掘的垃圾網頁的級聯(lián)檢測實驗51-58
5.1 數(shù)據準備與評價指標51-52
5.2 實驗結果與分析52-57
5.2.1 實驗一基于熵的離群點挖掘算法級聯(lián)檢測結果53-54
5.2.2 實驗二各類特征對比結果54-55
5.2.3 實驗三基于熵的離群點挖掘算法與分類算法對比結果55-56
5.2.4 實驗四基于熵的離群點挖掘算法的級聯(lián)檢測的交叉驗證結果56-57
5.3 本章小結57-58
總結與展望58-60
1 總結58
2 展望58-60
致謝60-61
參考文獻61-66
攻讀碩士學位期間發(fā)表的論文66

【相似文獻】

中國期刊全文數(shù)據庫前10條

1 朱松巖;;網頁設計之特性分析[J];山東省農業(yè)管理干部學院學報;2009年03期

2 安琳;;國外網頁信息存檔項目及相關問題研究[J];圖書館建設;2009年12期

3 蔣桂梅;;網頁設計的藝術性[J];電腦知識與技術;2010年05期

4 龍正義;;網頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內網頁去重技術研究:現(xiàn)狀與總結[J];圖書情報工作;2011年07期

6 王爍;;美國網頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網頁信息自動提取的設計與實現(xiàn)[J];計算機光盤軟件與應用;2012年18期

8 何立波;周世波;;網頁設計中的藝術研究[J];考試周刊;2011年25期

9 秦永平;網頁信息共享技術[J];計算機應用;2000年02期

10 項鎮(zhèn);網頁設計新概念[J];江西教育學院學報(自然科學);2001年06期

中國重要會議論文全文數(shù)據庫前10條

1 吳建軍;;談網頁設計的藝術性表現(xiàn)[A];經天緯地——全國測繪科技信息網中南分網第十九次學術交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網頁篩選系統(tǒng)[A];第十九屆全國數(shù)據庫學術會議論文集（技術報告篇）[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網頁相關度研究[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網頁信息的一種網頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議（HHME2005）論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集（上冊）[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網頁信息結構的網頁體裁聚類分析[A];第四屆全國信息檢索與內容安全學術會議論文集（上）[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網頁內部結構挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內容的Web查詢[A];第十七屆全國數(shù)據庫學術會議論文集（技術報告篇）[C];2000年

中國重要報紙全文數(shù)據庫前10條

1 本報記者曾居仁　通訊員郝金榮;貴州“萬村千鄉(xiāng)”網頁工程開辟為農服務新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網頁信息[N];電腦報;2004年

3 羅震宇　嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年

4 錢鵬;網盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網頁制作的第一步[N];電腦報;2004年

6 河南張金貴;FrontPage2000組件詳解（四）[N];電腦報;2001年

7 楓爾;網站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間答案立現(xiàn)[N];電腦報;2013年

10 ;網絡應用天龍八“步” 申請上網賬號[N];電腦報;2002年

中國博士學位論文全文數(shù)據庫前10條

1 陳潔;基于概念融合的網頁篩選技術研究[D];北京郵電大學;2013年

2 龔昌盛;基于語義標注的網頁廣告加載模型研究[D];武漢大學;2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年

4 黃華軍;網頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年

5 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年

8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年

9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年

10 宗校軍;中文網頁定題采集及分類研究[D];華中科技大學;2006年

中國碩士學位論文全文數(shù)據庫前10條

1 敖志敏;基于網頁相似度的搜索算法改進的研究[D];上海師范大學;2015年

2 楊尋;地域文化的視覺元素在旅游網頁設計中的應用研究[D];西南交通大學;2015年

3 張W，

本文編號：600402

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/600402.html

上一篇：數(shù)字電視機頂盒的以太網接入設計與實現(xiàn)
下一篇：基于客戶端的網頁篡改檢測研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

垃圾網頁檢測的關鍵技術研究