基于排序算法的垃圾網(wǎng)頁檢測技術(shù)
發(fā)布時(shí)間:2017-05-02 07:03
本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁檢測技術(shù),由筆耕文化傳播整理發(fā)布。
【摘要】:研究表明,80%的搜索引擎使用者查看返回結(jié)果不超過三頁,因此在搜索引擎返回結(jié)果中,排名越高帶來的利潤越大,很多網(wǎng)頁通過欺騙搜索引擎的手段獲得較高的排名,這類網(wǎng)頁被稱為垃圾網(wǎng)頁。垃圾網(wǎng)頁在利益的驅(qū)使下采用作弊手段欺騙搜索引擎獲得更高的排名,干擾了用戶對信息的獲取。垃圾網(wǎng)頁損害搜索引擎的聲譽(yù),削弱了其用戶對搜索引擎的信任,檢測垃圾網(wǎng)頁已是搜索引擎面臨的重大的挑戰(zhàn)之一。為了有效的檢測出垃圾網(wǎng)頁,分析了數(shù)據(jù)集中垃圾網(wǎng)頁與正常的網(wǎng)頁內(nèi)容特征與鏈接特征分布,通過結(jié)合網(wǎng)頁的內(nèi)容特征與鏈接特征結(jié)合機(jī)器學(xué)習(xí)方法及其他排序算法對垃圾網(wǎng)頁進(jìn)行檢測。具體工作如下: 1. TrustRank算法是著名的基于鏈接信息的網(wǎng)頁排序算法。傳統(tǒng)的TrustRank算法基于鏈接特征的垃圾網(wǎng)頁檢測方法,這種方法不是對所有作弊網(wǎng)頁都有效。譬如一組網(wǎng)頁提供一些有用資源,吸引其他網(wǎng)站的鏈接,但這組網(wǎng)頁包含了許多指向目標(biāo)作弊頁面的鏈接,這些鏈接可能是隱蔽的,目標(biāo)作弊網(wǎng)頁的TrustRank值就有可能很高。而且有的垃圾網(wǎng)頁的拓?fù)浣Y(jié)構(gòu)和正常網(wǎng)頁的拓?fù)浣Y(jié)構(gòu)相似,這時(shí)基于內(nèi)容特征的垃圾網(wǎng)頁檢測方法就比較有效了。因此,我們在基于鏈接分析的TrustRank算法基礎(chǔ)上對網(wǎng)頁內(nèi)容特征進(jìn)行提取,并分析網(wǎng)頁內(nèi)容特征的分布,根據(jù)正常網(wǎng)頁與垃圾網(wǎng)頁內(nèi)容特征分布的不同結(jié)合網(wǎng)頁鏈接特征對Web spam進(jìn)行檢測。 2.基于內(nèi)容特征的垃圾網(wǎng)頁檢測方法只考慮了網(wǎng)頁的文本內(nèi)容特征,沒有考慮網(wǎng)頁的鏈接結(jié)構(gòu),很難適應(yīng)不斷發(fā)展的網(wǎng)頁作弊技術(shù),而基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁檢測方法則忽略了網(wǎng)頁的內(nèi)容信息,如果只考慮網(wǎng)頁的拓?fù)浣Y(jié)構(gòu),很難檢測出那些拓?fù)浣Y(jié)構(gòu)與正常網(wǎng)頁十分相似的垃圾網(wǎng)頁。我們在分析數(shù)據(jù)集網(wǎng)頁特征分布的基礎(chǔ)上,用各種分布函數(shù)擬合網(wǎng)頁的內(nèi)容特征分布和鏈接特征分布,由于正常網(wǎng)頁的特征分布比較有規(guī)律,而垃圾網(wǎng)頁的特征分布混亂,因此用分布函數(shù)擬合之后求差值,正常網(wǎng)頁差值較小而垃圾網(wǎng)頁差值較大。根據(jù)網(wǎng)頁特征值與擬合函數(shù)的差值利用決策樹檢測垃圾網(wǎng)頁。 3.目前大多數(shù)研究把垃圾網(wǎng)頁檢測看作是分類問題,并且使用機(jī)器學(xué)習(xí)方法譬如SVM、決策樹等對垃圾網(wǎng)頁進(jìn)行檢測。我們把垃圾網(wǎng)頁檢測問題看作排序問題,結(jié)合網(wǎng)頁的內(nèi)容特征和鏈接特征建立排序模型對網(wǎng)頁進(jìn)行排序。排序模型的基本要求是能夠保證正常網(wǎng)頁排名靠前,,垃圾網(wǎng)頁排名靠后,從而使得用戶使用搜索引擎時(shí)不會被垃圾網(wǎng)頁干擾。我們結(jié)合網(wǎng)頁的鏈接信息和網(wǎng)頁的內(nèi)容特征信息建立數(shù)學(xué)模型。首先,我們通過分析網(wǎng)頁的內(nèi)容特征分布,用分布函數(shù)擬合計(jì)算得到內(nèi)容特征向量,用內(nèi)容特征向量逼近網(wǎng)頁的鏈接信息值求得權(quán)值向量,計(jì)算內(nèi)容特征向量與權(quán)值向量的乘積作為網(wǎng)頁值對網(wǎng)頁排序。 垃圾網(wǎng)頁不僅影響了用戶通過搜索引擎尋找有用的信息,而且嚴(yán)重浪費(fèi)了搜索引擎的資源,搜索引擎在根據(jù)用戶的請求索引網(wǎng)頁時(shí),需要處理大量的垃圾的網(wǎng)頁,所以檢測垃圾網(wǎng)頁的相關(guān)研究有切實(shí)的意義。
【關(guān)鍵詞】:垃圾網(wǎng)頁 搜索引擎 網(wǎng)頁排名 信任指數(shù) 內(nèi)容特征 鏈接特征 排序算法
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.3
【目錄】:
- 目錄4-5
- 摘要5-7
- ABSTRACT7-9
- 第一章 緒論9-13
- 1.1 研究背景和意義9
- 1.2 垃圾網(wǎng)頁的概述及國內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 垃圾網(wǎng)頁的概述9-10
- 1.2.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 本文創(chuàng)新點(diǎn)11-12
- 1.4 論文的組織結(jié)構(gòu)12-13
- 第二章 垃圾網(wǎng)頁檢測方法研究綜述13-20
- 2.1 基于機(jī)器學(xué)習(xí)的垃圾網(wǎng)頁檢測方法13-15
- 2.1.1 支持向量機(jī)13-14
- 2.1.2 決策樹14-15
- 2.2 基于排序檢測垃圾網(wǎng)頁方法15-19
- 2.2.1 Pagerank 算法16-17
- 2.2.2 Trustrank 算法17-19
- 2.3 本章小結(jié)19-20
- 第三章 基于結(jié)合內(nèi)容特征的 TrustRank 算法改進(jìn)20-24
- 3.1 內(nèi)容特征分析20-21
- 3.2 結(jié)合內(nèi)容特征的 TrustRank 算法21
- 3.3 實(shí)驗(yàn)及結(jié)果分析21-23
- 3.4 本章小結(jié)23-24
- 第四章 基于擬合內(nèi)容與鏈接特征分布的垃圾網(wǎng)頁檢測方法24-30
- 4.1 數(shù)據(jù)集24
- 4.2 網(wǎng)頁內(nèi)容特征及鏈接特征24-28
- 4.3 實(shí)驗(yàn)結(jié)果及其分析28-29
- 4.4 本章小結(jié)29-30
- 第五章 基于排序算法的垃圾網(wǎng)頁檢測方法30-36
- 5.1 特征分布30-32
- 5.2 結(jié)合內(nèi)容特征與鏈接信息的排序模型32-33
- 5.3 實(shí)驗(yàn)結(jié)果及分析33-35
- 5.4 本章結(jié)論35-36
- 第六章 總結(jié)與展望36-37
- 6.1 研究內(nèi)容總結(jié)36
- 6.2 下一步工作36-37
- 參考文獻(xiàn)37-40
- 攻讀碩士學(xué)位期間發(fā)表的論文、申請專利和參與的項(xiàng)目40-41
- 致謝41
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 ;The new interpretation of support vector machines on statistical learning theory[J];Science in China(Series A:Mathematics);2010年01期
本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁檢測技術(shù),由筆耕文化傳播整理發(fā)布。
本文編號:340467
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/340467.html
最近更新
教材專著