基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)研究
發(fā)布時(shí)間:2017-05-02 04:02
本文關(guān)鍵詞:基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)已成為一個(gè)重要的信息和資源共享平臺(tái),互聯(lián)網(wǎng)用戶(hù)不僅可以在網(wǎng)上處理各種事務(wù),還可以在網(wǎng)上搜索自己想要的信息。給定一個(gè)具體的查詢(xún),搜索引擎會(huì)根據(jù)自己的排名機(jī)制對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)資源進(jìn)行排序,然后將與用戶(hù)查詢(xún)相關(guān)的結(jié)果返回給用戶(hù),但是用戶(hù)一般比較傾向于瀏覽搜索引擎返回結(jié)果的首頁(yè)記錄,因此,網(wǎng)站在搜索引擎返回結(jié)果中的位置就成為了網(wǎng)絡(luò)服務(wù)提供者所關(guān)注的問(wèn)題。一些黑帽SEO采用不正當(dāng)?shù)氖侄纹垓_搜索引擎以獲取網(wǎng)站的高排名,這種欺騙搜索引擎以獲取高排名的行為被稱(chēng)為網(wǎng)頁(yè)作弊。網(wǎng)頁(yè)作弊不但降低了搜索引擎檢索信息的質(zhì)量,而且還給互聯(lián)網(wǎng)用戶(hù)造成了巨大的經(jīng)濟(jì)損失。因此,如何檢測(cè)網(wǎng)頁(yè)作弊已成為當(dāng)前互聯(lián)網(wǎng)最為迫切的任務(wù)之 網(wǎng)頁(yè)作弊檢測(cè)問(wèn)題可以看作是一個(gè)二元分類(lèi)問(wèn)題,本文將數(shù)據(jù)集WEBSPAM-UK2006的直接特征、內(nèi)容特征和鏈接特征結(jié)合起來(lái)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,然后采用基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)算法來(lái)對(duì)網(wǎng)頁(yè)作弊進(jìn)行檢測(cè)。在數(shù)據(jù)預(yù)處理階段,本文首先采用k-means算法解決了數(shù)據(jù)不平衡問(wèn)題,然后采用基于信息增益的特征選擇算法篩選出實(shí)驗(yàn)特征子集,最后對(duì)實(shí)驗(yàn)特征子集進(jìn)行基于信息熵的離散化處理。在分類(lèi)模型訓(xùn)練階段,本文采用蟻群優(yōu)化算法從訓(xùn)練集中提取出分類(lèi)規(guī)則并對(duì)分類(lèi)規(guī)則進(jìn)行修剪處理以形成分類(lèi)模型。在分類(lèi)檢測(cè)階段,將測(cè)試樣本輸入分類(lèi)模型后,分類(lèi)模型將能夠很好地預(yù)測(cè)出測(cè)試樣本的類(lèi)別。 最后,本文在實(shí)驗(yàn)數(shù)據(jù)集WEBSPAM-UK2006上進(jìn)行了多組實(shí)驗(yàn),并將本文的檢測(cè)算法與其他檢測(cè)算法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果顯示,本文提出的基于蟻群優(yōu)化的檢測(cè)算法能夠獲得非常好的檢測(cè)效果。
【關(guān)鍵詞】:網(wǎng)頁(yè)作弊 分類(lèi)問(wèn)題 蟻群優(yōu)化 數(shù)據(jù)不平衡 規(guī)則提取 分類(lèi)模型
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要6-7
- Abstract7-10
- 第1章 緒論10-14
- 1.1 研究背景和意義10-11
- 1.2 研究目標(biāo)和研究?jī)?nèi)容11-12
- 1.3 論文的結(jié)構(gòu)安排12-14
- 第2章 網(wǎng)頁(yè)作弊檢測(cè)技術(shù)相關(guān)研究14-26
- 2.1 常見(jiàn)的搜索引擎排名算法14-17
- 2.1.1 TF-IDF算法14-15
- 2.1.2 PageRank算法15-16
- 2.1.3 HITS算法16-17
- 2.2 常見(jiàn)的網(wǎng)頁(yè)作弊技術(shù)17-21
- 2.2.1 基于內(nèi)容的網(wǎng)頁(yè)作弊技術(shù)17-18
- 2.2.2 基于鏈接的網(wǎng)頁(yè)作弊技術(shù)18-20
- 2.2.3 基于隱藏的網(wǎng)頁(yè)作弊技術(shù)20-21
- 2.3 網(wǎng)頁(yè)作弊檢測(cè)研究現(xiàn)狀21-25
- 2.3.1 基于內(nèi)容的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)21-22
- 2.3.2 基于鏈接的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)22-23
- 2.3.3 基于隱藏的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)23-25
- 2.3.4 其它的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)25
- 2.4 本章小結(jié)25-26
- 第3章 基于蟻群優(yōu)化的分類(lèi)算法研究26-37
- 3.1 蟻群優(yōu)化算法相關(guān)背景26
- 3.2 蟻群優(yōu)化算法的仿生機(jī)理26-28
- 3.2.1 螞蟻的覓食行為26-27
- 3.2.2 螞蟻的搜索策略27-28
- 3.3 虛擬螞蟻與真實(shí)螞蟻的異同28-29
- 3.4 蟻群優(yōu)化算法機(jī)制分析29
- 3.5 基于蟻群優(yōu)化的分類(lèi)算法研究29-36
- 3.5.1 基于蟻群優(yōu)化的分類(lèi)原理29-30
- 3.5.2 分類(lèi)規(guī)則形成原理30-33
- 3.5.3 規(guī)則修剪33
- 3.5.4 分類(lèi)規(guī)則的使用33-34
- 3.5.5 基于蟻群優(yōu)化的分類(lèi)規(guī)則提取算法描述34-35
- 3.5.6 基于蟻群優(yōu)化的分類(lèi)算法特點(diǎn)35-36
- 3.6 本章小結(jié)36-37
- 第4章 基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)研究37-48
- 4.1 基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)方案設(shè)計(jì)37-38
- 4.2 數(shù)據(jù)集平衡處理38-39
- 4.3 特征選擇39-42
- 4.3.1 基于CHI的特征選擇方法40-41
- 4.3.2 基于信息增益的特征選擇方法41-42
- 4.4 特征離散化處理42-43
- 4.4.1 基于信息熵的離散化處理方法42-43
- 4.4.2 離散化過(guò)程描述43
- 4.5 基于改進(jìn)蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)算法43-47
- 4.5.1 基于蟻群優(yōu)化的分類(lèi)算法缺陷43-44
- 4.5.2 基于改進(jìn)蟻群優(yōu)化的分類(lèi)規(guī)則提取44
- 4.5.3 分類(lèi)規(guī)則形成過(guò)程44-45
- 4.5.4 分類(lèi)規(guī)則修剪與檢測(cè)45
- 4.5.5 分類(lèi)規(guī)則提取算法描述45-47
- 4.6 本章小結(jié)47-48
- 第5章 實(shí)驗(yàn)結(jié)果及其分析48-56
- 5.1 實(shí)驗(yàn)數(shù)據(jù)集及實(shí)驗(yàn)方法48-49
- 5.1.1 實(shí)驗(yàn)數(shù)據(jù)集簡(jiǎn)介48-49
- 5.1.2 十倍交叉驗(yàn)證方法49
- 5.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)49-50
- 5.3 實(shí)驗(yàn)結(jié)果與分析50-55
- 5.3.1 實(shí)驗(yàn)參數(shù)設(shè)置50-51
- 5.3.2 第一組實(shí)驗(yàn)及其分析51-52
- 5.3.3 第二組實(shí)驗(yàn)及其分析52-53
- 5.3.4 第三組實(shí)驗(yàn)及其分析53-55
- 5.4 本章小結(jié)55-56
- 總結(jié)與展望56-58
- 總結(jié)56-57
- 下一步工作57-58
- 致謝58-59
- 參考文獻(xiàn)59-64
- 攻讀碩士學(xué)位期間發(fā)表的論文64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 王和勇;樊泓坤;姚正安;李成安;;不平衡數(shù)據(jù)集的分類(lèi)方法研究[J];計(jì)算機(jī)應(yīng)用研究;2008年05期
2 葉志飛;文益民;呂寶糧;;不平衡分類(lèi)問(wèn)題研究綜述[J];智能系統(tǒng)學(xué)報(bào);2009年02期
本文關(guān)鍵詞:基于蟻群優(yōu)化的網(wǎng)頁(yè)作弊檢測(cè)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):340214
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/340214.html
最近更新
教材專(zhuān)著