天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于蟻群優(yōu)化的網(wǎng)頁作弊檢測技術(shù)研究

發(fā)布時間:2017-05-02 04:02

  本文關(guān)鍵詞:基于蟻群優(yōu)化的網(wǎng)頁作弊檢測技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)已成為一個重要的信息和資源共享平臺,互聯(lián)網(wǎng)用戶不僅可以在網(wǎng)上處理各種事務(wù),還可以在網(wǎng)上搜索自己想要的信息。給定一個具體的查詢,搜索引擎會根據(jù)自己的排名機(jī)制對互聯(lián)網(wǎng)上的網(wǎng)頁資源進(jìn)行排序,然后將與用戶查詢相關(guān)的結(jié)果返回給用戶,但是用戶一般比較傾向于瀏覽搜索引擎返回結(jié)果的首頁記錄,因此,網(wǎng)站在搜索引擎返回結(jié)果中的位置就成為了網(wǎng)絡(luò)服務(wù)提供者所關(guān)注的問題。一些黑帽SEO采用不正當(dāng)?shù)氖侄纹垓_搜索引擎以獲取網(wǎng)站的高排名,這種欺騙搜索引擎以獲取高排名的行為被稱為網(wǎng)頁作弊。網(wǎng)頁作弊不但降低了搜索引擎檢索信息的質(zhì)量,而且還給互聯(lián)網(wǎng)用戶造成了巨大的經(jīng)濟(jì)損失。因此,如何檢測網(wǎng)頁作弊已成為當(dāng)前互聯(lián)網(wǎng)最為迫切的任務(wù)之 網(wǎng)頁作弊檢測問題可以看作是一個二元分類問題,本文將數(shù)據(jù)集WEBSPAM-UK2006的直接特征、內(nèi)容特征和鏈接特征結(jié)合起來構(gòu)建實驗數(shù)據(jù)集,然后采用基于蟻群優(yōu)化的網(wǎng)頁作弊檢測算法來對網(wǎng)頁作弊進(jìn)行檢測。在數(shù)據(jù)預(yù)處理階段,本文首先采用k-means算法解決了數(shù)據(jù)不平衡問題,然后采用基于信息增益的特征選擇算法篩選出實驗特征子集,最后對實驗特征子集進(jìn)行基于信息熵的離散化處理。在分類模型訓(xùn)練階段,本文采用蟻群優(yōu)化算法從訓(xùn)練集中提取出分類規(guī)則并對分類規(guī)則進(jìn)行修剪處理以形成分類模型。在分類檢測階段,將測試樣本輸入分類模型后,分類模型將能夠很好地預(yù)測出測試樣本的類別。 最后,本文在實驗數(shù)據(jù)集WEBSPAM-UK2006上進(jìn)行了多組實驗,并將本文的檢測算法與其他檢測算法進(jìn)行了對比。實驗結(jié)果顯示,本文提出的基于蟻群優(yōu)化的檢測算法能夠獲得非常好的檢測效果。
【關(guān)鍵詞】:網(wǎng)頁作弊 分類問題 蟻群優(yōu)化 數(shù)據(jù)不平衡 規(guī)則提取 分類模型
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
  • 摘要6-7
  • Abstract7-10
  • 第1章 緒論10-14
  • 1.1 研究背景和意義10-11
  • 1.2 研究目標(biāo)和研究內(nèi)容11-12
  • 1.3 論文的結(jié)構(gòu)安排12-14
  • 第2章 網(wǎng)頁作弊檢測技術(shù)相關(guān)研究14-26
  • 2.1 常見的搜索引擎排名算法14-17
  • 2.1.1 TF-IDF算法14-15
  • 2.1.2 PageRank算法15-16
  • 2.1.3 HITS算法16-17
  • 2.2 常見的網(wǎng)頁作弊技術(shù)17-21
  • 2.2.1 基于內(nèi)容的網(wǎng)頁作弊技術(shù)17-18
  • 2.2.2 基于鏈接的網(wǎng)頁作弊技術(shù)18-20
  • 2.2.3 基于隱藏的網(wǎng)頁作弊技術(shù)20-21
  • 2.3 網(wǎng)頁作弊檢測研究現(xiàn)狀21-25
  • 2.3.1 基于內(nèi)容的網(wǎng)頁作弊檢測技術(shù)21-22
  • 2.3.2 基于鏈接的網(wǎng)頁作弊檢測技術(shù)22-23
  • 2.3.3 基于隱藏的網(wǎng)頁作弊檢測技術(shù)23-25
  • 2.3.4 其它的網(wǎng)頁作弊檢測技術(shù)25
  • 2.4 本章小結(jié)25-26
  • 第3章 基于蟻群優(yōu)化的分類算法研究26-37
  • 3.1 蟻群優(yōu)化算法相關(guān)背景26
  • 3.2 蟻群優(yōu)化算法的仿生機(jī)理26-28
  • 3.2.1 螞蟻的覓食行為26-27
  • 3.2.2 螞蟻的搜索策略27-28
  • 3.3 虛擬螞蟻與真實螞蟻的異同28-29
  • 3.4 蟻群優(yōu)化算法機(jī)制分析29
  • 3.5 基于蟻群優(yōu)化的分類算法研究29-36
  • 3.5.1 基于蟻群優(yōu)化的分類原理29-30
  • 3.5.2 分類規(guī)則形成原理30-33
  • 3.5.3 規(guī)則修剪33
  • 3.5.4 分類規(guī)則的使用33-34
  • 3.5.5 基于蟻群優(yōu)化的分類規(guī)則提取算法描述34-35
  • 3.5.6 基于蟻群優(yōu)化的分類算法特點(diǎn)35-36
  • 3.6 本章小結(jié)36-37
  • 第4章 基于蟻群優(yōu)化的網(wǎng)頁作弊檢測技術(shù)研究37-48
  • 4.1 基于蟻群優(yōu)化的網(wǎng)頁作弊檢測方案設(shè)計37-38
  • 4.2 數(shù)據(jù)集平衡處理38-39
  • 4.3 特征選擇39-42
  • 4.3.1 基于CHI的特征選擇方法40-41
  • 4.3.2 基于信息增益的特征選擇方法41-42
  • 4.4 特征離散化處理42-43
  • 4.4.1 基于信息熵的離散化處理方法42-43
  • 4.4.2 離散化過程描述43
  • 4.5 基于改進(jìn)蟻群優(yōu)化的網(wǎng)頁作弊檢測算法43-47
  • 4.5.1 基于蟻群優(yōu)化的分類算法缺陷43-44
  • 4.5.2 基于改進(jìn)蟻群優(yōu)化的分類規(guī)則提取44
  • 4.5.3 分類規(guī)則形成過程44-45
  • 4.5.4 分類規(guī)則修剪與檢測45
  • 4.5.5 分類規(guī)則提取算法描述45-47
  • 4.6 本章小結(jié)47-48
  • 第5章 實驗結(jié)果及其分析48-56
  • 5.1 實驗數(shù)據(jù)集及實驗方法48-49
  • 5.1.1 實驗數(shù)據(jù)集簡介48-49
  • 5.1.2 十倍交叉驗證方法49
  • 5.2 實驗評價指標(biāo)49-50
  • 5.3 實驗結(jié)果與分析50-55
  • 5.3.1 實驗參數(shù)設(shè)置50-51
  • 5.3.2 第一組實驗及其分析51-52
  • 5.3.3 第二組實驗及其分析52-53
  • 5.3.4 第三組實驗及其分析53-55
  • 5.4 本章小結(jié)55-56
  • 總結(jié)與展望56-58
  • 總結(jié)56-57
  • 下一步工作57-58
  • 致謝58-59
  • 參考文獻(xiàn)59-64
  • 攻讀碩士學(xué)位期間發(fā)表的論文64

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 王和勇;樊泓坤;姚正安;李成安;;不平衡數(shù)據(jù)集的分類方法研究[J];計算機(jī)應(yīng)用研究;2008年05期

2 葉志飛;文益民;呂寶糧;;不平衡分類問題研究綜述[J];智能系統(tǒng)學(xué)報;2009年02期


  本文關(guān)鍵詞:基于蟻群優(yōu)化的網(wǎng)頁作弊檢測技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:340214

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/340214.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d48a7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com