天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究

發(fā)布時(shí)間:2017-05-02 11:01

  本文關(guān)鍵詞:基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)中的信息量呈爆炸式增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的最主要渠道之一。作為信息檢索過(guò)程中不可缺少的重要工具,搜索引擎在給人們帶來(lái)便利的同時(shí),也給用戶帶來(lái)了潛在的安全隱患。網(wǎng)頁(yè)作弊(Web Spam)是一種通過(guò)不正當(dāng)方式來(lái)誤導(dǎo)搜索引擎,從而向用戶提供不良信息的行為,其嚴(yán)重影響用戶的上網(wǎng)體驗(yàn),給用戶帶來(lái)了安全隱患,同時(shí)也影響著搜索引擎的性能。如何對(duì)作弊網(wǎng)頁(yè)進(jìn)行識(shí)別與過(guò)濾,提供高質(zhì)量的搜索結(jié)果,已成為現(xiàn)代搜索引擎的巨大挑戰(zhàn)之一。本文的主要研究?jī)?nèi)容以及研究成果包括:(1)研究網(wǎng)頁(yè)作弊的相關(guān)原理及技術(shù)。對(duì)搜索引擎相關(guān)原理進(jìn)行分析,并研究了搜索結(jié)果排序原理,如TFIDF模型與PageRank等算法;結(jié)合搜索引擎結(jié)果排序原理,分析作弊網(wǎng)頁(yè)的特點(diǎn),研究作弊原理以及相關(guān)技術(shù);根據(jù)常見的網(wǎng)頁(yè)作弊手段,研究對(duì)應(yīng)的反作弊方法。(2)提出了一種基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法。對(duì)主題模型與語(yǔ)義分析原理進(jìn)行分析;研究作弊網(wǎng)頁(yè)在主題與語(yǔ)義方面的特點(diǎn),提出基于主題與語(yǔ)義的檢測(cè)特征;對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行主題建模與語(yǔ)義分析,提取相關(guān)特征;構(gòu)建分類器對(duì)作弊網(wǎng)頁(yè)進(jìn)行分類識(shí)別。(3)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)。構(gòu)建網(wǎng)絡(luò)爬蟲程序,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)的抓取;對(duì)網(wǎng)頁(yè)進(jìn)行分析與處理,進(jìn)行主題建模,提取相關(guān)特征,構(gòu)建檢測(cè)樣本;構(gòu)建機(jī)器學(xué)習(xí)分類器,對(duì)網(wǎng)頁(yè)進(jìn)行分類檢測(cè),并展示結(jié)果。(4)設(shè)計(jì)實(shí)驗(yàn)對(duì)本文提出的基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法的可行性進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的作弊網(wǎng)頁(yè)檢測(cè)方法能夠有效的對(duì)作弊網(wǎng)頁(yè)進(jìn)行識(shí)別,比起傳統(tǒng)的基于統(tǒng)計(jì)的檢測(cè)方法,本文的方法可以獲得更高的精確率、查全率與F1測(cè)度。
【關(guān)鍵詞】:網(wǎng)頁(yè)作弊 搜索引擎 主題模型 語(yǔ)義分析
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
  • 學(xué)位論文數(shù)據(jù)集3-4
  • 摘要4-6
  • ABSTRACT6-14
  • 第一章 緒論14-20
  • 1.1 研究背景及意義14
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
  • 1.3 主要研究工作和創(chuàng)新點(diǎn)16-17
  • 1.3.1 主要研究工作16-17
  • 1.3.2 本課題的創(chuàng)新點(diǎn)17
  • 1.4 本文組織結(jié)構(gòu)17-20
  • 第二章 相關(guān)理論20-32
  • 2.1 搜索引擎20-21
  • 2.2 搜索引擎結(jié)果排序算法21-23
  • 2.2.1 TF/IDF21-22
  • 2.2.2 PageRank算法22
  • 2.2.3 HITS算法22-23
  • 2.3 網(wǎng)頁(yè)作弊23-25
  • 2.3.1 基丁內(nèi)容的作弊23-24
  • 2.3.2 基于鏈接的作弊24
  • 2.3.3 隱藏的作弊24-25
  • 2.3.4 其他的作弊方式25
  • 2.4 反作弊技術(shù)25-27
  • 2.4.1 基于內(nèi)容的作弊識(shí)別25-26
  • 2.4.2 基于鏈接的作弊識(shí)別26
  • 2.4.3 其他的反作弊技術(shù)26-27
  • 2.5 主題模型27
  • 2.6 決策樹分類27-30
  • 2.6.1 ID3算法與C4.5算法28-29
  • 2.6.2 隨機(jī)森林算法29-30
  • 2.6.3 集成學(xué)習(xí)30
  • 2.7 本章小結(jié)30-32
  • 第三章 基于主題模型與語(yǔ)義分析的Web Spam檢測(cè)方法研究32-42
  • 3.1 基于主題模型的語(yǔ)義分析方法32-33
  • 3.2 特征表示33-39
  • 3.2.1 基于主題與語(yǔ)義的特征33-38
  • 3.2.2 基于統(tǒng)計(jì)的特征38-39
  • 3.3 基于主題模型與語(yǔ)義分析的作弊網(wǎng)頁(yè)檢測(cè)算法39-41
  • 3.3.1 算法思想與框架39-40
  • 3.3.2 特征提取40-41
  • 3.3.3 學(xué)習(xí)分類41
  • 3.4 本章小結(jié)41-42
  • 第四章 作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)42-54
  • 4.1 作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)架構(gòu)設(shè)計(jì)42-43
  • 4.2 數(shù)據(jù)存儲(chǔ)模塊設(shè)計(jì)43-45
  • 4.3 網(wǎng)頁(yè)抓取模塊設(shè)計(jì)45-46
  • 4.4 樣本構(gòu)建模塊設(shè)計(jì)46-49
  • 4.4.1 網(wǎng)頁(yè)特征提取47-48
  • 4.4.2 網(wǎng)頁(yè)樣本構(gòu)建48-49
  • 4.5 網(wǎng)頁(yè)檢測(cè)模塊設(shè)計(jì)49
  • 4.6 系統(tǒng)實(shí)現(xiàn)49-53
  • 4.7 本章小結(jié)53-54
  • 第五章 實(shí)驗(yàn)分析54-60
  • 5.1 實(shí)驗(yàn)數(shù)據(jù)集54-55
  • 5.2 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)55
  • 5.3 實(shí)驗(yàn)過(guò)程與結(jié)果分析55-58
  • 5.3.1 比較LDA參數(shù)K與twords對(duì)檢測(cè)效果的影響56-57
  • 5.3.2 比較不同分類器的檢測(cè)效果57-58
  • 5.3.3 與其他檢測(cè)方法的效果比較58
  • 5.4 本章小結(jié)58-60
  • 第六章 總結(jié)與展望60-62
  • 6.1 全文總結(jié)60
  • 6.2 未來(lái)展望60-62
  • 參考文獻(xiàn)62-66
  • 致謝66-68
  • 研究成果及發(fā)表的學(xué)術(shù)論文68-70
  • 作者與導(dǎo)師簡(jiǎn)介70-71
  • 附件71-72

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 劉宏哲;須德;;基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J];計(jì)算機(jī)科學(xué);2012年02期

2 黃宇達(dá);范太華;;決策樹ID3算法的分析與優(yōu)化[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年08期


  本文關(guān)鍵詞:基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):340795

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/340795.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f37cd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com