基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究
發(fā)布時(shí)間:2017-05-02 11:01
本文關(guān)鍵詞:基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)中的信息量呈爆炸式增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息的最主要渠道之一。作為信息檢索過(guò)程中不可缺少的重要工具,搜索引擎在給人們帶來(lái)便利的同時(shí),也給用戶帶來(lái)了潛在的安全隱患。網(wǎng)頁(yè)作弊(Web Spam)是一種通過(guò)不正當(dāng)方式來(lái)誤導(dǎo)搜索引擎,從而向用戶提供不良信息的行為,其嚴(yán)重影響用戶的上網(wǎng)體驗(yàn),給用戶帶來(lái)了安全隱患,同時(shí)也影響著搜索引擎的性能。如何對(duì)作弊網(wǎng)頁(yè)進(jìn)行識(shí)別與過(guò)濾,提供高質(zhì)量的搜索結(jié)果,已成為現(xiàn)代搜索引擎的巨大挑戰(zhàn)之一。本文的主要研究?jī)?nèi)容以及研究成果包括:(1)研究網(wǎng)頁(yè)作弊的相關(guān)原理及技術(shù)。對(duì)搜索引擎相關(guān)原理進(jìn)行分析,并研究了搜索結(jié)果排序原理,如TFIDF模型與PageRank等算法;結(jié)合搜索引擎結(jié)果排序原理,分析作弊網(wǎng)頁(yè)的特點(diǎn),研究作弊原理以及相關(guān)技術(shù);根據(jù)常見的網(wǎng)頁(yè)作弊手段,研究對(duì)應(yīng)的反作弊方法。(2)提出了一種基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法。對(duì)主題模型與語(yǔ)義分析原理進(jìn)行分析;研究作弊網(wǎng)頁(yè)在主題與語(yǔ)義方面的特點(diǎn),提出基于主題與語(yǔ)義的檢測(cè)特征;對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行主題建模與語(yǔ)義分析,提取相關(guān)特征;構(gòu)建分類器對(duì)作弊網(wǎng)頁(yè)進(jìn)行分類識(shí)別。(3)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)。構(gòu)建網(wǎng)絡(luò)爬蟲程序,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)的抓取;對(duì)網(wǎng)頁(yè)進(jìn)行分析與處理,進(jìn)行主題建模,提取相關(guān)特征,構(gòu)建檢測(cè)樣本;構(gòu)建機(jī)器學(xué)習(xí)分類器,對(duì)網(wǎng)頁(yè)進(jìn)行分類檢測(cè),并展示結(jié)果。(4)設(shè)計(jì)實(shí)驗(yàn)對(duì)本文提出的基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法的可行性進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的作弊網(wǎng)頁(yè)檢測(cè)方法能夠有效的對(duì)作弊網(wǎng)頁(yè)進(jìn)行識(shí)別,比起傳統(tǒng)的基于統(tǒng)計(jì)的檢測(cè)方法,本文的方法可以獲得更高的精確率、查全率與F1測(cè)度。
【關(guān)鍵詞】:網(wǎng)頁(yè)作弊 搜索引擎 主題模型 語(yǔ)義分析
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 學(xué)位論文數(shù)據(jù)集3-4
- 摘要4-6
- ABSTRACT6-14
- 第一章 緒論14-20
- 1.1 研究背景及意義14
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
- 1.3 主要研究工作和創(chuàng)新點(diǎn)16-17
- 1.3.1 主要研究工作16-17
- 1.3.2 本課題的創(chuàng)新點(diǎn)17
- 1.4 本文組織結(jié)構(gòu)17-20
- 第二章 相關(guān)理論20-32
- 2.1 搜索引擎20-21
- 2.2 搜索引擎結(jié)果排序算法21-23
- 2.2.1 TF/IDF21-22
- 2.2.2 PageRank算法22
- 2.2.3 HITS算法22-23
- 2.3 網(wǎng)頁(yè)作弊23-25
- 2.3.1 基丁內(nèi)容的作弊23-24
- 2.3.2 基于鏈接的作弊24
- 2.3.3 隱藏的作弊24-25
- 2.3.4 其他的作弊方式25
- 2.4 反作弊技術(shù)25-27
- 2.4.1 基于內(nèi)容的作弊識(shí)別25-26
- 2.4.2 基于鏈接的作弊識(shí)別26
- 2.4.3 其他的反作弊技術(shù)26-27
- 2.5 主題模型27
- 2.6 決策樹分類27-30
- 2.6.1 ID3算法與C4.5算法28-29
- 2.6.2 隨機(jī)森林算法29-30
- 2.6.3 集成學(xué)習(xí)30
- 2.7 本章小結(jié)30-32
- 第三章 基于主題模型與語(yǔ)義分析的Web Spam檢測(cè)方法研究32-42
- 3.1 基于主題模型的語(yǔ)義分析方法32-33
- 3.2 特征表示33-39
- 3.2.1 基于主題與語(yǔ)義的特征33-38
- 3.2.2 基于統(tǒng)計(jì)的特征38-39
- 3.3 基于主題模型與語(yǔ)義分析的作弊網(wǎng)頁(yè)檢測(cè)算法39-41
- 3.3.1 算法思想與框架39-40
- 3.3.2 特征提取40-41
- 3.3.3 學(xué)習(xí)分類41
- 3.4 本章小結(jié)41-42
- 第四章 作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)42-54
- 4.1 作弊網(wǎng)頁(yè)檢測(cè)系統(tǒng)架構(gòu)設(shè)計(jì)42-43
- 4.2 數(shù)據(jù)存儲(chǔ)模塊設(shè)計(jì)43-45
- 4.3 網(wǎng)頁(yè)抓取模塊設(shè)計(jì)45-46
- 4.4 樣本構(gòu)建模塊設(shè)計(jì)46-49
- 4.4.1 網(wǎng)頁(yè)特征提取47-48
- 4.4.2 網(wǎng)頁(yè)樣本構(gòu)建48-49
- 4.5 網(wǎng)頁(yè)檢測(cè)模塊設(shè)計(jì)49
- 4.6 系統(tǒng)實(shí)現(xiàn)49-53
- 4.7 本章小結(jié)53-54
- 第五章 實(shí)驗(yàn)分析54-60
- 5.1 實(shí)驗(yàn)數(shù)據(jù)集54-55
- 5.2 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)55
- 5.3 實(shí)驗(yàn)過(guò)程與結(jié)果分析55-58
- 5.3.1 比較LDA參數(shù)K與twords對(duì)檢測(cè)效果的影響56-57
- 5.3.2 比較不同分類器的檢測(cè)效果57-58
- 5.3.3 與其他檢測(cè)方法的效果比較58
- 5.4 本章小結(jié)58-60
- 第六章 總結(jié)與展望60-62
- 6.1 全文總結(jié)60
- 6.2 未來(lái)展望60-62
- 參考文獻(xiàn)62-66
- 致謝66-68
- 研究成果及發(fā)表的學(xué)術(shù)論文68-70
- 作者與導(dǎo)師簡(jiǎn)介70-71
- 附件71-72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 劉宏哲;須德;;基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J];計(jì)算機(jī)科學(xué);2012年02期
2 黃宇達(dá);范太華;;決策樹ID3算法的分析與優(yōu)化[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年08期
本文關(guān)鍵詞:基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):340795
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/340795.html
最近更新
教材專著