基于隨機(jī)森林算法的作弊網(wǎng)頁檢測方法研究
本文關(guān)鍵詞:基于隨機(jī)森林算法的作弊網(wǎng)頁檢測方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:作弊網(wǎng)頁(Web spam)是指那些通過不正當(dāng)手段獲得高搜索引擎排名的頁面。它利用搜索引擎排名規(guī)則設(shè)計(jì)網(wǎng)頁,對網(wǎng)頁后臺內(nèi)容進(jìn)行編碼和修改,從而誘導(dǎo)用戶使網(wǎng)站達(dá)到竊取更大化利潤的目的。這種行為導(dǎo)致用戶體驗(yàn)大幅下降,浪費(fèi)搜索引擎公司大量的計(jì)算和存儲空間,被公認(rèn)為是互聯(lián)網(wǎng)搜索所面臨的最大挑戰(zhàn)之一。有效的反作弊方法研究是一項(xiàng)重要的研究課題。本文對作弊網(wǎng)頁檢測技術(shù)進(jìn)行了探討和分析,在此基礎(chǔ)上將數(shù)據(jù)預(yù)處理融入到隨機(jī)森林算法中進(jìn)行了優(yōu)化研究。本文主要貢獻(xiàn)如下:1.針對作弊網(wǎng)頁數(shù)據(jù)集合中的類不平衡性問題,提出了一種改進(jìn)的SMOTE算法,簡記為BKM_SMOTE算法。不同于傳統(tǒng)的SMOTE算法在構(gòu)造新樣本時,存在的數(shù)據(jù)結(jié)構(gòu)變化現(xiàn)象和數(shù)據(jù)修正后的正負(fù)類邊界模糊問題,本文引入聚類算法思想,運(yùn)用二分K均值聚類算法對SMOTE算法存在的問題進(jìn)行改進(jìn)。BKM_SMOTE算法的基本思想為通過二分K均值(Bisecting K-Means)算法對負(fù)類樣本進(jìn)行聚類操作并計(jì)算簇心,通過在簇心到樣本點(diǎn)的連線上進(jìn)行插值,從而構(gòu)造新樣本。該算法在構(gòu)造過程中達(dá)到對數(shù)據(jù)分布的描述,從而解決SMOTE算法的缺陷,實(shí)現(xiàn)了即保留原有數(shù)據(jù)集的結(jié)構(gòu),又較好地解決作弊網(wǎng)頁數(shù)據(jù)集不平衡的問題,在一定程度上提升了隨機(jī)森林算法在處理此類情況的分類效果。2.針對隨機(jī)森林算法在作弊網(wǎng)頁數(shù)據(jù)集嚴(yán)重失衡的情況下其分類效果不是很理想的問題,本文將BKM_SMOTE算法平衡后的數(shù)據(jù)集放入隨機(jī)森林算法中進(jìn)行處理,利用該平衡數(shù)據(jù)集進(jìn)行訓(xùn)練和分類并記錄分類結(jié)果。通過實(shí)驗(yàn)分析表明,檢測系統(tǒng)對作弊網(wǎng)頁的檢測精度達(dá)到(84士0.75)%,處理單個網(wǎng)頁的平均速度為702ms左右,相比目前正在使用的過濾器提升效果非常明顯。
【關(guān)鍵詞】:作弊網(wǎng)頁 二分K均值算法 SMOTE算法 隨機(jī)森林 不平衡數(shù)據(jù)集
【學(xué)位授予單位】:信陽師范學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP301.6
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 引言10-14
- 1.1 研究背景10-11
- 1.2 研究意義11-12
- 1.3 論文主要工作12-13
- 1.4 論文組織結(jié)構(gòu)13-14
- 第2章 論文相關(guān)知識14-30
- 2.1 網(wǎng)頁作弊方法分析14-15
- 2.2 機(jī)器學(xué)習(xí)15-16
- 2.3 分類算法16-26
- 2.3.1 樸素貝葉斯算法17-18
- 2.3.2 K最近鄰(KNN)算法18
- 2.3.3 支持向量機(jī)算法18-20
- 2.3.4 決策樹算法20-23
- 2.3.5 隨機(jī)森林算法23-26
- 2.4 聚類算法26-29
- 2.4.1 基于K均值算法26-27
- 2.4.2 二分K均值算法27-29
- 2.5 小結(jié)29-30
- 第3章 基于隨機(jī)森林算法的作弊網(wǎng)頁檢測方法30-39
- 3.1 作弊網(wǎng)頁數(shù)據(jù)集分類問題的解決方法30-33
- 3.1.1 優(yōu)化算法的方法30-31
- 3.1.2 優(yōu)化數(shù)據(jù)的方法31-33
- 3.2 隨機(jī)森林處理作弊網(wǎng)頁數(shù)據(jù)集分類問題的改進(jìn)-BKM_SMOTE算法33-34
- 3.3 作弊網(wǎng)頁檢測系統(tǒng)設(shè)計(jì)34-38
- 3.3.1 框架設(shè)計(jì)34-35
- 3.3.2 特征提取模塊35-36
- 3.3.3 隨機(jī)森林模塊設(shè)計(jì)36
- 3.3.4 數(shù)據(jù)庫設(shè)計(jì)36-38
- 3.3.5 反饋學(xué)習(xí)模塊38
- 3.4 本章小結(jié)38-39
- 第4章 實(shí)現(xiàn)結(jié)果與分析39-48
- 4.1 數(shù)據(jù)集39-40
- 4.2 實(shí)驗(yàn)環(huán)境40
- 4.3 實(shí)驗(yàn)結(jié)果及分析40-46
- 4.3.1 隨機(jī)森林使用BKM_SMOTE算法提升性能的實(shí)證分析40-43
- 4.3.2 作弊網(wǎng)頁檢測系統(tǒng)實(shí)證分析43-46
- 4.3.3 系統(tǒng)檢測效率46
- 4.4 本章小結(jié)46-48
- 第5章 結(jié)論48-50
- 5.1 研究內(nèi)容總結(jié)48
- 5.2 工作展望48-50
- 致謝50-51
- 參考文獻(xiàn)51-53
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉足華;熊惠霖;;基于隨機(jī)森林的目標(biāo)檢測與定位[J];計(jì)算機(jī)工程;2012年13期
2 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期
3 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測中的應(yīng)用[J];科技通報;2013年08期
4 陳姝;彭小寧;;基于粒子濾波和在線隨機(jī)森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(自然科學(xué)版);2014年02期
5 羅知林;陳挺;蔡皖東;;一個基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測算法[J];計(jì)算機(jī)科學(xué);2014年04期
6 王麗婷;丁曉青;方馳;;基于隨機(jī)森林的人臉關(guān)鍵點(diǎn)精確定位方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年04期
7 李建更;高志坤;;隨機(jī)森林針對小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期
8 張建;武東英;劉慧生;;基于隨機(jī)森林的流量分類方法[J];信息工程大學(xué)學(xué)報;2012年05期
9 吳華芹;;基于訓(xùn)練集劃分的隨機(jī)森林算法[J];科技通報;2013年10期
10 張華偉;王明文;甘麗新;;基于隨機(jī)森林的文本分類模型研究[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計(jì)學(xué)年會會議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應(yīng)用[A];第八屆全國轉(zhuǎn)子動力學(xué)學(xué)術(shù)討論會論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
2 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
3 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場預(yù)測與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
4 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測及其機(jī)制研究[D];蘭州大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測與跟蹤[D];華南理工大學(xué);2015年
5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識別方法[D];西安電子科技大學(xué);2014年
本文關(guān)鍵詞:基于隨機(jī)森林算法的作弊網(wǎng)頁檢測方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:481202
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/481202.html