基于隨機(jī)森林和欠采樣集成的垃圾網(wǎng)頁(yè)檢測(cè)
發(fā)布時(shí)間:2017-06-19 22:03
本文關(guān)鍵詞:基于隨機(jī)森林和欠采樣集成的垃圾網(wǎng)頁(yè)檢測(cè),由筆耕文化傳播整理發(fā)布。
【摘要】:為解決垃圾網(wǎng)頁(yè)檢測(cè)過程中的不平衡分類和"維數(shù)災(zāi)難"問題,提出一種基于隨機(jī)森林(RF)和欠采樣集成的二元分類器算法。首先使用欠采樣技術(shù)將訓(xùn)練樣本集大類抽樣成多個(gè)子樣本集,再將其分別與小類樣本集合并構(gòu)成多個(gè)平衡的子訓(xùn)練樣本集;然后基于各個(gè)子訓(xùn)練樣本集訓(xùn)練出多個(gè)隨機(jī)森林分類器;最后用多個(gè)隨機(jī)森林分類器對(duì)測(cè)試樣本集進(jìn)行分類,采用投票法確定測(cè)試樣本的最終所屬類別。在WEBSPAM UK-2006數(shù)據(jù)集上的實(shí)驗(yàn)表明,該集成分類器算法應(yīng)用于垃圾網(wǎng)頁(yè)檢測(cè)比隨機(jī)森林算法及其Bagging和Adaboost集成分類器算法效果更好,準(zhǔn)確率、F1測(cè)度、ROC曲線下面積(AUC)等指標(biāo)提高至少14%,13%和11%。與Web spam challenge 2007優(yōu)勝團(tuán)隊(duì)的競(jìng)賽結(jié)果相比,該集成分類器算法在F1測(cè)度上提高至少1%,在AUC上達(dá)到最優(yōu)結(jié)果。
【作者單位】: 南昌大學(xué)軟件學(xué)院;南昌大學(xué)信息工程學(xué)院;
【關(guān)鍵詞】: 垃圾網(wǎng)頁(yè)檢測(cè) 隨機(jī)森林 欠采樣 集成分類器 機(jī)器學(xué)習(xí)
【基金】:江西省科技支撐計(jì)劃項(xiàng)目(20131102040039)~~
【分類號(hào)】:TP391.3;TP393.092
【正文快照】: 0引言垃圾網(wǎng)頁(yè)(Web spam)指的是自身真實(shí)價(jià)值很低,卻在搜索引擎結(jié)果頁(yè)面(Search Engine Result Page,SERP)排名靠前的網(wǎng)頁(yè)[1]。研究表明,互聯(lián)網(wǎng)上的垃圾網(wǎng)頁(yè)大約占到10%~15%[1]。垃圾網(wǎng)頁(yè)產(chǎn)生的原因,是由于大多數(shù)搜索引擎使用者只會(huì)瀏覽SERP的前3頁(yè)[2],在SERP中排名越靠前,被
本文關(guān)鍵詞:基于隨機(jī)森林和欠采樣集成的垃圾網(wǎng)頁(yè)檢測(cè),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):463853
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/463853.html
最近更新
教材專著