基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁(yè)檢測(cè)
本文關(guān)鍵詞:基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁(yè)檢測(cè)
更多相關(guān)文章: 垃圾網(wǎng)頁(yè)檢測(cè) 集成學(xué)習(xí) 免疫克隆算法 特征選擇 欠采樣 隨機(jī)森林
【摘要】:為解決垃圾網(wǎng)頁(yè)檢測(cè)過(guò)程中的"維數(shù)災(zāi)難"和不平衡分類(lèi)問(wèn)題,提出一種基于免疫克隆特征選擇和欠采樣(US)集成的二元分類(lèi)器算法。首先,使用欠采樣技術(shù)將訓(xùn)練樣本集大類(lèi)抽樣成多個(gè)與小類(lèi)樣本數(shù)相近的樣本集,再將其分別與小類(lèi)樣本合并構(gòu)成多個(gè)平衡的子訓(xùn)練樣本集;然后,設(shè)計(jì)一種免疫克隆算法遴選出多個(gè)最優(yōu)的特征子集;基于最優(yōu)特征子集對(duì)平衡的子樣本集進(jìn)行投影操作,生成平衡數(shù)據(jù)集的多個(gè)視圖;最后,用隨機(jī)森林(RF)分類(lèi)器對(duì)測(cè)試樣本進(jìn)行分類(lèi),采用簡(jiǎn)單投票法確定測(cè)試樣本的最終類(lèi)別。在WEBSPAM UK-2006數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該集成分類(lèi)器算法應(yīng)用于垃圾網(wǎng)頁(yè)檢測(cè):與隨機(jī)森林算法及其Bagging和Ada Boost集成分類(lèi)器算法相比,準(zhǔn)確率、F1測(cè)度、AUC等指標(biāo)均提高11%以上;與其他最優(yōu)的研究結(jié)果相比,該集成分類(lèi)器算法在F1測(cè)度上提高2%,在AUC上達(dá)到最優(yōu)。
【作者單位】: 南昌大學(xué)軟件學(xué)院;南昌大學(xué)信息工程學(xué)院;元智大學(xué)資訊學(xué)院;
【關(guān)鍵詞】: 垃圾網(wǎng)頁(yè)檢測(cè) 集成學(xué)習(xí) 免疫克隆算法 特征選擇 欠采樣 隨機(jī)森林
【基金】:江西省科技支撐計(jì)劃項(xiàng)目(20131102040039)~~
【分類(lèi)號(hào)】:TP391.3;TP393.092
【正文快照】: 0引言垃圾網(wǎng)頁(yè)指的是那些在搜索引擎查詢(xún)結(jié)果中具有良好的排名而實(shí)際價(jià)值卻較差的網(wǎng)站和網(wǎng)頁(yè)。垃圾網(wǎng)頁(yè)之所以會(huì)出現(xiàn),是由于搜索引擎用戶(hù)傾向于只點(diǎn)擊那些排名靠前的鏈接。為了取得靠前的排名,各網(wǎng)站便想方設(shè)法采取各種手段優(yōu)化網(wǎng)站。而通過(guò)正當(dāng)手段提高網(wǎng)站排名,成本極其高昂
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李曉麗;;基于改進(jìn)免疫克隆算法的終端區(qū)航班進(jìn)場(chǎng)調(diào)度[J];計(jì)算機(jī)測(cè)量與控制;2013年06期
2 劉士榮;張波濤;;采用生物信息機(jī)制的量子免疫克隆算法[J];模式識(shí)別與人工智能;2011年03期
3 朱建東;蔣衛(wèi)菊;;基于免疫克隆算法的課表編排方案[J];計(jì)算機(jī)工程;2011年22期
4 劉洋;黃晉英;;免疫克隆算法收斂性及其在路徑規(guī)劃中的應(yīng)用[J];信息技術(shù)與信息化;2014年01期
5 漆楊;秦子玄;陳霞;于中華;;基于免疫克隆算法的容量受限工廠(chǎng)選址問(wèn)題研究[J];計(jì)算機(jī)應(yīng)用;2009年01期
6 王娟;李飛;;一種基于實(shí)數(shù)編碼的量子免疫克隆算法[J];計(jì)算機(jī)工程;2012年18期
7 吳秋逸;焦李成;李陽(yáng)陽(yáng);鄧曉政;;自適應(yīng)量子免疫克隆算法及其收斂性分析[J];模式識(shí)別與人工智能;2008年05期
8 唐正;胡珉;;空間自適應(yīng)免疫克隆選擇優(yōu)化算法[J];計(jì)算機(jī)應(yīng)用;2009年02期
9 徐海黎;朱志松;王恒;朱龍彪;;環(huán)境變異免疫克隆算法解決有約束優(yōu)化問(wèn)題[J];系統(tǒng)仿真學(xué)報(bào);2011年11期
10 張敏輝;;基于結(jié)合鮑德溫效應(yīng)和周期變異的免疫克隆優(yōu)化算法的研究[J];電腦與信息技術(shù);2012年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 馬威;顧幸生;;一種求解多目標(biāo)flow shop調(diào)度問(wèn)題的免疫克隆算法[A];上海市化學(xué)化工學(xué)會(huì)2010年度學(xué)術(shù)年會(huì)論文集(自動(dòng)化專(zhuān)題)[C];2010年
2 戴鍵;楊宏暉;;用于水聲目標(biāo)識(shí)別的自適應(yīng)免疫克隆特征選擇算法[A];2011'中國(guó)西部聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2011年
3 王蕓;楊宏暉;戴健;;加權(quán)免疫克隆樣本選擇與特征選擇融合算法[A];第三屆上!靼猜晫W(xué)學(xué)會(huì)學(xué)術(shù)會(huì)議論文集[C];2013年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 聶曉剛;免疫克隆公司又遇麻煩[N];科技日?qǐng)?bào);2002年
2 曹嘉智;免疫克隆公司迎來(lái)黎明?[N];醫(yī)藥經(jīng)濟(jì)報(bào);2003年
3 ;免疫克隆公司遭遇最后通牒[N];科技日?qǐng)?bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 孫奕菲;基于小世界網(wǎng)絡(luò)模型和免疫克隆優(yōu)化的智能計(jì)算方法以及應(yīng)用[D];西安電子科技大學(xué);2014年
2 劉若辰;免疫克隆策略算法及其應(yīng)用研究[D];西安電子科技大學(xué);2005年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張國(guó)龍;基于免疫克隆算法的船舶遠(yuǎn)程故障診斷研究[D];大連海事大學(xué);2015年
2 李潤(rùn)心;基于免疫克隆選擇的維數(shù)縮減及其應(yīng)用[D];西安電子科技大學(xué);2010年
3 王娟;量子免疫克隆算法研究及在壓縮感知重構(gòu)中的應(yīng)用[D];南京郵電大學(xué);2012年
4 張麗霞;免疫克隆智能優(yōu)化算法的研究與應(yīng)用[D];西北大學(xué);2008年
5 馮靜;基于免疫克隆的投影尋蹤聚類(lèi)算法及其應(yīng)用[D];西安電子科技大學(xué);2010年
6 張曉琳;基于免疫克隆選擇算法的作業(yè)車(chē)間調(diào)度問(wèn)題研究[D];西安電子科技大學(xué);2009年
7 馬紅梅;基于Curvelet冗余字典和免疫克隆優(yōu)化的壓縮感知重構(gòu)[D];西安電子科技大學(xué);2012年
8 楊茸;求解隨機(jī)機(jī)會(huì)約束規(guī)劃的免疫克隆混合算法及應(yīng)用[D];太原理工大學(xué);2012年
9 馬威;基于免疫克隆算法的多目標(biāo)flow shop生產(chǎn)調(diào)度的研究[D];華東理工大學(xué);2011年
10 徐聰;稀疏自然計(jì)算的學(xué)習(xí)算法及應(yīng)用研究[D];西安電子科技大學(xué);2013年
,本文編號(hào):921330
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/921330.html