天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測

發(fā)布時間:2017-09-26 04:03

  本文關(guān)鍵詞:基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測


  更多相關(guān)文章: 垃圾網(wǎng)頁檢測 集成學(xué)習(xí) 免疫克隆算法 特征選擇 欠采樣 隨機(jī)森林


【摘要】:為解決垃圾網(wǎng)頁檢測過程中的"維數(shù)災(zāi)難"和不平衡分類問題,提出一種基于免疫克隆特征選擇和欠采樣(US)集成的二元分類器算法。首先,使用欠采樣技術(shù)將訓(xùn)練樣本集大類抽樣成多個與小類樣本數(shù)相近的樣本集,再將其分別與小類樣本合并構(gòu)成多個平衡的子訓(xùn)練樣本集;然后,設(shè)計一種免疫克隆算法遴選出多個最優(yōu)的特征子集;基于最優(yōu)特征子集對平衡的子樣本集進(jìn)行投影操作,生成平衡數(shù)據(jù)集的多個視圖;最后,用隨機(jī)森林(RF)分類器對測試樣本進(jìn)行分類,采用簡單投票法確定測試樣本的最終類別。在WEBSPAM UK-2006數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該集成分類器算法應(yīng)用于垃圾網(wǎng)頁檢測:與隨機(jī)森林算法及其Bagging和Ada Boost集成分類器算法相比,準(zhǔn)確率、F1測度、AUC等指標(biāo)均提高11%以上;與其他最優(yōu)的研究結(jié)果相比,該集成分類器算法在F1測度上提高2%,在AUC上達(dá)到最優(yōu)。
【作者單位】: 南昌大學(xué)軟件學(xué)院;南昌大學(xué)信息工程學(xué)院;元智大學(xué)資訊學(xué)院;
【關(guān)鍵詞】垃圾網(wǎng)頁檢測 集成學(xué)習(xí) 免疫克隆算法 特征選擇 欠采樣 隨機(jī)森林
【基金】:江西省科技支撐計劃項(xiàng)目(20131102040039)~~
【分類號】:TP391.3;TP393.092
【正文快照】: 0引言垃圾網(wǎng)頁指的是那些在搜索引擎查詢結(jié)果中具有良好的排名而實(shí)際價值卻較差的網(wǎng)站和網(wǎng)頁。垃圾網(wǎng)頁之所以會出現(xiàn),是由于搜索引擎用戶傾向于只點(diǎn)擊那些排名靠前的鏈接。為了取得靠前的排名,各網(wǎng)站便想方設(shè)法采取各種手段優(yōu)化網(wǎng)站。而通過正當(dāng)手段提高網(wǎng)站排名,成本極其高昂

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李曉麗;;基于改進(jìn)免疫克隆算法的終端區(qū)航班進(jìn)場調(diào)度[J];計算機(jī)測量與控制;2013年06期

2 劉士榮;張波濤;;采用生物信息機(jī)制的量子免疫克隆算法[J];模式識別與人工智能;2011年03期

3 朱建東;蔣衛(wèi)菊;;基于免疫克隆算法的課表編排方案[J];計算機(jī)工程;2011年22期

4 劉洋;黃晉英;;免疫克隆算法收斂性及其在路徑規(guī)劃中的應(yīng)用[J];信息技術(shù)與信息化;2014年01期

5 漆楊;秦子玄;陳霞;于中華;;基于免疫克隆算法的容量受限工廠選址問題研究[J];計算機(jī)應(yīng)用;2009年01期

6 王娟;李飛;;一種基于實(shí)數(shù)編碼的量子免疫克隆算法[J];計算機(jī)工程;2012年18期

7 吳秋逸;焦李成;李陽陽;鄧曉政;;自適應(yīng)量子免疫克隆算法及其收斂性分析[J];模式識別與人工智能;2008年05期

8 唐正;胡珉;;空間自適應(yīng)免疫克隆選擇優(yōu)化算法[J];計算機(jī)應(yīng)用;2009年02期

9 徐海黎;朱志松;王恒;朱龍彪;;環(huán)境變異免疫克隆算法解決有約束優(yōu)化問題[J];系統(tǒng)仿真學(xué)報;2011年11期

10 張敏輝;;基于結(jié)合鮑德溫效應(yīng)和周期變異的免疫克隆優(yōu)化算法的研究[J];電腦與信息技術(shù);2012年02期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 馬威;顧幸生;;一種求解多目標(biāo)flow shop調(diào)度問題的免疫克隆算法[A];上海市化學(xué)化工學(xué)會2010年度學(xué)術(shù)年會論文集(自動化專題)[C];2010年

2 戴鍵;楊宏暉;;用于水聲目標(biāo)識別的自適應(yīng)免疫克隆特征選擇算法[A];2011'中國西部聲學(xué)學(xué)術(shù)交流會論文集[C];2011年

3 王蕓;楊宏暉;戴健;;加權(quán)免疫克隆樣本選擇與特征選擇融合算法[A];第三屆上!靼猜晫W(xué)學(xué)會學(xué)術(shù)會議論文集[C];2013年

中國重要報紙全文數(shù)據(jù)庫 前3條

1 聶曉剛;免疫克隆公司又遇麻煩[N];科技日報;2002年

2 曹嘉智;免疫克隆公司迎來黎明?[N];醫(yī)藥經(jīng)濟(jì)報;2003年

3 ;免疫克隆公司遭遇最后通牒[N];科技日報;2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 孫奕菲;基于小世界網(wǎng)絡(luò)模型和免疫克隆優(yōu)化的智能計算方法以及應(yīng)用[D];西安電子科技大學(xué);2014年

2 劉若辰;免疫克隆策略算法及其應(yīng)用研究[D];西安電子科技大學(xué);2005年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 張國龍;基于免疫克隆算法的船舶遠(yuǎn)程故障診斷研究[D];大連海事大學(xué);2015年

2 李潤心;基于免疫克隆選擇的維數(shù)縮減及其應(yīng)用[D];西安電子科技大學(xué);2010年

3 王娟;量子免疫克隆算法研究及在壓縮感知重構(gòu)中的應(yīng)用[D];南京郵電大學(xué);2012年

4 張麗霞;免疫克隆智能優(yōu)化算法的研究與應(yīng)用[D];西北大學(xué);2008年

5 馮靜;基于免疫克隆的投影尋蹤聚類算法及其應(yīng)用[D];西安電子科技大學(xué);2010年

6 張曉琳;基于免疫克隆選擇算法的作業(yè)車間調(diào)度問題研究[D];西安電子科技大學(xué);2009年

7 馬紅梅;基于Curvelet冗余字典和免疫克隆優(yōu)化的壓縮感知重構(gòu)[D];西安電子科技大學(xué);2012年

8 楊茸;求解隨機(jī)機(jī)會約束規(guī)劃的免疫克隆混合算法及應(yīng)用[D];太原理工大學(xué);2012年

9 馬威;基于免疫克隆算法的多目標(biāo)flow shop生產(chǎn)調(diào)度的研究[D];華東理工大學(xué);2011年

10 徐聰;稀疏自然計算的學(xué)習(xí)算法及應(yīng)用研究[D];西安電子科技大學(xué);2013年



本文編號:921330

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/921330.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶593cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com