基于欠采樣和不平衡集成分類(lèi)的垃圾網(wǎng)頁(yè)檢測(cè)研究
【圖文】:
如公式(2.6)所示。假正率越低,說(shuō)明分類(lèi)器錯(cuò)分為正少。FPFPRFP TN (2.6)正率(True Positive Rate,TPR)為被正確分類(lèi)的正例數(shù)與所有真正的比值,如公式(2.7)所示,該值等于查全率。TPTPR recallTP FN (2.7)負(fù)率(True Negative Rate,TNR)為被正確分類(lèi)的負(fù)例數(shù)與所有真正的比值,如公式(2.8)所示。1TNTNR FPRFP TN (2.8)負(fù)率(False Negative Rate,F(xiàn)NR)為被分類(lèi)器錯(cuò)分為負(fù)例的正例數(shù)正例數(shù)之間的比值,如公式(2.9)所示。1FNFNR TPRTP FN (2.9)
欠采樣集成分類(lèi)器再次集成起來(lái),以提升其分類(lèi)性能。3.2 隨機(jī)欠采樣集成分類(lèi)器3.2.1 研究框架本章研究提出的用于垃圾網(wǎng)頁(yè)檢測(cè)的隨機(jī)欠采樣集成分類(lèi)的過(guò)程框架如圖3.1所示,共分訓(xùn)練階段和測(cè)試階段2個(gè)階段。其中訓(xùn)練階段包括3個(gè)步驟。首先采用隨機(jī)欠采樣方法將不平衡數(shù)據(jù)集轉(zhuǎn)換成多個(gè)平衡數(shù)據(jù)集。這里嘗試采納3種隨機(jī)欠采樣方法,并比較它們之間的性能差異,,最終選定其中一種最好的隨機(jī)
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 房曉南;張化祥;高爽;;基于SMOTE和隨機(jī)森林的Web spam檢測(cè)[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2013年01期
2 楊咚咚;焦李成;公茂果;余航;;求解偏好多目標(biāo)優(yōu)化的克隆選擇算法[J];軟件學(xué)報(bào);2010年01期
3 詹永照;陳亞必;;具有噪聲過(guò)濾功能的協(xié)同訓(xùn)練半監(jiān)督主動(dòng)學(xué)習(xí)算法[J];模式識(shí)別與人工智能;2009年05期
4 戚玉濤;劉芳;焦李成;;基于分布式人工免疫算法的數(shù)值優(yōu)化[J];電子學(xué)報(bào);2009年07期
5 楊明;尹軍梅;吉根林;;不平衡數(shù)據(jù)分類(lèi)方法綜述[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期
6 戚玉濤;焦李成;劉芳;;基于并行人工免疫算法的大規(guī)模TSP問(wèn)題求解[J];電子學(xué)報(bào);2008年08期
7 戚玉濤;劉芳;焦李成;;求解TSP問(wèn)題免疫算法的動(dòng)態(tài)疫苗策略[J];西安電子科技大學(xué)學(xué)報(bào);2008年01期
8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶(hù)行為分析[J];中文信息學(xué)報(bào);2007年01期
9 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2004年05期
相關(guān)博士學(xué)位論文 前3條
1 計(jì)華;Web Spam特征分析及其檢測(cè)技術(shù)研究[D];山東師范大學(xué);2015年
2 牛小飛;基于遺傳規(guī)劃和集成學(xué)習(xí)的Web Spam檢測(cè)關(guān)鍵技術(shù)研究[D];山東大學(xué);2012年
3 李軍;不平衡數(shù)據(jù)學(xué)習(xí)的研究[D];吉林大學(xué);2011年
相關(guān)碩士學(xué)位論文 前2條
1 閆欣;綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D];東北電力大學(xué);2016年
2 孫麗娜;集成異種分類(lèi)器分類(lèi)稀有類(lèi)[D];鄭州大學(xué);2007年
本文編號(hào):2646362
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2646362.html