天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于欠采樣和不平衡集成分類(lèi)的垃圾網(wǎng)頁(yè)檢測(cè)研究

發(fā)布時(shí)間:2020-05-01 00:41
【摘要】:垃圾網(wǎng)頁(yè)指的是那些在搜索引擎查詢(xún)結(jié)果中具有良好的排名而實(shí)際價(jià)值卻較差的網(wǎng)站和網(wǎng)頁(yè)。垃圾網(wǎng)頁(yè)之所以會(huì)出現(xiàn),是由于搜索引擎用戶(hù)傾向于只點(diǎn)擊那些排名靠前的鏈接。為了取得靠前的排名,各網(wǎng)站便想方設(shè)法采取各種手段優(yōu)化網(wǎng)站。而通過(guò)正當(dāng)手段提高網(wǎng)站排名,成本極其高昂,于是各種網(wǎng)頁(yè)作弊手段輪番上陣。垃圾網(wǎng)頁(yè)削弱了搜索引擎的權(quán)威性,浪費(fèi)了大量計(jì)算與存儲(chǔ)資源,剝奪了合法網(wǎng)站的正當(dāng)利益,降低了搜索結(jié)果的質(zhì)量。垃圾網(wǎng)頁(yè)檢測(cè)已成為搜索引擎最為重要的任務(wù)之一。本文根據(jù)垃圾網(wǎng)頁(yè)檢測(cè)WEBSPAM-UK2006和WEBSPAM-UK2007數(shù)據(jù)集的特點(diǎn),圍繞其基于內(nèi)容的特征、基于鏈接的特征、基于鏈接轉(zhuǎn)換的特征以及基于網(wǎng)絡(luò)圖的相關(guān)特征,采用欠采樣集成C4.5決策樹(shù)的方法,進(jìn)行垃圾網(wǎng)頁(yè)檢測(cè)研究。主要工作以及取得的成果可概括為如下四個(gè)方面。(1)提出三種隨機(jī)欠采樣集成算法(C4.5+RUS-once、C4.5+RUS-multiple、C4.5+RUS-replacement)用于垃圾網(wǎng)頁(yè)檢測(cè),這些方法從樣本平衡和多樣化的角度,提升分類(lèi)性能,特別是后兩種方法,通過(guò)欠采樣集成的方式,創(chuàng)立大量多樣化的C4.5分類(lèi)器并集成,將垃圾網(wǎng)頁(yè)檢測(cè)的性能達(dá)到現(xiàn)有的最優(yōu)結(jié)果。另外,還提出一種同時(shí)基于樣本欠采樣和特征集劃分兩種子分類(lèi)器多樣化方法(C4.5+FP+RUS),其分類(lèi)性能也達(dá)到了現(xiàn)有的最優(yōu)結(jié)果,大幅度提高垃圾網(wǎng)頁(yè)檢測(cè)的分類(lèi)效果。(2)提出一種免疫克隆選擇算法(ICFSUS-ERC4.5)用于特征選擇,選擇出多個(gè)最優(yōu)特征子集用于垃圾網(wǎng)頁(yè)檢測(cè),充分利用樣本欠采樣和特征選擇兩種子分類(lèi)器多樣化方法,進(jìn)一步提升了垃圾網(wǎng)頁(yè)檢測(cè)的分類(lèi)性能,其分類(lèi)結(jié)果超過(guò)了現(xiàn)有的最優(yōu)分類(lèi)方法的結(jié)果。(3)對(duì)免疫網(wǎng)絡(luò)優(yōu)化算法(opt-aiNet)加以改進(jìn),提出一種基于免疫網(wǎng)絡(luò)特征劃分和欠采樣集成的分類(lèi)器(NFPUS-EC4.5)用于垃圾網(wǎng)頁(yè)檢測(cè)。針對(duì)特征劃分結(jié)合欠采樣集成的方法可提高垃圾網(wǎng)頁(yè)檢測(cè)的準(zhǔn)確率的結(jié)論,提出一種設(shè)想:是否有一種最優(yōu)的特征劃分方法,基于此種特征劃分的特征子集訓(xùn)練得到的集成分類(lèi)器是是最優(yōu)的?針對(duì)這樣一種設(shè)想,對(duì)免疫網(wǎng)絡(luò)優(yōu)化算法opt-aiNet加以改進(jìn)用于特征劃分。但最終的實(shí)驗(yàn)結(jié)果表明:基于免疫網(wǎng)絡(luò)的特征劃分算法,確實(shí)是一種良好的尋優(yōu)算法,但將其用于分類(lèi)任務(wù),僅對(duì)訓(xùn)練集有效,對(duì)測(cè)試集無(wú)效,即容易導(dǎo)致過(guò)度擬合,對(duì)于提高分類(lèi)器的最終分類(lèi)效果并沒(méi)有作用。(4)根據(jù)協(xié)同森林算法Co-Forest的基本思想,提出一種協(xié)同訓(xùn)練算法,利用網(wǎng)頁(yè)特征集是充分且冗余的這一假設(shè),針對(duì)特征子集和樣本子集的差異性,構(gòu)建多個(gè)集成分類(lèi)器,訓(xùn)練未知樣本用于增強(qiáng)最終的集成分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,該改進(jìn)協(xié)同森林算法利用未標(biāo)注樣本,提高了最終的分類(lèi)性能。
【圖文】:

示例,曲線(xiàn),公式,分類(lèi)器


如公式(2.6)所示。假正率越低,說(shuō)明分類(lèi)器錯(cuò)分為正少。FPFPRFP TN (2.6)正率(True Positive Rate,TPR)為被正確分類(lèi)的正例數(shù)與所有真正的比值,如公式(2.7)所示,該值等于查全率。TPTPR recallTP FN (2.7)負(fù)率(True Negative Rate,TNR)為被正確分類(lèi)的負(fù)例數(shù)與所有真正的比值,如公式(2.8)所示。1TNTNR FPRFP TN (2.8)負(fù)率(False Negative Rate,F(xiàn)NR)為被分類(lèi)器錯(cuò)分為負(fù)例的正例數(shù)正例數(shù)之間的比值,如公式(2.9)所示。1FNFNR TPRTP FN (2.9)

欠采樣,過(guò)程框架


欠采樣集成分類(lèi)器再次集成起來(lái),以提升其分類(lèi)性能。3.2 隨機(jī)欠采樣集成分類(lèi)器3.2.1 研究框架本章研究提出的用于垃圾網(wǎng)頁(yè)檢測(cè)的隨機(jī)欠采樣集成分類(lèi)的過(guò)程框架如圖3.1所示,共分訓(xùn)練階段和測(cè)試階段2個(gè)階段。其中訓(xùn)練階段包括3個(gè)步驟。首先采用隨機(jī)欠采樣方法將不平衡數(shù)據(jù)集轉(zhuǎn)換成多個(gè)平衡數(shù)據(jù)集。這里嘗試采納3種隨機(jī)欠采樣方法,并比較它們之間的性能差異,,最終選定其中一種最好的隨機(jī)
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 房曉南;張化祥;高爽;;基于SMOTE和隨機(jī)森林的Web spam檢測(cè)[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2013年01期

2 楊咚咚;焦李成;公茂果;余航;;求解偏好多目標(biāo)優(yōu)化的克隆選擇算法[J];軟件學(xué)報(bào);2010年01期

3 詹永照;陳亞必;;具有噪聲過(guò)濾功能的協(xié)同訓(xùn)練半監(jiān)督主動(dòng)學(xué)習(xí)算法[J];模式識(shí)別與人工智能;2009年05期

4 戚玉濤;劉芳;焦李成;;基于分布式人工免疫算法的數(shù)值優(yōu)化[J];電子學(xué)報(bào);2009年07期

5 楊明;尹軍梅;吉根林;;不平衡數(shù)據(jù)分類(lèi)方法綜述[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2008年04期

6 戚玉濤;焦李成;劉芳;;基于并行人工免疫算法的大規(guī)模TSP問(wèn)題求解[J];電子學(xué)報(bào);2008年08期

7 戚玉濤;劉芳;焦李成;;求解TSP問(wèn)題免疫算法的動(dòng)態(tài)疫苗策略[J];西安電子科技大學(xué)學(xué)報(bào);2008年01期

8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶(hù)行為分析[J];中文信息學(xué)報(bào);2007年01期

9 張向榮,焦李成;基于免疫克隆選擇算法的特征選擇[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2004年05期

相關(guān)博士學(xué)位論文 前3條

1 計(jì)華;Web Spam特征分析及其檢測(cè)技術(shù)研究[D];山東師范大學(xué);2015年

2 牛小飛;基于遺傳規(guī)劃和集成學(xué)習(xí)的Web Spam檢測(cè)關(guān)鍵技術(shù)研究[D];山東大學(xué);2012年

3 李軍;不平衡數(shù)據(jù)學(xué)習(xí)的研究[D];吉林大學(xué);2011年

相關(guān)碩士學(xué)位論文 前2條

1 閆欣;綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D];東北電力大學(xué);2016年

2 孫麗娜;集成異種分類(lèi)器分類(lèi)稀有類(lèi)[D];鄭州大學(xué);2007年



本文編號(hào):2646362

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2646362.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)f43ef***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com