天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于SMOTE和隨機(jī)森林的Web spam檢測(cè)

發(fā)布時(shí)間:2017-12-11 16:28

  本文關(guān)鍵詞:基于SMOTE和隨機(jī)森林的Web spam檢測(cè)


  更多相關(guān)文章: 集成學(xué)習(xí) 搜索引擎垃圾網(wǎng)頁(yè) 隨機(jī)森林 SMOTE 搜索引擎作弊


【摘要】:Web spam是指采用某些技術(shù)手段,使得網(wǎng)頁(yè)在搜索引擎檢索結(jié)果中的排名高于其應(yīng)得排名的行為,它嚴(yán)重影響搜索結(jié)果的質(zhì)量?紤]到Web spam數(shù)據(jù)集的嚴(yán)重不平衡情況,本研究提出先使用SMOTE過抽樣方法平衡數(shù)據(jù)集,再利用隨機(jī)森林算法訓(xùn)練分類器。通過對(duì)常見的單分類器和集成學(xué)習(xí)分類器的對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)SMOTE+RF方法表現(xiàn)較為突出,并根據(jù)實(shí)驗(yàn)結(jié)果優(yōu)化了方法中的重要參數(shù),對(duì)使用SMOTE方法后AUC值提高的原因進(jìn)行了分析。在WEBSPAM UK2007數(shù)據(jù)集上的實(shí)驗(yàn)證明,該方法可以顯著提高分類器的分類效果,其AUC值已經(jīng)超過了Web Spam Challenge 2008上的最好成績(jī)。
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61170145) 教育部高等學(xué)校博士點(diǎn)專項(xiàng)基金資助項(xiàng)目(20113704110001) 山東省自然科學(xué)基金資助項(xiàng)目(ZR2010FM021)
【分類號(hào)】:TP391.3
【正文快照】: 0引言由于大多數(shù)搜索引擎使用者在查看返回的結(jié)果時(shí),一般只關(guān)注前3頁(yè)的內(nèi)容[1],因此很多的網(wǎng)站管理者會(huì)通過搜索引擎優(yōu)化(search engine optimi-zation,SEO)的手段來(lái)提高在搜索結(jié)果中的排名[2]。然而有些網(wǎng)站利用搜索引擎排序算法的漏第1期房曉南,等:基于SMOTE和隨機(jī)森林的Web

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 許傳軻;陳月輝;趙亞歐;;基于改進(jìn)偽氨基酸組成的蛋白質(zhì)相互作用預(yù)測(cè)[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2009年09期

2 李智超;余慧佳;劉奕群;馬少平;;網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2011年05期

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 肖卓磊;;搜索引擎作弊及反作弊技術(shù)探究[J];阜陽(yáng)師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條

1 李哲謙;劉書朋;嚴(yán)壯志;黃海;;基于支持向量機(jī)的蛋白質(zhì)相互作用預(yù)測(cè)[J];電子測(cè)量技術(shù);2008年05期

2 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期

3 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁(yè)面分類[J];中文信息學(xué)報(bào);2009年02期

4 任仙文;李北平;王月蘭;岳俊杰;梁龍;;蛋白質(zhì)相互作用的生物信息學(xué)研究進(jìn)展[J];生物技術(shù)通訊;2006年06期

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉郁,陳耘志,張兵;圖像挖掘中利用類特征集成的自動(dòng)學(xué)習(xí)算法研究[J];電腦知識(shí)與技術(shù);2005年30期

2 琚旭;王浩;姚宏亮;;基于Boosting的支持向量機(jī)組合分類器[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年10期

3 陳華;魏連;鄭志嫻;許榕生;;基于集成學(xué)習(xí)的網(wǎng)絡(luò)取證模型[J];福建電腦;2007年10期

4 趙洋;冀俊忠;李文斌;;基于復(fù)雜網(wǎng)絡(luò)的分類器融合[J];科學(xué)技術(shù)與工程;2008年14期

5 向堅(jiān);葉綠;朱紅麗;;基于子空間集成學(xué)習(xí)的3維人體運(yùn)動(dòng)識(shí)別[J];中國(guó)圖象圖形學(xué)報(bào);2008年10期

6 賈瑞玉;馮倫闊;李永順;張新建;;基于集成學(xué)習(xí)的覆蓋算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年07期

7 張振宇;;穩(wěn)健的多支持向量機(jī)自適應(yīng)提升算法[J];大連交通大學(xué)學(xué)報(bào);2010年02期

8 張燕平;竇蓉蓉;趙姝;曹振田;;基于集成學(xué)習(xí)的規(guī)范化LDA人臉識(shí)別[J];計(jì)算機(jī)工程;2010年14期

9 孫建文;楊宗凱;劉三(女牙);王佩;;基于集成學(xué)習(xí)與遺傳算法的網(wǎng)絡(luò)書寫紋識(shí)別研究[J];計(jì)算機(jī)科學(xué);2011年06期

10 謝華;夏順仁;張贊超;;醫(yī)學(xué)圖像識(shí)別中多分類器融合方法的研究進(jìn)展[J];國(guó)際生物醫(yī)學(xué)工程雜志;2006年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 葉紅云;倪志偉;陳恩紅;;一種混合型集成學(xué)習(xí)演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 劉伍穎;王挺;;一種多過濾器集成學(xué)習(xí)垃圾郵件過濾方法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 王中卿;李壽山;朱巧明;李培峰;周國(guó)棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

4 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 方育柯;集成學(xué)習(xí)理論研究及其在個(gè)性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年

2 張麗新;高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學(xué)習(xí)研究[D];清華大學(xué);2004年

3 向堅(jiān);基于三維捕獲數(shù)據(jù)的人體運(yùn)動(dòng)分析關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年

4 李成安;分布式環(huán)境下聚類分析新方法的研究[D];浙江大學(xué);2006年

5 陶曉燕;基于支持向量機(jī)和流形學(xué)習(xí)的分類方法研究[D];西安電子科技大學(xué);2008年

6 沈道義;基于最小化訓(xùn)練誤差的子空間分類算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

7 薛安榮;空間離群點(diǎn)挖掘技術(shù)的研究[D];江蘇大學(xué);2008年

8 關(guān)菁華;基于貝葉斯網(wǎng)數(shù)據(jù)挖掘若干問題研究[D];吉林大學(xué);2009年

9 艾解清;雙邊多議題自動(dòng)協(xié)商研究[D];浙江大學(xué);2011年

10 張冬梅;文本情感分類及觀點(diǎn)摘要關(guān)鍵問題研究[D];山東大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張家紅;集成分類學(xué)習(xí)算法研究[D];山東師范大學(xué);2011年

2 趙萬(wàn)鵬;基于Adaboost算法的數(shù)字識(shí)別技術(shù)的研究與應(yīng)用[D];中國(guó)科學(xué)院研究生院(成都計(jì)算機(jī)應(yīng)用研究所);2006年

3 王健;基于本體技術(shù)的個(gè)性化集成學(xué)習(xí)環(huán)境研究[D];山東師范大學(xué);2010年

4 盧廷玉;基于粒子群優(yōu)化算法的集成學(xué)習(xí)研究[D];吉林大學(xué);2008年

5 王志偉;信息隱藏應(yīng)用于數(shù)據(jù)庫(kù)及集成學(xué)習(xí)隱密分析方法研究[D];大連理工大學(xué);2008年

6 田慧;支持向量機(jī)集成及在音樂分類中的應(yīng)用[D];山東師范大學(xué);2009年

7 李杉;選擇性聚類集成算法研究[D];山東師范大學(xué);2010年

8 張敬娜;基于集成學(xué)習(xí)的語(yǔ)音信息隱藏分析技術(shù)研究[D];華北電力大學(xué);2011年

9 馮倫闊;基于集成學(xué)習(xí)的覆蓋算法研究[D];安徽大學(xué);2010年

10 劉艷霞;基于eEP的稀有類分類問題研究[D];鄭州大學(xué);2005年

,

本文編號(hào):1279168

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1279168.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9f29c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com