天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于SMOTE和隨機森林的Web spam檢測

發(fā)布時間:2017-12-11 16:28

  本文關鍵詞:基于SMOTE和隨機森林的Web spam檢測


  更多相關文章: 集成學習 搜索引擎垃圾網(wǎng)頁 隨機森林 SMOTE 搜索引擎作弊


【摘要】:Web spam是指采用某些技術手段,使得網(wǎng)頁在搜索引擎檢索結果中的排名高于其應得排名的行為,它嚴重影響搜索結果的質量?紤]到Web spam數(shù)據(jù)集的嚴重不平衡情況,本研究提出先使用SMOTE過抽樣方法平衡數(shù)據(jù)集,再利用隨機森林算法訓練分類器。通過對常見的單分類器和集成學習分類器的對比實驗,發(fā)現(xiàn)SMOTE+RF方法表現(xiàn)較為突出,并根據(jù)實驗結果優(yōu)化了方法中的重要參數(shù),對使用SMOTE方法后AUC值提高的原因進行了分析。在WEBSPAM UK2007數(shù)據(jù)集上的實驗證明,該方法可以顯著提高分類器的分類效果,其AUC值已經(jīng)超過了Web Spam Challenge 2008上的最好成績。
【作者單位】: 山東師范大學信息科學與工程學院;山東省分布式計算機軟件新技術重點實驗室;
【基金】:國家自然科學基金資助項目(61170145) 教育部高等學校博士點專項基金資助項目(20113704110001) 山東省自然科學基金資助項目(ZR2010FM021)
【分類號】:TP391.3
【正文快照】: 0引言由于大多數(shù)搜索引擎使用者在查看返回的結果時,一般只關注前3頁的內容[1],因此很多的網(wǎng)站管理者會通過搜索引擎優(yōu)化(search engine optimi-zation,SEO)的手段來提高在搜索結果中的排名[2]。然而有些網(wǎng)站利用搜索引擎排序算法的漏第1期房曉南,等:基于SMOTE和隨機森林的Web

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 許傳軻;陳月輝;趙亞歐;;基于改進偽氨基酸組成的蛋白質相互作用預測[J];山東大學學報(理學版);2009年09期

2 李智超;余慧佳;劉奕群;馬少平;;網(wǎng)頁作弊與反作弊技術綜述[J];山東大學學報(理學版);2011年05期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 肖卓磊;;搜索引擎作弊及反作弊技術探究[J];阜陽師范學院學報(自然科學版);2011年04期

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 李哲謙;劉書朋;嚴壯志;黃海;;基于支持向量機的蛋白質相互作用預測[J];電子測量技術;2008年05期

2 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學報;2007年01期

3 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁面分類[J];中文信息學報;2009年02期

4 任仙文;李北平;王月蘭;岳俊杰;梁龍;;蛋白質相互作用的生物信息學研究進展[J];生物技術通訊;2006年06期

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉郁,陳耘志,張兵;圖像挖掘中利用類特征集成的自動學習算法研究[J];電腦知識與技術;2005年30期

2 琚旭;王浩;姚宏亮;;基于Boosting的支持向量機組合分類器[J];合肥工業(yè)大學學報(自然科學版);2006年10期

3 陳華;魏連;鄭志嫻;許榕生;;基于集成學習的網(wǎng)絡取證模型[J];福建電腦;2007年10期

4 趙洋;冀俊忠;李文斌;;基于復雜網(wǎng)絡的分類器融合[J];科學技術與工程;2008年14期

5 向堅;葉綠;朱紅麗;;基于子空間集成學習的3維人體運動識別[J];中國圖象圖形學報;2008年10期

6 賈瑞玉;馮倫闊;李永順;張新建;;基于集成學習的覆蓋算法[J];計算機技術與發(fā)展;2009年07期

7 張振宇;;穩(wěn)健的多支持向量機自適應提升算法[J];大連交通大學學報;2010年02期

8 張燕平;竇蓉蓉;趙姝;曹振田;;基于集成學習的規(guī)范化LDA人臉識別[J];計算機工程;2010年14期

9 孫建文;楊宗凱;劉三(女牙);王佩;;基于集成學習與遺傳算法的網(wǎng)絡書寫紋識別研究[J];計算機科學;2011年06期

10 謝華;夏順仁;張贊超;;醫(yī)學圖像識別中多分類器融合方法的研究進展[J];國際生物醫(yī)學工程雜志;2006年03期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 葉紅云;倪志偉;陳恩紅;;一種混合型集成學習演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 劉伍穎;王挺;;一種多過濾器集成學習垃圾郵件過濾方法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

3 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

4 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應用[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 方育柯;集成學習理論研究及其在個性化推薦中的應用[D];電子科技大學;2011年

2 張麗新;高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學習研究[D];清華大學;2004年

3 向堅;基于三維捕獲數(shù)據(jù)的人體運動分析關鍵技術研究[D];浙江大學;2007年

4 李成安;分布式環(huán)境下聚類分析新方法的研究[D];浙江大學;2006年

5 陶曉燕;基于支持向量機和流形學習的分類方法研究[D];西安電子科技大學;2008年

6 沈道義;基于最小化訓練誤差的子空間分類算法研究[D];中國科學技術大學;2008年

7 薛安榮;空間離群點挖掘技術的研究[D];江蘇大學;2008年

8 關菁華;基于貝葉斯網(wǎng)數(shù)據(jù)挖掘若干問題研究[D];吉林大學;2009年

9 艾解清;雙邊多議題自動協(xié)商研究[D];浙江大學;2011年

10 張冬梅;文本情感分類及觀點摘要關鍵問題研究[D];山東大學;2012年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 張家紅;集成分類學習算法研究[D];山東師范大學;2011年

2 趙萬鵬;基于Adaboost算法的數(shù)字識別技術的研究與應用[D];中國科學院研究生院(成都計算機應用研究所);2006年

3 王健;基于本體技術的個性化集成學習環(huán)境研究[D];山東師范大學;2010年

4 盧廷玉;基于粒子群優(yōu)化算法的集成學習研究[D];吉林大學;2008年

5 王志偉;信息隱藏應用于數(shù)據(jù)庫及集成學習隱密分析方法研究[D];大連理工大學;2008年

6 田慧;支持向量機集成及在音樂分類中的應用[D];山東師范大學;2009年

7 李杉;選擇性聚類集成算法研究[D];山東師范大學;2010年

8 張敬娜;基于集成學習的語音信息隱藏分析技術研究[D];華北電力大學;2011年

9 馮倫闊;基于集成學習的覆蓋算法研究[D];安徽大學;2010年

10 劉艷霞;基于eEP的稀有類分類問題研究[D];鄭州大學;2005年

,

本文編號:1279168

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1279168.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶9f29c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com