天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進的LogitBoost算法的垃圾網(wǎng)頁檢測研究

發(fā)布時間:2018-04-06 21:09

  本文選題:垃圾網(wǎng)頁識別 切入點:集成學習 出處:《科技視界》2015年27期


【摘要】:實現(xiàn)垃圾網(wǎng)頁的有效檢測可以有效提高搜索引擎檢索質(zhì)量,促使網(wǎng)頁的設計向著面向用戶的方向發(fā)展。由于垃圾網(wǎng)頁是面向搜索引擎設計的,正常網(wǎng)頁是面向用戶設計的,因而兩者在特征方面存在眾多區(qū)別,通過機器學習方法可以根據(jù)垃圾網(wǎng)頁與正常網(wǎng)頁在特征方面的不同對垃圾網(wǎng)頁進行有效識別。通過對常見單分類器和集成學習分類器處理垃圾網(wǎng)頁數(shù)據(jù)集的對比實驗,發(fā)現(xiàn)集成學習方法 logitboost較為突出,所得結(jié)果明顯優(yōu)于單一分類器和常用集成學習算法,所得結(jié)果也更接近真實值,并通過對logitboost所用的預處理方法和基分類器進行改進,發(fā)現(xiàn)用resample對垃圾網(wǎng)頁進行預處理,以REPTree算法為基分類器的logitboost算法對垃圾網(wǎng)頁數(shù)據(jù)集的分類有較高的精確度。
[Abstract]:The effective detection of spam pages can effectively improve the search engine search quality and promote the design of web pages towards the direction of user oriented.Since spam pages are designed for search engines and normal pages are designed for users, there are many differences between the two in terms of features.The machine learning method can be used to identify garbage pages effectively according to the differences of features between junk pages and normal pages.Through the contrast experiment of common single classifier and integrated learning classifier to deal with garbage web page data set, it is found that the integrated learning method logitboost is more outstanding, and the result is obviously superior to single classifier and common integrated learning algorithm.The result is closer to the real value, and by improving the preprocessing method and base classifier used in logitboost, it is found that resample is used to preprocess garbage pages.The logitboost algorithm based on REPTree algorithm has a high accuracy for the classification of garbage page data sets.
【作者單位】: 山東師范大學信息科學與工程學院;
【基金】:2014年度國家級大學生創(chuàng)新訓練項目(201401223)
【分類號】:TP393.092

【參考文獻】

相關(guān)期刊論文 前2條

1 房曉南;張化祥;高爽;;基于SMOTE和隨機森林的Web spam檢測[J];山東大學學報(工學版);2013年01期

2 周濟;文志強;林海龍;;集成學習有效性研究[J];軟件導刊;2014年06期

相關(guān)碩士學位論文 前2條

1 邱齊輝;基于決策樹和貝葉斯算法的垃圾網(wǎng)頁檢測的研究和實現(xiàn)[D];北京工業(yè)大學;2012年

2 謝娜娜;基于不均衡數(shù)據(jù)集的文本分類算法研究[D];重慶大學;2013年

【共引文獻】

相關(guān)期刊論文 前2條

1 馮莉;;基于分類器組合增量集成的遠程教育學生表現(xiàn)預測[J];計算機與數(shù)字工程;2014年11期

2 趙煜;邵必林;邊根慶;宋丹;;面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預測方法[J];計算機應用;2015年07期

相關(guān)碩士學位論文 前2條

1 劉進華;基于隨機森林的語音情感識別研究[D];華南理工大學;2013年

2 呂越;Web Spam檢測技術(shù)研究與實現(xiàn)[D];武漢理工大學;2014年

【二級參考文獻】

相關(guān)期刊論文 前10條

1 林陽,祝智庭;國外因特網(wǎng)內(nèi)容標記與過濾技術(shù)調(diào)查[J];電化教育研究;2002年02期

2 費宗蓮;病毒防火墻的內(nèi)容過濾技術(shù)[J];計算機安全;2004年04期

3 孫春來,段米毅,毛克峰;基于內(nèi)容過濾的網(wǎng)絡監(jiān)控技術(shù)研究[J];高技術(shù)通訊;2001年11期

4 呂匯新;一個基于模式匹配入侵檢測技術(shù)的防信息泄露系統(tǒng)的設計與實現(xiàn)[J];哈爾濱師范大學自然科學學報;2004年03期

5 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期

6 裴英博;劉曉霞;;文本分類中改進型CHI特征選擇方法的研究[J];計算機工程與應用;2011年04期

7 翟云;楊炳儒;曲武;;不平衡類數(shù)據(jù)挖掘研究綜述[J];計算機科學;2010年10期

8 樊興華;孫茂松;;一種高性能的兩類中文文本分類方法[J];計算機學報;2006年01期

9 盧軍,盧顯良,韓宏,任立勇;實時網(wǎng)絡信息過濾系統(tǒng)的設計與實現(xiàn)[J];計算機應用;2002年10期

10 孫蕾,周明全,李丙春;一種非平衡分布數(shù)據(jù)的支持向量機新算法[J];計算機應用;2004年12期

相關(guān)博士學位論文 前4條

1 王清;集成學習中若干關(guān)鍵問題的研究[D];復旦大學;2011年

2 方育柯;集成學習理論研究及其在個性化推薦中的應用[D];電子科技大學;2011年

3 陳景年;選擇性貝葉斯分類算法研究[D];北京交通大學;2008年

4 蔣良孝;樸素貝葉斯分類器及其改進算法研究[D];中國地質(zhì)大學;2009年

相關(guān)碩士學位論文 前4條

1 袁新成;基于向量空間模型的自適應文本過濾研究[D];哈爾濱工業(yè)大學;2006年

2 董梅;文本內(nèi)容的信息過濾技術(shù)研究[D];合肥工業(yè)大學;2006年

3 方柯;面向網(wǎng)絡不良文本過濾的概念網(wǎng)技術(shù)研究與實現(xiàn)[D];上海交通大學;2007年

4 榮光;中文文本分類方法研究[D];山東師范大學;2009年

,

本文編號:1718907

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1718907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ec874***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com