天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究

發(fā)布時(shí)間:2018-04-06 21:09

  本文選題:垃圾網(wǎng)頁(yè)識(shí)別 切入點(diǎn):集成學(xué)習(xí) 出處:《科技視界》2015年27期


【摘要】:實(shí)現(xiàn)垃圾網(wǎng)頁(yè)的有效檢測(cè)可以有效提高搜索引擎檢索質(zhì)量,促使網(wǎng)頁(yè)的設(shè)計(jì)向著面向用戶的方向發(fā)展。由于垃圾網(wǎng)頁(yè)是面向搜索引擎設(shè)計(jì)的,正常網(wǎng)頁(yè)是面向用戶設(shè)計(jì)的,因而兩者在特征方面存在眾多區(qū)別,通過(guò)機(jī)器學(xué)習(xí)方法可以根據(jù)垃圾網(wǎng)頁(yè)與正常網(wǎng)頁(yè)在特征方面的不同對(duì)垃圾網(wǎng)頁(yè)進(jìn)行有效識(shí)別。通過(guò)對(duì)常見(jiàn)單分類(lèi)器和集成學(xué)習(xí)分類(lèi)器處理垃圾網(wǎng)頁(yè)數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)集成學(xué)習(xí)方法 logitboost較為突出,所得結(jié)果明顯優(yōu)于單一分類(lèi)器和常用集成學(xué)習(xí)算法,所得結(jié)果也更接近真實(shí)值,并通過(guò)對(duì)logitboost所用的預(yù)處理方法和基分類(lèi)器進(jìn)行改進(jìn),發(fā)現(xiàn)用resample對(duì)垃圾網(wǎng)頁(yè)進(jìn)行預(yù)處理,以REPTree算法為基分類(lèi)器的logitboost算法對(duì)垃圾網(wǎng)頁(yè)數(shù)據(jù)集的分類(lèi)有較高的精確度。
[Abstract]:The effective detection of spam pages can effectively improve the search engine search quality and promote the design of web pages towards the direction of user oriented.Since spam pages are designed for search engines and normal pages are designed for users, there are many differences between the two in terms of features.The machine learning method can be used to identify garbage pages effectively according to the differences of features between junk pages and normal pages.Through the contrast experiment of common single classifier and integrated learning classifier to deal with garbage web page data set, it is found that the integrated learning method logitboost is more outstanding, and the result is obviously superior to single classifier and common integrated learning algorithm.The result is closer to the real value, and by improving the preprocessing method and base classifier used in logitboost, it is found that resample is used to preprocess garbage pages.The logitboost algorithm based on REPTree algorithm has a high accuracy for the classification of garbage page data sets.
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:2014年度國(guó)家級(jí)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(201401223)
【分類(lèi)號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 房曉南;張化祥;高爽;;基于SMOTE和隨機(jī)森林的Web spam檢測(cè)[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2013年01期

2 周濟(jì);文志強(qiáng);林海龍;;集成學(xué)習(xí)有效性研究[J];軟件導(dǎo)刊;2014年06期

相關(guān)碩士學(xué)位論文 前2條

1 邱齊輝;基于決策樹(shù)和貝葉斯算法的垃圾網(wǎng)頁(yè)檢測(cè)的研究和實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2012年

2 謝娜娜;基于不均衡數(shù)據(jù)集的文本分類(lèi)算法研究[D];重慶大學(xué);2013年

【共引文獻(xiàn)】

相關(guān)期刊論文 前2條

1 馮莉;;基于分類(lèi)器組合增量集成的遠(yuǎn)程教育學(xué)生表現(xiàn)預(yù)測(cè)[J];計(jì)算機(jī)與數(shù)字工程;2014年11期

2 趙煜;邵必林;邊根慶;宋丹;;面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預(yù)測(cè)方法[J];計(jì)算機(jī)應(yīng)用;2015年07期

相關(guān)碩士學(xué)位論文 前2條

1 劉進(jìn)華;基于隨機(jī)森林的語(yǔ)音情感識(shí)別研究[D];華南理工大學(xué);2013年

2 呂越;Web Spam檢測(cè)技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2014年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 林陽(yáng),祝智庭;國(guó)外因特網(wǎng)內(nèi)容標(biāo)記與過(guò)濾技術(shù)調(diào)查[J];電化教育研究;2002年02期

2 費(fèi)宗蓮;病毒防火墻的內(nèi)容過(guò)濾技術(shù)[J];計(jì)算機(jī)安全;2004年04期

3 孫春來(lái),段米毅,毛克峰;基于內(nèi)容過(guò)濾的網(wǎng)絡(luò)監(jiān)控技術(shù)研究[J];高技術(shù)通訊;2001年11期

4 呂匯新;一個(gè)基于模式匹配入侵檢測(cè)技術(shù)的防信息泄露系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào);2004年03期

5 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期

6 裴英博;劉曉霞;;文本分類(lèi)中改進(jìn)型CHI特征選擇方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年04期

7 翟云;楊炳儒;曲武;;不平衡類(lèi)數(shù)據(jù)挖掘研究綜述[J];計(jì)算機(jī)科學(xué);2010年10期

8 樊興華;孫茂松;;一種高性能的兩類(lèi)中文文本分類(lèi)方法[J];計(jì)算機(jī)學(xué)報(bào);2006年01期

9 盧軍,盧顯良,韓宏,任立勇;實(shí)時(shí)網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2002年10期

10 孫蕾,周明全,李丙春;一種非平衡分布數(shù)據(jù)的支持向量機(jī)新算法[J];計(jì)算機(jī)應(yīng)用;2004年12期

相關(guān)博士學(xué)位論文 前4條

1 王清;集成學(xué)習(xí)中若干關(guān)鍵問(wèn)題的研究[D];復(fù)旦大學(xué);2011年

2 方育柯;集成學(xué)習(xí)理論研究及其在個(gè)性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年

3 陳景年;選擇性貝葉斯分類(lèi)算法研究[D];北京交通大學(xué);2008年

4 蔣良孝;樸素貝葉斯分類(lèi)器及其改進(jìn)算法研究[D];中國(guó)地質(zhì)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前4條

1 袁新成;基于向量空間模型的自適應(yīng)文本過(guò)濾研究[D];哈爾濱工業(yè)大學(xué);2006年

2 董梅;文本內(nèi)容的信息過(guò)濾技術(shù)研究[D];合肥工業(yè)大學(xué);2006年

3 方柯;面向網(wǎng)絡(luò)不良文本過(guò)濾的概念網(wǎng)技術(shù)研究與實(shí)現(xiàn)[D];上海交通大學(xué);2007年

4 榮光;中文文本分類(lèi)方法研究[D];山東師范大學(xué);2009年

,

本文編號(hào):1718907

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1718907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ec874***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com