垃圾博客檢測技術(shù)的研究與實現(xiàn)
發(fā)布時間:2019-09-11 18:11
【摘要】:隨著Web2.0的飛速發(fā)展,人們正在從網(wǎng)絡(luò)內(nèi)容的使用者向網(wǎng)絡(luò)內(nèi)容的提供者轉(zhuǎn)變,網(wǎng)絡(luò)上出現(xiàn)了各種各樣的用戶生成內(nèi)容,其中以博客最具代表性。隨著博客的飛速發(fā)展,博客數(shù)量激增,博客已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠。博客的到來正在逐漸改變著人們?nèi)粘I钪械慕涣鞣绞?人們通過在博客中發(fā)帖子來表達自己的心情或者心得體會。博客的飛速發(fā)展也帶來了大量的垃圾博客。垃圾博客的泛濫不僅浪費了大量的網(wǎng)絡(luò)帶寬資源和網(wǎng)絡(luò)存儲空間,更惡劣的是它嚴重損害了Web的可信度和博客的內(nèi)容質(zhì)量,降低了用戶進行網(wǎng)絡(luò)信息共享的滿意度。 垃圾博客的檢測是一個分類問題。傳統(tǒng)的垃圾博客檢測過程中存在三點不足之處:一、把博客中的博文看做是一個網(wǎng)頁分別進行檢測,沒有把一個博客看做是一個整體;二、在博客的特征提取方面,只是提取了博客的內(nèi)容特征和鏈接特征,沒有考慮博客區(qū)別于網(wǎng)頁的特征;三、單分類器越來越不適用于日益復(fù)雜的數(shù)據(jù)形式。本文對這些不足之處進行了研究,在對垃圾博客進行檢測時,把一個博客中的所有博文看做一個集合,在博客的特征方面本文中不僅提取了基于內(nèi)容和鏈接的特征,而且經(jīng)過對垃圾博客的研究加入了5個統(tǒng)計特征和博客的3個時間動態(tài)性特征。在分類器方面,本文設(shè)計了基于旋轉(zhuǎn)森林的SVM集成分類器對垃圾博客進行檢測。 最后,本文設(shè)計了多組實驗進行對比。實驗結(jié)果表明,本文設(shè)計的垃圾博客檢測系統(tǒng)有著良好的效果。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
本文編號:2534591
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前4條
1 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機科學(xué);2009年08期
2 劉瑋;廖祥文;許洪波;王麗宏;;基于統(tǒng)計特征的垃圾博客過濾[J];中文信息學(xué)報;2008年06期
3 王海鳳;薩智海;;DOM技術(shù)在數(shù)據(jù)轉(zhuǎn)換中的應(yīng)用[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年04期
4 徐遠超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2007年21期
,本文編號:2534591
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2534591.html
最近更新
教材專著