基于擬合特征分布的垃圾網(wǎng)頁檢測方法
本文選題:垃圾網(wǎng)頁 + 內(nèi)容特征; 參考:《計算機工程與設(shè)計》2013年08期
【摘要】:為了有效地檢測垃圾網(wǎng)頁,通過分析網(wǎng)頁內(nèi)容特征和鏈接特征的分布,發(fā)現(xiàn)正常網(wǎng)頁特征分布有規(guī)律而垃圾網(wǎng)頁特征分布散亂,根據(jù)正常網(wǎng)頁特征分布與垃圾網(wǎng)頁特征分布的不同,提出了用分布函數(shù)擬合正常網(wǎng)頁特征分布,并計算正常網(wǎng)頁和垃圾網(wǎng)頁比例與分布函數(shù)的差值,以差值為閾值使用C4.5決策樹對垃圾網(wǎng)頁進行檢測。實驗結(jié)果表明,該方法能夠有效地減少被錯誤分類的正常網(wǎng)頁,提高準確率。
[Abstract]:In order to detect garbage pages effectively, by analyzing the distribution of page content features and link features, it is found that the distribution of normal page features is regular and the distribution of garbage page features is scattered. According to the difference between the normal web page feature distribution and the garbage page feature distribution, the distribution function is proposed to fit the normal page feature distribution, and the difference between the normal web page and the garbage page proportion and the distribution function is calculated. Using the C4.5 decision tree as the threshold value, the garbage pages are detected. The experimental results show that the proposed method can effectively reduce the number of normal web pages classified by errors and improve the accuracy.
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;山東省分布式計算機軟件新技術(shù)重點實驗室;
【基金】:國家自然科學(xué)基金項目(61170145) 教育部高等學(xué)校博士點專項基金項目(20113704110001) 山東省自然科學(xué)基金和科技攻關(guān)計劃基金項目(ZR2010FM021、2008B0026、2010G0020115)
【分類號】:TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 賈志洋;崔博文;王勇剛;石宜金;;搜索引擎垃圾網(wǎng)頁技術(shù)分析[J];情報探索;2011年07期
2 段宇峰;網(wǎng)站特征的定量研究(一)——對大學(xué)網(wǎng)站鏈接特征的探討[J];情報理論與實踐;2005年01期
3 歐德寧;馬軍;;基于內(nèi)含鏈接特征分析的垃圾郵件過濾技術(shù)[J];鄭州大學(xué)學(xué)報(理學(xué)版);2009年02期
4 蔣濤;張彬;;一種反Web Spam頁面的方法[J];微型電腦應(yīng)用;2007年04期
5 蔣濤;張彬;;一種反Web Spam頁面的方法[J];計算機與數(shù)字工程;2007年11期
6 張曉宇;吳向前;張平洋;;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁過濾方法的研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年01期
7 張付志;石占偉;郭學(xué)敏;;一種抗擊鏈接垃圾頁面的PageRank改進算法[J];信息安全與通信保密;2009年08期
8 沈陽;;一種網(wǎng)頁自動保存和鏈接推薦方法[J];微計算機信息;2007年06期
9 程光;龔儉;丁偉;;大規(guī);ヂ(lián)網(wǎng)活動IP流分布研究[J];計算機科學(xué);2003年04期
10 林俊武;張建中;;基于端到端數(shù)據(jù)的矩的網(wǎng)絡(luò)時延估計算法[J];計算機工程;2011年10期
相關(guān)會議論文 前2條
1 李毅;顧健;;反垃圾郵件產(chǎn)品檢測技術(shù)研究及檢測工具開發(fā)[A];第二十次全國計算機安全學(xué)術(shù)交流會論文集[C];2005年
2 劉瑋;廖祥文;許洪波;;基于內(nèi)容特征的垃圾博客過濾[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
相關(guān)重要報紙文章 前3條
1 本報記者 朱杰;統(tǒng)一應(yīng)用識別引擎提升UTM性能[N];中國計算機報;2009年
2 ;構(gòu)筑校園反垃圾郵件防線[N];中國計算機報;2004年
3 億中郵信息技術(shù)有限公司 市場部經(jīng)理 馬志杰;將垃圾郵件拒之門外[N];中國電腦教育報;2004年
相關(guān)博士學(xué)位論文 前4條
1 郭振濱;互聯(lián)網(wǎng)測量與建模研究[D];北京交通大學(xué);2012年
2 李東方;Web 2.0環(huán)境下互聯(lián)網(wǎng)信息過濾理論與方法研究[D];中國科學(xué)技術(shù)大學(xué);2009年
3 姜志宏;大規(guī)模P2PTV系統(tǒng)測量與建模研究[D];國防科學(xué)技術(shù)大學(xué);2011年
4 史偉;基于復(fù)雜網(wǎng)絡(luò)的拓撲與信息傳輸問題研究[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 李e,
本文編號:1859849
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1859849.html