天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

基于擬合特征分布的垃圾網頁檢測方法

發(fā)布時間:2018-05-08 04:01

  本文選題:垃圾網頁 + 內容特征; 參考:《計算機工程與設計》2013年08期


【摘要】:為了有效地檢測垃圾網頁,通過分析網頁內容特征和鏈接特征的分布,發(fā)現正常網頁特征分布有規(guī)律而垃圾網頁特征分布散亂,根據正常網頁特征分布與垃圾網頁特征分布的不同,提出了用分布函數擬合正常網頁特征分布,并計算正常網頁和垃圾網頁比例與分布函數的差值,以差值為閾值使用C4.5決策樹對垃圾網頁進行檢測。實驗結果表明,該方法能夠有效地減少被錯誤分類的正常網頁,提高準確率。
[Abstract]:In order to detect garbage pages effectively, by analyzing the distribution of page content features and link features, it is found that the distribution of normal page features is regular and the distribution of garbage page features is scattered. According to the difference between the normal web page feature distribution and the garbage page feature distribution, the distribution function is proposed to fit the normal page feature distribution, and the difference between the normal web page and the garbage page proportion and the distribution function is calculated. Using the C4.5 decision tree as the threshold value, the garbage pages are detected. The experimental results show that the proposed method can effectively reduce the number of normal web pages classified by errors and improve the accuracy.
【作者單位】: 山東師范大學信息科學與工程學院;山東省分布式計算機軟件新技術重點實驗室;
【基金】:國家自然科學基金項目(61170145) 教育部高等學校博士點專項基金項目(20113704110001) 山東省自然科學基金和科技攻關計劃基金項目(ZR2010FM021、2008B0026、2010G0020115)
【分類號】:TP393.092

【相似文獻】

相關期刊論文 前10條

1 賈志洋;崔博文;王勇剛;石宜金;;搜索引擎垃圾網頁技術分析[J];情報探索;2011年07期

2 段宇峰;網站特征的定量研究(一)——對大學網站鏈接特征的探討[J];情報理論與實踐;2005年01期

3 歐德寧;馬軍;;基于內含鏈接特征分析的垃圾郵件過濾技術[J];鄭州大學學報(理學版);2009年02期

4 蔣濤;張彬;;一種反Web Spam頁面的方法[J];微型電腦應用;2007年04期

5 蔣濤;張彬;;一種反Web Spam頁面的方法[J];計算機與數字工程;2007年11期

6 張曉宇;吳向前;張平洋;;農業(yè)網站中垃圾網頁過濾方法的研究[J];網絡安全技術與應用;2011年01期

7 張付志;石占偉;郭學敏;;一種抗擊鏈接垃圾頁面的PageRank改進算法[J];信息安全與通信保密;2009年08期

8 沈陽;;一種網頁自動保存和鏈接推薦方法[J];微計算機信息;2007年06期

9 程光;龔儉;丁偉;;大規(guī);ヂ摼W活動IP流分布研究[J];計算機科學;2003年04期

10 林俊武;張建中;;基于端到端數據的矩的網絡時延估計算法[J];計算機工程;2011年10期

相關會議論文 前2條

1 李毅;顧健;;反垃圾郵件產品檢測技術研究及檢測工具開發(fā)[A];第二十次全國計算機安全學術交流會論文集[C];2005年

2 劉瑋;廖祥文;許洪波;;基于內容特征的垃圾博客過濾[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年

相關重要報紙文章 前3條

1 本報記者 朱杰;統(tǒng)一應用識別引擎提升UTM性能[N];中國計算機報;2009年

2 ;構筑校園反垃圾郵件防線[N];中國計算機報;2004年

3 億中郵信息技術有限公司 市場部經理 馬志杰;將垃圾郵件拒之門外[N];中國電腦教育報;2004年

相關博士學位論文 前4條

1 郭振濱;互聯網測量與建模研究[D];北京交通大學;2012年

2 李東方;Web 2.0環(huán)境下互聯網信息過濾理論與方法研究[D];中國科學技術大學;2009年

3 姜志宏;大規(guī)模P2PTV系統(tǒng)測量與建模研究[D];國防科學技術大學;2011年

4 史偉;基于復雜網絡的拓撲與信息傳輸問題研究[D];天津大學;2010年

相關碩士學位論文 前10條

1 李e,

本文編號:1859849


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1859849.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e7c4c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com