基于多視圖典型相關分析的垃圾網頁檢測
發(fā)布時間:2018-10-12 14:49
【摘要】:首先將垃圾網頁特征分為兩個不同的視圖,即基于內容特征的視圖和基于鏈接特征的視圖,利用典型相關分析及其相關改進方法進行特征提取,生成兩組新的特征;再對新生成的兩視圖特征采用不同組合方式產生單視圖數據,并用這組數據作為訓練數據構建分類算法。實驗結果表明,將垃圾網頁看成兩視圖數據,并應用多視圖典型相關分析技術,可有效提高垃圾網頁的識別精度。
[Abstract]:Firstly, the features of spam pages are divided into two different views, one is based on content feature and the other is based on link feature, and then the feature extraction is done by using canonical correlation analysis and its improved method to generate two new sets of features. Then, the new two view features are combined to generate single view data, and the classification algorithm is constructed by using this set of data as training data. The experimental results show that the identification accuracy of garbage pages can be effectively improved by using multi-view canonical correlation analysis technology and considering garbage pages as two-view data.
【作者單位】: 山東師范大學信息科學與工程學院;山東省分布式計算機軟件新技術重點實驗室;
【基金】:國家自然科學基金資助項目(61170145) 國家教育部高等學校博士點專項基金資助項目(20113704110001) 山東省自然科學基金和科技攻關計劃資助項目(ZR2010FM021,2008B0026,2010G0020115)
【分類號】:TP393.092
本文編號:2266533
[Abstract]:Firstly, the features of spam pages are divided into two different views, one is based on content feature and the other is based on link feature, and then the feature extraction is done by using canonical correlation analysis and its improved method to generate two new sets of features. Then, the new two view features are combined to generate single view data, and the classification algorithm is constructed by using this set of data as training data. The experimental results show that the identification accuracy of garbage pages can be effectively improved by using multi-view canonical correlation analysis technology and considering garbage pages as two-view data.
【作者單位】: 山東師范大學信息科學與工程學院;山東省分布式計算機軟件新技術重點實驗室;
【基金】:國家自然科學基金資助項目(61170145) 國家教育部高等學校博士點專項基金資助項目(20113704110001) 山東省自然科學基金和科技攻關計劃資助項目(ZR2010FM021,2008B0026,2010G0020115)
【分類號】:TP393.092
【參考文獻】
相關博士學位論文 前1條
1 孫廷凱;增強型典型相關分析研究與應用[D];南京航空航天大學;2006年
【二級參考文獻】
相關期刊論文 前4條
1 孫權森,曾生根,楊茂龍,王平安,夏德深;基于典型相關分析的組合特征抽取及臉像鑒別[J];計算機研究與發(fā)展;2005年04期
2 孫平,徐宗本,申建中;基于核化原理的非線性典型相關判別分析[J];計算機學報;2004年06期
3 孫權森,曾生根,王平安,夏德深;典型相關分析的理論及其在特征融合中的應用[J];計算機學報;2005年09期
4 徐興忠;多組變量的典型相關系數和典型相關變量[J];科學通報;1996年13期
【相似文獻】
相關碩士學位論文 前1條
1 邱齊輝;基于決策樹和貝葉斯算法的垃圾網頁檢測的研究和實現[D];北京工業(yè)大學;2012年
,本文編號:2266533
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2266533.html
最近更新
教材專著