集成PCA降維與分類算法的垃圾網(wǎng)頁檢測
發(fā)布時間:2017-09-17 08:18
本文關(guān)鍵詞:集成PCA降維與分類算法的垃圾網(wǎng)頁檢測
更多相關(guān)文章: 垃圾網(wǎng)頁 垃圾網(wǎng)頁檢測 主成分分析 AdaBoost 支持向量機
【摘要】:針對垃圾網(wǎng)頁的內(nèi)容特征和鏈接特征,設計一種集成主成分分析PCA(Principal Component Analysis)與支持向量機分類算法的垃圾網(wǎng)頁檢測方法。該方法使用PCA來提取網(wǎng)頁樣本特征的主成分,使用主成分特征訓練支持向量機(SVM)分類器。訓練過程引入AdaBoost以提高分類器的性能。此外,采用聚類算法處理訓練和測試數(shù)據(jù)集,解決了樣本不均衡問題。通過在WebSpamUK2007數(shù)據(jù)集上進行多組對比實驗,結(jié)果表明,所設計的垃圾網(wǎng)頁檢測方案具有最高的檢測率(0.851)。
【作者單位】: 西南交通大學信息科學與技術(shù)學院;
【關(guān)鍵詞】: 垃圾網(wǎng)頁 垃圾網(wǎng)頁檢測 主成分分析 AdaBoost 支持向量機
【基金】:中央高校基本科研業(yè)務費專項基金項目(SWJTU11ZT08)
【分類號】:TP393.092;TP18
【正文快照】: 0引言相關(guān)研究顯示,人們通常只對搜索引擎返回的前幾頁內(nèi)容感興趣[1]。所以對于網(wǎng)站而言,提升自己在搜索引擎結(jié)果中的排名有助于吸引更多的潛在客戶,從而獲取更多利益;诖四康,網(wǎng)絡上出現(xiàn)了大量的通過各種作弊手段來欺騙搜索引擎,提高自己排名的作弊網(wǎng)頁,稱為Web Spam[2]
【相似文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 邱齊輝;基于決策樹和貝葉斯算法的垃圾網(wǎng)頁檢測的研究和實現(xiàn)[D];北京工業(yè)大學;2012年
,本文編號:868305
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/868305.html
最近更新
教材專著