主題相似度與鏈接權(quán)重相結(jié)合的垃圾網(wǎng)頁排序檢測
發(fā)布時間:2017-11-04 19:19
本文關(guān)鍵詞:主題相似度與鏈接權(quán)重相結(jié)合的垃圾網(wǎng)頁排序檢測
更多相關(guān)文章: 垃圾網(wǎng)頁檢測 鏈接作弊 排序算法 主題相似度 非信任值傳播
【摘要】:針對因Web中存在由正常網(wǎng)頁指向垃圾網(wǎng)頁的鏈接,導致排序算法(Anti-TrustRank等)檢測性能降低的問題,提出了一種主題相似度和鏈接權(quán)重相結(jié)合,共同調(diào)節(jié)網(wǎng)頁非信任值傳播的排序算法,即主題鏈接非信任排序(TLDR)。首先,運用隱含狄利克雷分配(LDA)模型得到所有網(wǎng)頁的主題分布,并計算相互鏈接網(wǎng)頁間的主題相似度;其次,根據(jù)Web圖計算鏈接權(quán)重,并與主題相似度結(jié)合,得到主題鏈接權(quán)重矩陣;然后,利用主題鏈接權(quán)重調(diào)節(jié)非信任值傳播,改進Anti-TrustRank和加權(quán)非信任值排序(WATR)算法,使網(wǎng)頁得到更合理的非信任值;最后,將所有網(wǎng)頁的非信任值進行排序,通過劃分閾值檢測出垃圾網(wǎng)頁。在數(shù)據(jù)集WEBSPAM-UK2007上進行的實驗結(jié)果表明,與Anti-TrustRank和WATR相比,TLDR的Spam Factor分別提高了45%和23.7%,F1-measure(閾值取600)分別提高了3.4個百分點和0.5個百分點,spam比例(前三個桶)分別提高了15個百分點和10個百分點。因此,主題與鏈接權(quán)重相結(jié)合的TLDR算法能有效提高垃圾網(wǎng)頁檢測性能。
【作者單位】: 西南交通大學信息科學與技術(shù)學院;
【基金】:四川省學術(shù)和技術(shù)帶頭人培養(yǎng)資助項目~~
【分類號】:TP393.092
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡信息數(shù)據(jù)不斷膨脹。搜索引擎已成為人們獲取信息的重要途徑。然而,網(wǎng)頁作弊者利用各種手段欺騙搜索引擎以獲得高于其應得的排名,從而獲取商業(yè)利益,這種行為稱為Web spam。研究發(fā)現(xiàn),2011年垃圾網(wǎng)頁比例已達到20%[1]。隨著Web 2.0的發(fā)展,用戶能方,
本文編號:1140763
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1140763.html
最近更新
教材專著