主題相似度與鏈接權(quán)重相結(jié)合的垃圾網(wǎng)頁(yè)排序檢測(cè)
發(fā)布時(shí)間:2017-11-04 19:19
本文關(guān)鍵詞:主題相似度與鏈接權(quán)重相結(jié)合的垃圾網(wǎng)頁(yè)排序檢測(cè)
更多相關(guān)文章: 垃圾網(wǎng)頁(yè)檢測(cè) 鏈接作弊 排序算法 主題相似度 非信任值傳播
【摘要】:針對(duì)因Web中存在由正常網(wǎng)頁(yè)指向垃圾網(wǎng)頁(yè)的鏈接,導(dǎo)致排序算法(Anti-TrustRank等)檢測(cè)性能降低的問(wèn)題,提出了一種主題相似度和鏈接權(quán)重相結(jié)合,共同調(diào)節(jié)網(wǎng)頁(yè)非信任值傳播的排序算法,即主題鏈接非信任排序(TLDR)。首先,運(yùn)用隱含狄利克雷分配(LDA)模型得到所有網(wǎng)頁(yè)的主題分布,并計(jì)算相互鏈接網(wǎng)頁(yè)間的主題相似度;其次,根據(jù)Web圖計(jì)算鏈接權(quán)重,并與主題相似度結(jié)合,得到主題鏈接權(quán)重矩陣;然后,利用主題鏈接權(quán)重調(diào)節(jié)非信任值傳播,改進(jìn)Anti-TrustRank和加權(quán)非信任值排序(WATR)算法,使網(wǎng)頁(yè)得到更合理的非信任值;最后,將所有網(wǎng)頁(yè)的非信任值進(jìn)行排序,通過(guò)劃分閾值檢測(cè)出垃圾網(wǎng)頁(yè)。在數(shù)據(jù)集WEBSPAM-UK2007上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,與Anti-TrustRank和WATR相比,TLDR的Spam Factor分別提高了45%和23.7%,F1-measure(閾值取600)分別提高了3.4個(gè)百分點(diǎn)和0.5個(gè)百分點(diǎn),spam比例(前三個(gè)桶)分別提高了15個(gè)百分點(diǎn)和10個(gè)百分點(diǎn)。因此,主題與鏈接權(quán)重相結(jié)合的TLDR算法能有效提高垃圾網(wǎng)頁(yè)檢測(cè)性能。
【作者單位】: 西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【基金】:四川省學(xué)術(shù)和技術(shù)帶頭人培養(yǎng)資助項(xiàng)目~~
【分類號(hào)】:TP393.092
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息數(shù)據(jù)不斷膨脹。搜索引擎已成為人們獲取信息的重要途徑。然而,網(wǎng)頁(yè)作弊者利用各種手段欺騙搜索引擎以獲得高于其應(yīng)得的排名,從而獲取商業(yè)利益,這種行為稱為Web spam。研究發(fā)現(xiàn),2011年垃圾網(wǎng)頁(yè)比例已達(dá)到20%[1]。隨著Web 2.0的發(fā)展,用戶能方,
本文編號(hào):1140763
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1140763.html
最近更新
教材專著