基于鏈接相似度和作弊系數(shù)的Spam網(wǎng)頁識別算法
發(fā)布時間:2020-12-26 03:31
Spam網(wǎng)頁主要通過鏈接作弊手段達到提高搜索排名而獲利的目的,根據(jù)鏈接作弊的特征,引入鏈接相似度和作弊系數(shù)兩個指標(biāo)來判定網(wǎng)頁作弊的可能性。借鑒BadRank算法思想,從Spam網(wǎng)頁種子集合通過迭代計算鏈接相似度和作弊系數(shù),并根據(jù)與種子集合的鏈接指向關(guān)系設(shè)置權(quán)重,將待判定的網(wǎng)頁進行度量。最后選取Anti-Trust Rank等算法作對比實驗,結(jié)果驗證了本文算法在準(zhǔn)確率和適應(yīng)性方面優(yōu)于對比算法。
【文章來源】:計算機工程與科學(xué). 2015年10期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1鏈接結(jié)構(gòu)對比Figure1Linkstructurecontrast
意關(guān)聯(lián),互相關(guān)聯(lián)的Spam網(wǎng)頁之間的鏈接結(jié)構(gòu)也存在著比較高的相似性,它們既共同指向一些網(wǎng)頁,又被一些相同網(wǎng)頁引用;阪溄咏Y(jié)構(gòu),陳小飛等[15]提出了一種Spam網(wǎng)頁過濾算法,根據(jù)鏈接結(jié)構(gòu)的相似度(包含出鏈相似度和入鏈相似度),運用聚類降權(quán)的手段有效評估各鏈接的質(zhì)量,達到降低排序、過濾Spam網(wǎng)頁的效果。張勇實[16]對其提出了改進算法LSCB-SR,提高了Spam網(wǎng)頁識別率。Figure2Linkstructureofthespampages圖2Spam網(wǎng)頁之間的鏈接結(jié)構(gòu)如圖3所示,假設(shè)b1為Spam網(wǎng)頁,網(wǎng)頁ai(i∈{1,2,3,4})與b1有直接或間接的鏈接關(guān)系,其中a1和a2都有出鏈直接指向b1,則可以判定a1和a2具有較高的鏈接作弊傾向,因為它們幫助b1達到目的。但是,不能因為b1有出鏈直接指向a3而判定a3為Spam網(wǎng)頁,只能認(rèn)為或許存在一定的作弊可能性,因為a3無法阻止b1指向它。另外,b1有出鏈間接指向a4,對于a4的判定更缺乏依據(jù)。對此,王洪偉等[17]提出了鏈接作弊系數(shù)的方法來解決。它的基本思路是:借鑒BadRank算法思想,從Spam網(wǎng)頁開始,一個網(wǎng)頁如有外鏈指向可能存在作弊行為的網(wǎng)頁(鏈接作弊系數(shù)非零),則該網(wǎng)頁也將被認(rèn)為存在一定的鏈接作弊可能。通過一定次數(shù)的迭代,不僅僅局限于初始Spam網(wǎng)1984ComputerEngineering&Science計算機工程與科學(xué)2015,37(10)
偽造成正常網(wǎng)頁(鏈接的多樣性)的結(jié)構(gòu),以避開搜索引擎懲罰,所以對入鏈相似度還應(yīng)給予適當(dāng)?shù)臋?quán)重。4.2同類算法的準(zhǔn)確率對比為了驗證LSSR算法的有效性,實驗選擇與Anti-TrustRank算法、LSCB-SR算法在相同召回率下進行準(zhǔn)確率的比較,三種算法取部分的相同參數(shù),即:閾值Ti=0.3,Tp=0.25。此外,LSSR算法還設(shè)定λ=0.2以及d=0.85。三種算法在對應(yīng)召回率下通過調(diào)整各自不同閾值T的取值,取得準(zhǔn)確率的最大值,結(jié)果如圖4所示。Figure4Comparisonofaccuracyandrecallrateamongsimilaralgorithms圖4同類算法的準(zhǔn)確率/召回率對比實驗結(jié)果表明,在相同召回率下,LSSR算法的準(zhǔn)確率高于LSCB-SR算法與Anti-TrustRank算法。調(diào)整閾值T的取值越低,召回率越大,滿足條件的待判定節(jié)點越多(多數(shù)是間接指向Spam網(wǎng)頁的節(jié)點),節(jié)點范圍更廣,此時LSSR算法還能保持較高的準(zhǔn)確率,說明確實改進了式(5)中的衰減問題,所以它的適用性更好。5結(jié)束語本文為了提高Spam網(wǎng)頁的識別率,在已有算法和研究成果的基礎(chǔ)上,結(jié)合實際情況,對鏈接相似度算法和作弊系數(shù)算法提出了改進,并將兩種算法組合成全新的LSSR算法。對比實驗的結(jié)果表明,LSSR算法在擬實性、準(zhǔn)確率和適用性方面均有一定提升。下一步研究工作可向算法的識別效率進行改進,待判定網(wǎng)頁節(jié)點之間的層級(如首頁、欄目頁、內(nèi)容頁)屬性差異研究也可以用來改進識別算法。參考文獻:[1]HenzingerMR
【參考文獻】:
期刊論文
[1]搜索引擎排序作弊的識別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析[J]. 王洪偉,王偉,孟園. 系統(tǒng)工程理論與實踐. 2015(02)
博士論文
[1]基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D]. 張勇實.哈爾濱工程大學(xué) 2012
本文編號:2938952
【文章來源】:計算機工程與科學(xué). 2015年10期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1鏈接結(jié)構(gòu)對比Figure1Linkstructurecontrast
意關(guān)聯(lián),互相關(guān)聯(lián)的Spam網(wǎng)頁之間的鏈接結(jié)構(gòu)也存在著比較高的相似性,它們既共同指向一些網(wǎng)頁,又被一些相同網(wǎng)頁引用;阪溄咏Y(jié)構(gòu),陳小飛等[15]提出了一種Spam網(wǎng)頁過濾算法,根據(jù)鏈接結(jié)構(gòu)的相似度(包含出鏈相似度和入鏈相似度),運用聚類降權(quán)的手段有效評估各鏈接的質(zhì)量,達到降低排序、過濾Spam網(wǎng)頁的效果。張勇實[16]對其提出了改進算法LSCB-SR,提高了Spam網(wǎng)頁識別率。Figure2Linkstructureofthespampages圖2Spam網(wǎng)頁之間的鏈接結(jié)構(gòu)如圖3所示,假設(shè)b1為Spam網(wǎng)頁,網(wǎng)頁ai(i∈{1,2,3,4})與b1有直接或間接的鏈接關(guān)系,其中a1和a2都有出鏈直接指向b1,則可以判定a1和a2具有較高的鏈接作弊傾向,因為它們幫助b1達到目的。但是,不能因為b1有出鏈直接指向a3而判定a3為Spam網(wǎng)頁,只能認(rèn)為或許存在一定的作弊可能性,因為a3無法阻止b1指向它。另外,b1有出鏈間接指向a4,對于a4的判定更缺乏依據(jù)。對此,王洪偉等[17]提出了鏈接作弊系數(shù)的方法來解決。它的基本思路是:借鑒BadRank算法思想,從Spam網(wǎng)頁開始,一個網(wǎng)頁如有外鏈指向可能存在作弊行為的網(wǎng)頁(鏈接作弊系數(shù)非零),則該網(wǎng)頁也將被認(rèn)為存在一定的鏈接作弊可能。通過一定次數(shù)的迭代,不僅僅局限于初始Spam網(wǎng)1984ComputerEngineering&Science計算機工程與科學(xué)2015,37(10)
偽造成正常網(wǎng)頁(鏈接的多樣性)的結(jié)構(gòu),以避開搜索引擎懲罰,所以對入鏈相似度還應(yīng)給予適當(dāng)?shù)臋?quán)重。4.2同類算法的準(zhǔn)確率對比為了驗證LSSR算法的有效性,實驗選擇與Anti-TrustRank算法、LSCB-SR算法在相同召回率下進行準(zhǔn)確率的比較,三種算法取部分的相同參數(shù),即:閾值Ti=0.3,Tp=0.25。此外,LSSR算法還設(shè)定λ=0.2以及d=0.85。三種算法在對應(yīng)召回率下通過調(diào)整各自不同閾值T的取值,取得準(zhǔn)確率的最大值,結(jié)果如圖4所示。Figure4Comparisonofaccuracyandrecallrateamongsimilaralgorithms圖4同類算法的準(zhǔn)確率/召回率對比實驗結(jié)果表明,在相同召回率下,LSSR算法的準(zhǔn)確率高于LSCB-SR算法與Anti-TrustRank算法。調(diào)整閾值T的取值越低,召回率越大,滿足條件的待判定節(jié)點越多(多數(shù)是間接指向Spam網(wǎng)頁的節(jié)點),節(jié)點范圍更廣,此時LSSR算法還能保持較高的準(zhǔn)確率,說明確實改進了式(5)中的衰減問題,所以它的適用性更好。5結(jié)束語本文為了提高Spam網(wǎng)頁的識別率,在已有算法和研究成果的基礎(chǔ)上,結(jié)合實際情況,對鏈接相似度算法和作弊系數(shù)算法提出了改進,并將兩種算法組合成全新的LSSR算法。對比實驗的結(jié)果表明,LSSR算法在擬實性、準(zhǔn)確率和適用性方面均有一定提升。下一步研究工作可向算法的識別效率進行改進,待判定網(wǎng)頁節(jié)點之間的層級(如首頁、欄目頁、內(nèi)容頁)屬性差異研究也可以用來改進識別算法。參考文獻:[1]HenzingerMR
【參考文獻】:
期刊論文
[1]搜索引擎排序作弊的識別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析[J]. 王洪偉,王偉,孟園. 系統(tǒng)工程理論與實踐. 2015(02)
博士論文
[1]基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D]. 張勇實.哈爾濱工程大學(xué) 2012
本文編號:2938952
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2938952.html
最近更新
教材專著