搜索引擎排序作弊的識(shí)別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析
發(fā)布時(shí)間:2021-03-21 06:03
搜索引擎排序作弊通過(guò)提高網(wǎng)頁(yè)與搜索請(qǐng)求的相關(guān)性,達(dá)到提高搜索排名的目的.為此,根據(jù)作弊網(wǎng)頁(yè)的特征,引入作弊傾向系數(shù)這一概念來(lái)衡量網(wǎng)頁(yè)作弊的可能性.網(wǎng)頁(yè)作弊通過(guò)多種手段實(shí)現(xiàn),鑒于此本文基于網(wǎng)頁(yè)內(nèi)容本身的名詞密度特征,衡量頁(yè)面內(nèi)容作弊的可能性,由于搜索關(guān)鍵詞大部分為名詞,超過(guò)一定名詞比例閾值的頁(yè)面,其內(nèi)容作弊的可能性越大.根據(jù)頁(yè)面的鏈接特征,衡量頁(yè)面鏈接作弊的可能性,從黑名單頁(yè)面通過(guò)迭代計(jì)算鏈接作弊系數(shù),并根據(jù)與黑名單頁(yè)面的距離設(shè)置權(quán)重.最終從上述兩方面特征來(lái)綜合考量頁(yè)面的作弊傾向系數(shù).選取PageRank,TrustRank,BadRank為基線實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了關(guān)于檢索詞性分析的假設(shè)以及鏈接作弊檢測(cè)算法的有效性.
【文章來(lái)源】:系統(tǒng)工程理論與實(shí)踐. 2015,35(02)北大核心CSSCIEICSCD
【文章頁(yè)數(shù)】:13 頁(yè)
【部分圖文】:
圖2某網(wǎng)絡(luò)結(jié)構(gòu)圖??給定網(wǎng)絡(luò)圖G=〈P,?L>,頁(yè)面p?e?頁(yè)面p的鏈接作弊傾向系數(shù)可由公式(2)計(jì)算.??
第2期?王洪偉,等:搜索引擎排序作弊的識(shí)別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析?453??xlO5??16.?1?1?1?1?1?1?1?1?1???14?-??12?-?-??10?-?-??_?I??^?8?"I????4?-?■?....????????■?■? ̄??2?-?V^.?-??°0?10?20?30?40?50?60?70?80?90?100??句法類型??圖3高頻句法類型折線圖??根據(jù)表4,3個(gè)詞以內(nèi)的純名詞組合壟斷了三甲,而排名5個(gè)詞以內(nèi)的純名詞組合出現(xiàn)頻率至少是前45??名,占高頻句法組合的44.51%;而排名前100的句法類型中,包含名詞的則有79種,共計(jì)5148401個(gè)查詢,??占到高頻詞性標(biāo)注結(jié)果中的81.24%,由此可以推斷名詞是搜索引擎查詢中使用最廣泛的關(guān)鍵詞,驗(yàn)證了本文??的假設(shè).??3.2基于鏈接作弊傾向的反作弊試驗(yàn)??采用C++對(duì)本文算法以及相關(guān)的排序算法編程實(shí)現(xiàn),數(shù)據(jù)處理過(guò)程在SQL?Server?2005中進(jìn)行.由于??素材中無(wú)法包含相應(yīng)的網(wǎng)頁(yè)內(nèi)容,將公式(6)的網(wǎng)頁(yè)作弊傾向系數(shù)完全由鏈接作弊傾向系數(shù)決定,即內(nèi)容作??弊傾向系數(shù)為0,而基本的排名算法采用經(jīng)典的PageRank算法.??實(shí)驗(yàn)素材來(lái)自搜狗實(shí)驗(yàn)室,共包含3537379個(gè)網(wǎng)頁(yè)8456740條鏈接.以網(wǎng)站為研究對(duì)象,對(duì)網(wǎng)頁(yè)預(yù)處理.??去除網(wǎng)站的自反鏈接以及重復(fù)鏈接.同時(shí),去掉沒(méi)有鏈出鏈接的網(wǎng)站,因?yàn)檫@類網(wǎng)站對(duì)PageRank算法是無(wú)??效的.最后,得到6031個(gè)網(wǎng)站,以及相互間的27994條鏈接.然而,上述6031個(gè)網(wǎng)站中,有3888?jìng)(gè)網(wǎng)站只??有鏈
的排名進(jìn)行對(duì)比,通過(guò)公式(10),測(cè)試新算法的反作弊性能.??Srank(叫-y->m ̄丑(五.)—?(10)??其中,m表示排名次序,以200為單位,得到10個(gè)區(qū)間.分子表示原排名位于前m的種子頁(yè)面中,經(jīng)過(guò)新算??法處理后的排名之和;分母代表排名前m的種子頁(yè)面,在PageRank算法(如果與其他算法對(duì)比,則使用其??他算法的排名)中的排名之和.當(dāng)Srank(m>0時(shí),說(shuō)明新算法對(duì)舊算法有反作弊性能提升,反之則沒(méi)有.??令阻尼系數(shù)d?=?0.85,調(diào)整a的不同取值,觀察反作弊效果.由圖4可知,在a的不同取值下,新算法較??PageRank算法的反作弊性能均有提升.當(dāng)a?=?0時(shí).公式(5)的懲罰因子由作弊頁(yè)面的關(guān)聯(lián)度決定,因此針??對(duì)作弊相關(guān)頁(yè)面的懲罰力度較a的其它取值更大:當(dāng)a?=?1時(shí),懲罰因子則由作弊傾向系數(shù)決定,此時(shí)針對(duì)??全局的懲罰力度較強(qiáng),并不針對(duì)直接將鏈接指向作弊頁(yè)面的網(wǎng)頁(yè),同時(shí)將鏈接指向這種頁(yè)面的頁(yè)面也會(huì)受到??一定的連帶懲罰;當(dāng)a?=?0.5時(shí),則綜合考慮了兩方面因子,并且這兩方面因子在懲罰因子中的權(quán)重一樣,所??以其針對(duì)種子頁(yè)面的反作弊表現(xiàn)介于a?=?0與a?=?1之間.??3?I?I?I?I?I?I?I?1???□??=0??0?S? ̄^ ̄?=0.25??“????木?a=0.5?‘?_??/?—^ ̄?=0.75??2?_?/?^―———it??=i?■??0??1?1?1?1?1?1?I?I?I??200?400?600?800?1000?1200?1400?1600?1800?2000??m??圖4新算法與PageRank算法的對(duì)
【參考文獻(xiàn)】:
期刊論文
[1]上下文對(duì)用戶搜索行為的影響[J]. 何秀,牛之賢,孫靜宇. 情報(bào)雜志. 2012(10)
[2]元搜索引擎中排序融合算法的優(yōu)化研究[J]. 董樂(lè),謝紅薇. 計(jì)算機(jī)應(yīng)用與軟件. 2012(10)
[3]一種抵抗鏈接作弊的PageRank改進(jìn)算法[J]. 賀志明,王麗宏,張剛,程學(xué)旗. 中文信息學(xué)報(bào). 2012(05)
[4]基于網(wǎng)站影響力的網(wǎng)頁(yè)排序算法[J]. 張芳,郭常盈. 計(jì)算機(jī)應(yīng)用. 2012(06)
[5]基于JavaScript的網(wǎng)頁(yè)重定向作弊技術(shù)研究[J]. 王暾. 計(jì)算機(jī)與數(shù)字工程. 2012(03)
[6]搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)模型研究[J]. 賈志洋,夏幼明,高煒,王勇剛. 重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版). 2011(05)
[7]反搜索引擎作弊的相關(guān)探討[J]. 李俊. 網(wǎng)絡(luò)與信息. 2011(01)
[8]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
[9]搜索引擎應(yīng)對(duì)網(wǎng)站作弊的搜索策略和用戶的檢索策略[J]. 劉俊熙. 現(xiàn)代情報(bào). 2007(06)
本文編號(hào):3092463
【文章來(lái)源】:系統(tǒng)工程理論與實(shí)踐. 2015,35(02)北大核心CSSCIEICSCD
【文章頁(yè)數(shù)】:13 頁(yè)
【部分圖文】:
圖2某網(wǎng)絡(luò)結(jié)構(gòu)圖??給定網(wǎng)絡(luò)圖G=〈P,?L>,頁(yè)面p?e?頁(yè)面p的鏈接作弊傾向系數(shù)可由公式(2)計(jì)算.??
第2期?王洪偉,等:搜索引擎排序作弊的識(shí)別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析?453??xlO5??16.?1?1?1?1?1?1?1?1?1???14?-??12?-?-??10?-?-??_?I??^?8?"I????4?-?■?....????????■?■? ̄??2?-?V^.?-??°0?10?20?30?40?50?60?70?80?90?100??句法類型??圖3高頻句法類型折線圖??根據(jù)表4,3個(gè)詞以內(nèi)的純名詞組合壟斷了三甲,而排名5個(gè)詞以內(nèi)的純名詞組合出現(xiàn)頻率至少是前45??名,占高頻句法組合的44.51%;而排名前100的句法類型中,包含名詞的則有79種,共計(jì)5148401個(gè)查詢,??占到高頻詞性標(biāo)注結(jié)果中的81.24%,由此可以推斷名詞是搜索引擎查詢中使用最廣泛的關(guān)鍵詞,驗(yàn)證了本文??的假設(shè).??3.2基于鏈接作弊傾向的反作弊試驗(yàn)??采用C++對(duì)本文算法以及相關(guān)的排序算法編程實(shí)現(xiàn),數(shù)據(jù)處理過(guò)程在SQL?Server?2005中進(jìn)行.由于??素材中無(wú)法包含相應(yīng)的網(wǎng)頁(yè)內(nèi)容,將公式(6)的網(wǎng)頁(yè)作弊傾向系數(shù)完全由鏈接作弊傾向系數(shù)決定,即內(nèi)容作??弊傾向系數(shù)為0,而基本的排名算法采用經(jīng)典的PageRank算法.??實(shí)驗(yàn)素材來(lái)自搜狗實(shí)驗(yàn)室,共包含3537379個(gè)網(wǎng)頁(yè)8456740條鏈接.以網(wǎng)站為研究對(duì)象,對(duì)網(wǎng)頁(yè)預(yù)處理.??去除網(wǎng)站的自反鏈接以及重復(fù)鏈接.同時(shí),去掉沒(méi)有鏈出鏈接的網(wǎng)站,因?yàn)檫@類網(wǎng)站對(duì)PageRank算法是無(wú)??效的.最后,得到6031個(gè)網(wǎng)站,以及相互間的27994條鏈接.然而,上述6031個(gè)網(wǎng)站中,有3888?jìng)(gè)網(wǎng)站只??有鏈
的排名進(jìn)行對(duì)比,通過(guò)公式(10),測(cè)試新算法的反作弊性能.??Srank(叫-y->m ̄丑(五.)—?(10)??其中,m表示排名次序,以200為單位,得到10個(gè)區(qū)間.分子表示原排名位于前m的種子頁(yè)面中,經(jīng)過(guò)新算??法處理后的排名之和;分母代表排名前m的種子頁(yè)面,在PageRank算法(如果與其他算法對(duì)比,則使用其??他算法的排名)中的排名之和.當(dāng)Srank(m>0時(shí),說(shuō)明新算法對(duì)舊算法有反作弊性能提升,反之則沒(méi)有.??令阻尼系數(shù)d?=?0.85,調(diào)整a的不同取值,觀察反作弊效果.由圖4可知,在a的不同取值下,新算法較??PageRank算法的反作弊性能均有提升.當(dāng)a?=?0時(shí).公式(5)的懲罰因子由作弊頁(yè)面的關(guān)聯(lián)度決定,因此針??對(duì)作弊相關(guān)頁(yè)面的懲罰力度較a的其它取值更大:當(dāng)a?=?1時(shí),懲罰因子則由作弊傾向系數(shù)決定,此時(shí)針對(duì)??全局的懲罰力度較強(qiáng),并不針對(duì)直接將鏈接指向作弊頁(yè)面的網(wǎng)頁(yè),同時(shí)將鏈接指向這種頁(yè)面的頁(yè)面也會(huì)受到??一定的連帶懲罰;當(dāng)a?=?0.5時(shí),則綜合考慮了兩方面因子,并且這兩方面因子在懲罰因子中的權(quán)重一樣,所??以其針對(duì)種子頁(yè)面的反作弊表現(xiàn)介于a?=?0與a?=?1之間.??3?I?I?I?I?I?I?I?1???□??=0??0?S? ̄^ ̄?=0.25??“????木?a=0.5?‘?_??/?—^ ̄?=0.75??2?_?/?^―———it??=i?■??0??1?1?1?1?1?1?I?I?I??200?400?600?800?1000?1200?1400?1600?1800?2000??m??圖4新算法與PageRank算法的對(duì)
【參考文獻(xiàn)】:
期刊論文
[1]上下文對(duì)用戶搜索行為的影響[J]. 何秀,牛之賢,孫靜宇. 情報(bào)雜志. 2012(10)
[2]元搜索引擎中排序融合算法的優(yōu)化研究[J]. 董樂(lè),謝紅薇. 計(jì)算機(jī)應(yīng)用與軟件. 2012(10)
[3]一種抵抗鏈接作弊的PageRank改進(jìn)算法[J]. 賀志明,王麗宏,張剛,程學(xué)旗. 中文信息學(xué)報(bào). 2012(05)
[4]基于網(wǎng)站影響力的網(wǎng)頁(yè)排序算法[J]. 張芳,郭常盈. 計(jì)算機(jī)應(yīng)用. 2012(06)
[5]基于JavaScript的網(wǎng)頁(yè)重定向作弊技術(shù)研究[J]. 王暾. 計(jì)算機(jī)與數(shù)字工程. 2012(03)
[6]搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)模型研究[J]. 賈志洋,夏幼明,高煒,王勇剛. 重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版). 2011(05)
[7]反搜索引擎作弊的相關(guān)探討[J]. 李俊. 網(wǎng)絡(luò)與信息. 2011(01)
[8]PageRank算法的分析及其改進(jìn)[J]. 王德廣,周志剛,梁旭. 計(jì)算機(jī)工程. 2010(22)
[9]搜索引擎應(yīng)對(duì)網(wǎng)站作弊的搜索策略和用戶的檢索策略[J]. 劉俊熙. 現(xiàn)代情報(bào). 2007(06)
本文編號(hào):3092463
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3092463.html
最近更新
教材專著