天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于頁(yè)面結(jié)構(gòu)的作弊站點(diǎn)識(shí)別

發(fā)布時(shí)間:2017-09-08 03:04

  本文關(guān)鍵詞:基于頁(yè)面結(jié)構(gòu)的作弊站點(diǎn)識(shí)別


  更多相關(guān)文章: 網(wǎng)頁(yè)作弊 模板 同質(zhì)聚類 用戶行為 決策樹


【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)爆炸式的增長(zhǎng),搜索引擎成為用戶獲取信息的主要途徑。能否在搜索引擎的排名中占有比較靠前的位置,將在一定程度上決定網(wǎng)頁(yè)的訪問量。一些網(wǎng)站為了提高自己在搜索引擎中的排名,并不是通過(guò)提高網(wǎng)頁(yè)質(zhì)量,而是根據(jù)搜索引擎自身的特點(diǎn),采用欺騙手段來(lái)提高排名,這就是網(wǎng)頁(yè)作弊。網(wǎng)頁(yè)作弊技術(shù)具有多樣性、隱蔽性、進(jìn)化性等特點(diǎn),是搜索引擎面臨的重大挑戰(zhàn)之一。在網(wǎng)頁(yè)作弊中,一種極具代表性的作弊方式是利用相同頁(yè)面模板結(jié)構(gòu),通過(guò)填充不同的作弊內(nèi)容,產(chǎn)生眾多外觀相似的作弊站。由于模板統(tǒng)一,可以統(tǒng)一管理,降低成本,該作弊方式被廣泛使用。這類垃圾的特點(diǎn)是它們的網(wǎng)頁(yè)視覺結(jié)構(gòu)特征完全相同,一般由同一站長(zhǎng)制作,常常伴隨著附件作弊、夾雜、關(guān)鍵詞堆砌等作弊手段。目前,檢測(cè)此類作弊手段的主要方法是基于網(wǎng)頁(yè)內(nèi)容信息,判斷網(wǎng)頁(yè)中是否含有色情詞或者賭博詞,是否含有堆砌關(guān)鍵詞等。這種方式存在以下兩個(gè)問題:1.準(zhǔn)確率低。色情賭博網(wǎng)頁(yè)并不都是垃圾作弊網(wǎng)頁(yè),僅識(shí)別色情賭博會(huì)將色情賭博好站誤判為垃圾頁(yè)面。2.效率低下。同模板下的作弊頁(yè)面數(shù)以百計(jì),單純的識(shí)別每條網(wǎng)頁(yè)會(huì)使得工作量較大,重復(fù)性工作較多。為了批量解決此類垃圾,本文首先分析了瀏覽器渲染網(wǎng)頁(yè)的過(guò)程和網(wǎng)頁(yè)的HTML結(jié)構(gòu),提出了兩種模板的定義方式,分別為結(jié)構(gòu)為主的模板(DBT:Dom Biased Template)和樣式為主的模板(CBT:Css Based Template);趦煞N的模板定義方式分別設(shè)計(jì)了模板抽取算法,抽取出站點(diǎn)的模板結(jié)構(gòu)作為站點(diǎn)的指紋特征。并以準(zhǔn)確率和召回率作為評(píng)測(cè)指標(biāo),驗(yàn)證了兩種模板定義方式的有效性。通過(guò)對(duì)兩種模板抽取算法的性能比較發(fā)現(xiàn),DBT在召回率上比CBT更高,而CBT在準(zhǔn)確率上優(yōu)于DBT。然后,本文采用了DBT算法來(lái)計(jì)算模板的指紋特征。為了識(shí)別出作弊模板站點(diǎn),首先根據(jù)每個(gè)站點(diǎn)的模板指紋對(duì)不同站點(diǎn)做了同質(zhì)聚類,將含有相同的模板指紋的站點(diǎn)聚為一個(gè)模板簇。為了提高識(shí)別模板站點(diǎn)的準(zhǔn)確率,本文提出了基于用戶行為特征的優(yōu)質(zhì)頁(yè)面挖掘方法,提出了用戶訪問忠誠(chéng)度,訪問深度等用戶行為特征,利用歷史封禁數(shù)據(jù),以封禁率和誤封率兩個(gè)特征驗(yàn)證了用戶行為特征在識(shí)別優(yōu)質(zhì)頁(yè)面的效果。最后利用主題模型訓(xùn)練出了色情詞表和賭博詞表,定義了模板的色情率和游戲率特征,并使用決策樹分類算法識(shí)別出作弊模板。
【關(guān)鍵詞】:網(wǎng)頁(yè)作弊 模板 同質(zhì)聚類 用戶行為 決策樹
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
  • 摘要8-10
  • ABSTRACT10-12
  • 第1章 緒論12-15
  • 1.1 研究背景12-13
  • 1.2 本文研究的主要內(nèi)容及意義13-14
  • 1.3 本文的主要結(jié)構(gòu)14-15
  • 第2章 相關(guān)背景知識(shí)及問題描述15-27
  • 2.1 常見的搜索引擎排序算法15-17
  • 2.1.1 TF-IDF算法15-16
  • 2.1.2 PageRank算法16-17
  • 2.1.3 HITS算法17
  • 2.2 決策樹分類算法17-19
  • 2.3 搜索引擎作弊技術(shù)19-21
  • 2.4 搜索引擎反作弊現(xiàn)狀21-26
  • 2.4.1 基于內(nèi)容分析的作弊檢測(cè)21-22
  • 2.4.2 基于鏈接分析的作弊檢測(cè)22-24
  • 2.4.3 基于隱藏技術(shù)的作弊檢測(cè)24-25
  • 2.4.4 基于機(jī)器學(xué)習(xí)的作弊檢測(cè)25
  • 2.4.5 基于用戶行為分析的作弊檢測(cè)25-26
  • 2.5 本章小結(jié)26-27
  • 第3章 基于頁(yè)面結(jié)構(gòu)和樣式的模板定義27-37
  • 3.1 引言27
  • 3.2 基于結(jié)構(gòu)的模板定義(DBT:Dom Based Template)27-32
  • 3.2.1 相關(guān)定義28
  • 3.2.2 算法設(shè)計(jì)28-32
  • 3.3 基于樣式的模板定義(CBT:Css Based Template)32-34
  • 3.3.1 相關(guān)定義32-33
  • 3.3.2 算法設(shè)計(jì)33-34
  • 3.4 實(shí)驗(yàn)和結(jié)果34-36
  • 3.4.1 數(shù)據(jù)集和評(píng)測(cè)方法34-35
  • 3.4.2 實(shí)驗(yàn)結(jié)果35-36
  • 3.5 本章小結(jié)36-37
  • 第4章 基于頁(yè)面結(jié)構(gòu)的作弊模板識(shí)別37-51
  • 4.1 引言37
  • 4.2 DBT同質(zhì)聚類37-38
  • 4.3 基于用戶行為特征的優(yōu)質(zhì)頁(yè)面挖掘38-44
  • 4.3.1 搜索引擎訪問日志介紹39-40
  • 4.3.2 特征定義40-42
  • 4.3.3 實(shí)驗(yàn)及評(píng)測(cè)42-44
  • 4.4 基于決策樹學(xué)習(xí)的作弊模板識(shí)別44-47
  • 4.4.1 特征抽取44-47
  • 4.4.2 決策樹分類47
  • 4.5 實(shí)驗(yàn)結(jié)果47-51
  • 4.5.1 數(shù)據(jù)集的獲取47-48
  • 4.5.2 實(shí)驗(yàn)結(jié)果分析48-51
  • 第5章 總結(jié)與展望51-53
  • 5.1 本文完成的工作51
  • 5.2 下一步工作51-53
  • 參考文獻(xiàn)53-59
  • 致謝59-60
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄60-61
  • 攻讀學(xué)位期間參加的科研項(xiàng)目61-62
  • 學(xué)位論文評(píng)閩及答辯情況表62

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期

,

本文編號(hào):811499

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/811499.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶252f2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com