隱藏頁面檢測系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2019-10-29 12:38

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及網(wǎng)絡(luò)信息資源的飛速增長，人們對(duì)于網(wǎng)絡(luò)的依賴性越來越強(qiáng)，對(duì)網(wǎng)絡(luò)信息搜索的要求也愈來愈高，而搜索引擎成為了連接個(gè)人和網(wǎng)絡(luò)資源的一個(gè)不可或缺的渠道。很多網(wǎng)站使用黑帽SEO來提高網(wǎng)站在搜索引擎結(jié)果中的排名以增加用戶點(diǎn)擊率，其中較為常見的一種黑帽SEO技術(shù)就是頁面隱藏技術(shù)（Cloaking）。使用頁面隱藏技術(shù)的網(wǎng)站對(duì)搜索引擎?zhèn)窝b其真實(shí)內(nèi)容，當(dāng)爬蟲爬行到一個(gè)Web站點(diǎn)時(shí)，該站點(diǎn)對(duì)它返回一個(gè)經(jīng)過定制了的頁面，即網(wǎng)站對(duì)爬蟲和普通用戶返回不同的內(nèi)容。針對(duì)以往檢測方法中相似度檢測準(zhǔn)確度不高的缺點(diǎn)，本文提出一種基于網(wǎng)頁三種特征的相似性檢測優(yōu)化算法，對(duì)網(wǎng)頁中的文本、標(biāo)簽和URL元素特征進(jìn)行提取，，并分別比較相似度，通過基于閾值的方法分級(jí)過濾高相似度的網(wǎng)頁，提高檢測的準(zhǔn)確度；更進(jìn)一步，本文通過模擬五種不同角色的方法爬取頁面，并利用提出的算法進(jìn)行比較，不但可以判斷是否隱藏，還可以識(shí)別具體隱藏頁面的類型。其中，利用模擬JavaScript腳本解析的方法識(shí)別以往研究中并未解決的JavaScript跳轉(zhuǎn)隱藏檢測。圍繞以上方法，本文實(shí)現(xiàn)了一個(gè)隱藏頁面檢測原型系統(tǒng)。該系統(tǒng)通過偽裝爬蟲HTTP請(qǐng)求頭信息，調(diào)用內(nèi)置JavaScript引擎，抓取網(wǎng)頁緩存等方式獲取五個(gè)版本的頁面內(nèi)容，然后對(duì)其應(yīng)用本文提出的檢測算法，對(duì)隱藏頁面進(jìn)行判斷并識(shí)別。本文將該系統(tǒng)應(yīng)用于雅虎搜索引擎，抓取搜索結(jié)果中的10萬個(gè)URL進(jìn)行檢測，從中選取5000個(gè)作為樣本數(shù)據(jù)集，并對(duì)其中1000個(gè)URL進(jìn)行手動(dòng)標(biāo)記。本文采用了去重、白名單過濾、多線程等輔助方法對(duì)系統(tǒng)的時(shí)間性能進(jìn)行了優(yōu)化。通過對(duì)大量數(shù)據(jù)集的測試，本系統(tǒng)在算法準(zhǔn)確度、隱藏頁面的檢測和識(shí)別能力、時(shí)間開銷方面都取得較好的結(jié)果。特別地，系統(tǒng)目前可以判別User Agent隱藏、IP隱藏、Referrer隱藏和JavaScript隱藏。
【學(xué)位授予單位】：湖南大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文前2條

1 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

2 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁面分類[J];中文信息學(xué)報(bào);2009年02期

相關(guān)博士學(xué)位論文前2條

1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

2 張健毅;大規(guī)模反釣魚識(shí)別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年

本文編號(hào)：2553532

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2553532.html

上一篇：e線圖情2010年度10大國際動(dòng)態(tài)
下一篇：事務(wù)類搜索意圖分類模型研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

隱藏頁面檢測系統(tǒng)的研究與實(shí)現(xiàn)