隱藏頁面檢測系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2019-10-29 12:38
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及網(wǎng)絡(luò)信息資源的飛速增長,人們對于網(wǎng)絡(luò)的依賴性越來越強(qiáng),對網(wǎng)絡(luò)信息搜索的要求也愈來愈高,而搜索引擎成為了連接個(gè)人和網(wǎng)絡(luò)資源的一個(gè)不可或缺的渠道。很多網(wǎng)站使用黑帽SEO來提高網(wǎng)站在搜索引擎結(jié)果中的排名以增加用戶點(diǎn)擊率,其中較為常見的一種黑帽SEO技術(shù)就是頁面隱藏技術(shù)(Cloaking)。使用頁面隱藏技術(shù)的網(wǎng)站對搜索引擎?zhèn)窝b其真實(shí)內(nèi)容,當(dāng)爬蟲爬行到一個(gè)Web站點(diǎn)時(shí),該站點(diǎn)對它返回一個(gè)經(jīng)過定制了的頁面,即網(wǎng)站對爬蟲和普通用戶返回不同的內(nèi)容。 針對以往檢測方法中相似度檢測準(zhǔn)確度不高的缺點(diǎn),本文提出一種基于網(wǎng)頁三種特征的相似性檢測優(yōu)化算法,對網(wǎng)頁中的文本、標(biāo)簽和URL元素特征進(jìn)行提取,,并分別比較相似度,通過基于閾值的方法分級過濾高相似度的網(wǎng)頁,提高檢測的準(zhǔn)確度;更進(jìn)一步,本文通過模擬五種不同角色的方法爬取頁面,并利用提出的算法進(jìn)行比較,不但可以判斷是否隱藏,還可以識別具體隱藏頁面的類型。其中,利用模擬JavaScript腳本解析的方法識別以往研究中并未解決的JavaScript跳轉(zhuǎn)隱藏檢測。 圍繞以上方法,本文實(shí)現(xiàn)了一個(gè)隱藏頁面檢測原型系統(tǒng)。該系統(tǒng)通過偽裝爬蟲HTTP請求頭信息,調(diào)用內(nèi)置JavaScript引擎,抓取網(wǎng)頁緩存等方式獲取五個(gè)版本的頁面內(nèi)容,然后對其應(yīng)用本文提出的檢測算法,對隱藏頁面進(jìn)行判斷并識別。本文將該系統(tǒng)應(yīng)用于雅虎搜索引擎,抓取搜索結(jié)果中的10萬個(gè)URL進(jìn)行檢測,從中選取5000個(gè)作為樣本數(shù)據(jù)集,并對其中1000個(gè)URL進(jìn)行手動(dòng)標(biāo)記。本文采用了去重、白名單過濾、多線程等輔助方法對系統(tǒng)的時(shí)間性能進(jìn)行了優(yōu)化。通過對大量數(shù)據(jù)集的測試,本系統(tǒng)在算法準(zhǔn)確度、隱藏頁面的檢測和識別能力、時(shí)間開銷方面都取得較好的結(jié)果。特別地,系統(tǒng)目前可以判別User Agent隱藏、IP隱藏、Referrer隱藏和JavaScript隱藏。
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
本文編號:2553532
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
2 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁面分類[J];中文信息學(xué)報(bào);2009年02期
相關(guān)博士學(xué)位論文 前2條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
2 張健毅;大規(guī)模反釣魚識別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
本文編號:2553532
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2553532.html
最近更新
教材專著