惡意爬蟲主動防御技術(shù)研究與實現(xiàn)
發(fā)布時間:2021-07-09 16:25
伴隨著大數(shù)據(jù)時代的不斷進(jìn)步,網(wǎng)絡(luò)爬蟲技術(shù)作為能夠自動化、持久化地與互聯(lián)網(wǎng)應(yīng)用進(jìn)行模擬交互的工具正迅猛發(fā)展。網(wǎng)絡(luò)爬蟲在帶來便利的同時也給網(wǎng)絡(luò)環(huán)境造成了諸多安全隱患。諸如批量惡意采集數(shù)據(jù);匹配采集各類社區(qū)敏感信息;非授權(quán)刷票、點(diǎn)評;基于網(wǎng)絡(luò)爬蟲變種的各類惡意攻擊等惡意行為,F(xiàn)有的網(wǎng)絡(luò)爬蟲防御機(jī)制主要是采用被動檢測和攔截技術(shù)進(jìn)行限制,起到了一定的防護(hù)效果,但是隨著人工智能技術(shù)的不斷迭代,驗證碼識別、仿人行為等技術(shù)的不斷精進(jìn)和變化給靜態(tài)的被動檢測增加了難度;另外由于IP地址的有限性,以IP地址作為檢測和封鎖的條件也存在巨大的缺陷。本文針對以上所面臨的問題并結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)的關(guān)鍵點(diǎn),提出了一種惡意爬蟲主動防御技術(shù)模型,通過動態(tài)化算法改變Web頁面固有的靜態(tài)特性,結(jié)合主動防御中的移動目標(biāo)防御的思想,來應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)爬蟲及其變種攻擊。本文針對惡意爬蟲防御主要做了以下工作:1、提出了一種Web頁面動態(tài)化算法。該算法采用動態(tài)加密算法和動態(tài)陷阱技術(shù)將Web頁面進(jìn)行自適應(yīng)地動態(tài)化跳變,從而高效地避免因靜態(tài)性、單一性和確定性造成的惡意爬蟲及其變種攻擊的自動化實施;2、提出一種基于瀏覽器指紋技術(shù)的訪問流量異...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1爬蟲等級和應(yīng)對方式??
.觸?1式進(jìn)行iR別限制—'*]人的行K繞過檢測???????通過KHTP?Header?Header信息??i無界面?』自動化工——?■參數(shù)進(jìn)行51M限制——令?容易偽裝??|?瀏覽器—?!?n*瀏覽一1??—::::::—:z=zrf????器內(nèi)核??u通過單丨p地址訪問?i?代理ip容s??利用搬器?—^1?⑥檢測..J??C智能K蟲)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白動_化工?*i進(jìn)行識稱限制?&過檢》??激歡器!??■具+滿覽-?...:????_±__I?器引-?i通過驗證碼?驗證碼g雜程度????1?.也隨截?’丨不砝控制??圖2-1爬蟲等級和應(yīng)對方式??圖2-2代碼所示,如果目標(biāo)內(nèi)容是搜狗微信站點(diǎn)上的所有頁面的新聞標(biāo)題,??里的匹配規(guī)則如圖2-3代碼所示,我們?yōu)榱宋ㄒ黄ヅ涑鰳?biāo)題(或者其他目標(biāo)內(nèi)??),需要編寫能夠唯一確定的正則表達(dá)式或者xpath路徑,并且需要保證所選的??配方式適用于期望的目標(biāo)所有頁面。通過離線觀察、分析以及嘗試,這里的class??值和id的值“rich_media_title”、“activity-name”,可以在單個HTML頁面中唯??確定我們想要的標(biāo)題,而且不會隨著時間動態(tài)改變,并適用于所有新聞頁面,??此我們可以編寫出穩(wěn)定持續(xù)的自動化獲取腳本代碼如上。??
.觸?1式進(jìn)行iR別限制—'*]人的行K繞過檢測???????通過KHTP?Header?Header信息??i無界面?』自動化工——?■參數(shù)進(jìn)行51M限制——令?容易偽裝??|?瀏覽器—?!?n*瀏覽一1??—::::::—:z=zrf????器內(nèi)核??u通過單丨p地址訪問?i?代理ip容s??利用搬器?—^1?⑥檢測..J??C智能K蟲)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白動_化工?*i進(jìn)行識稱限制?&過檢》??激歡器!??■具+滿覽-?...:????_±__I?器引-?i通過驗證碼?驗證碼g雜程度????1?.也隨截?’丨不砝控制??圖2-1爬蟲等級和應(yīng)對方式??圖2-2代碼所示,如果目標(biāo)內(nèi)容是搜狗微信站點(diǎn)上的所有頁面的新聞標(biāo)題,??里的匹配規(guī)則如圖2-3代碼所示,我們?yōu)榱宋ㄒ黄ヅ涑鰳?biāo)題(或者其他目標(biāo)內(nèi)??),需要編寫能夠唯一確定的正則表達(dá)式或者xpath路徑,并且需要保證所選的??配方式適用于期望的目標(biāo)所有頁面。通過離線觀察、分析以及嘗試,這里的class??值和id的值“rich_media_title”、“activity-name”,可以在單個HTML頁面中唯??確定我們想要的標(biāo)題,而且不會隨著時間動態(tài)改變,并適用于所有新聞頁面,??此我們可以編寫出穩(wěn)定持續(xù)的自動化獲取腳本代碼如上。??
【參考文獻(xiàn)】:
期刊論文
[1]基于Netfilter/Iptables的動態(tài)安全防御系統(tǒng)設(shè)計[J]. 李志奇,何彥宏,孔德愷. 通信學(xué)報. 2018(S2)
[2]面向SDN的移動目標(biāo)防御技術(shù)研究進(jìn)展[J]. 譚晶磊,張紅旗,雷程,劉小虎,王碩. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(07)
[3]基于梯度提升模型的行為式驗證碼人機(jī)識別[J]. 歐陽志友,孫孝魁. 信息網(wǎng)絡(luò)安全. 2017(09)
[4]基于隱馬爾科夫模型的網(wǎng)絡(luò)爬蟲檢測算法仿真[J]. 琚興空. 計算機(jī)與現(xiàn)代化. 2017(04)
博士論文
[1]網(wǎng)絡(luò)主動防御關(guān)鍵技術(shù)研究[D]. 羅躍斌.國防科學(xué)技術(shù)大學(xué) 2017
[2]Rijndael中若干關(guān)鍵問題的研究[D]. 崔杰.中國科學(xué)技術(shù)大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的圖片驗證碼識別算法研究[D]. 張樂樂.青島科技大學(xué) 2018
[2]Cookie技術(shù)發(fā)展視閾下我國個人信息保護(hù)的法律路徑探究[D]. 陳若男.華中師范大學(xué) 2018
[3]基于Web服務(wù)的移動目標(biāo)防御技術(shù)研究與實現(xiàn)[D]. 景湘評.北京郵電大學(xué) 2018
[4]基于網(wǎng)絡(luò)欺騙的網(wǎng)站防護(hù)技術(shù)研究[D]. 林建寶.北京郵電大學(xué) 2018
[5]滑塊驗證碼人機(jī)識別系統(tǒng)特征選擇及應(yīng)用研究[D]. 王二磊.長沙理工大學(xué) 2017
[6]Web客戶端隱私泄露成因與機(jī)理研究[D]. 王曉茜.北京工業(yè)大學(xué) 2017
[7]基于SVM的空心驗證碼識別技術(shù)研究[D]. 孟凱.重慶郵電大學(xué) 2017
[8]基于HTTP的可靠性測試腳本生成的研究與實現(xiàn)[D]. 張珊.北京郵電大學(xué) 2017
[9]一種基于SDN的地址跳變主動防御技術(shù)的研究與實現(xiàn)[D]. 王宇航.浙江大學(xué) 2017
[10]基于行為模式的Web Robot檢測技術(shù)研究[D]. 琚興空.武漢郵電科學(xué)研究院 2017
本文編號:3274085
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1爬蟲等級和應(yīng)對方式??
.觸?1式進(jìn)行iR別限制—'*]人的行K繞過檢測???????通過KHTP?Header?Header信息??i無界面?』自動化工——?■參數(shù)進(jìn)行51M限制——令?容易偽裝??|?瀏覽器—?!?n*瀏覽一1??—::::::—:z=zrf????器內(nèi)核??u通過單丨p地址訪問?i?代理ip容s??利用搬器?—^1?⑥檢測..J??C智能K蟲)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白動_化工?*i進(jìn)行識稱限制?&過檢》??激歡器!??■具+滿覽-?...:????_±__I?器引-?i通過驗證碼?驗證碼g雜程度????1?.也隨截?’丨不砝控制??圖2-1爬蟲等級和應(yīng)對方式??圖2-2代碼所示,如果目標(biāo)內(nèi)容是搜狗微信站點(diǎn)上的所有頁面的新聞標(biāo)題,??里的匹配規(guī)則如圖2-3代碼所示,我們?yōu)榱宋ㄒ黄ヅ涑鰳?biāo)題(或者其他目標(biāo)內(nèi)??),需要編寫能夠唯一確定的正則表達(dá)式或者xpath路徑,并且需要保證所選的??配方式適用于期望的目標(biāo)所有頁面。通過離線觀察、分析以及嘗試,這里的class??值和id的值“rich_media_title”、“activity-name”,可以在單個HTML頁面中唯??確定我們想要的標(biāo)題,而且不會隨著時間動態(tài)改變,并適用于所有新聞頁面,??此我們可以編寫出穩(wěn)定持續(xù)的自動化獲取腳本代碼如上。??
.觸?1式進(jìn)行iR別限制—'*]人的行K繞過檢測???????通過KHTP?Header?Header信息??i無界面?』自動化工——?■參數(shù)進(jìn)行51M限制——令?容易偽裝??|?瀏覽器—?!?n*瀏覽一1??—::::::—:z=zrf????器內(nèi)核??u通過單丨p地址訪問?i?代理ip容s??利用搬器?—^1?⑥檢測..J??C智能K蟲)-????????riaeiPtoiS/i'?‘?reiipSs"—??Y?白動_化工?*i進(jìn)行識稱限制?&過檢》??激歡器!??■具+滿覽-?...:????_±__I?器引-?i通過驗證碼?驗證碼g雜程度????1?.也隨截?’丨不砝控制??圖2-1爬蟲等級和應(yīng)對方式??圖2-2代碼所示,如果目標(biāo)內(nèi)容是搜狗微信站點(diǎn)上的所有頁面的新聞標(biāo)題,??里的匹配規(guī)則如圖2-3代碼所示,我們?yōu)榱宋ㄒ黄ヅ涑鰳?biāo)題(或者其他目標(biāo)內(nèi)??),需要編寫能夠唯一確定的正則表達(dá)式或者xpath路徑,并且需要保證所選的??配方式適用于期望的目標(biāo)所有頁面。通過離線觀察、分析以及嘗試,這里的class??值和id的值“rich_media_title”、“activity-name”,可以在單個HTML頁面中唯??確定我們想要的標(biāo)題,而且不會隨著時間動態(tài)改變,并適用于所有新聞頁面,??此我們可以編寫出穩(wěn)定持續(xù)的自動化獲取腳本代碼如上。??
【參考文獻(xiàn)】:
期刊論文
[1]基于Netfilter/Iptables的動態(tài)安全防御系統(tǒng)設(shè)計[J]. 李志奇,何彥宏,孔德愷. 通信學(xué)報. 2018(S2)
[2]面向SDN的移動目標(biāo)防御技術(shù)研究進(jìn)展[J]. 譚晶磊,張紅旗,雷程,劉小虎,王碩. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(07)
[3]基于梯度提升模型的行為式驗證碼人機(jī)識別[J]. 歐陽志友,孫孝魁. 信息網(wǎng)絡(luò)安全. 2017(09)
[4]基于隱馬爾科夫模型的網(wǎng)絡(luò)爬蟲檢測算法仿真[J]. 琚興空. 計算機(jī)與現(xiàn)代化. 2017(04)
博士論文
[1]網(wǎng)絡(luò)主動防御關(guān)鍵技術(shù)研究[D]. 羅躍斌.國防科學(xué)技術(shù)大學(xué) 2017
[2]Rijndael中若干關(guān)鍵問題的研究[D]. 崔杰.中國科學(xué)技術(shù)大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的圖片驗證碼識別算法研究[D]. 張樂樂.青島科技大學(xué) 2018
[2]Cookie技術(shù)發(fā)展視閾下我國個人信息保護(hù)的法律路徑探究[D]. 陳若男.華中師范大學(xué) 2018
[3]基于Web服務(wù)的移動目標(biāo)防御技術(shù)研究與實現(xiàn)[D]. 景湘評.北京郵電大學(xué) 2018
[4]基于網(wǎng)絡(luò)欺騙的網(wǎng)站防護(hù)技術(shù)研究[D]. 林建寶.北京郵電大學(xué) 2018
[5]滑塊驗證碼人機(jī)識別系統(tǒng)特征選擇及應(yīng)用研究[D]. 王二磊.長沙理工大學(xué) 2017
[6]Web客戶端隱私泄露成因與機(jī)理研究[D]. 王曉茜.北京工業(yè)大學(xué) 2017
[7]基于SVM的空心驗證碼識別技術(shù)研究[D]. 孟凱.重慶郵電大學(xué) 2017
[8]基于HTTP的可靠性測試腳本生成的研究與實現(xiàn)[D]. 張珊.北京郵電大學(xué) 2017
[9]一種基于SDN的地址跳變主動防御技術(shù)的研究與實現(xiàn)[D]. 王宇航.浙江大學(xué) 2017
[10]基于行為模式的Web Robot檢測技術(shù)研究[D]. 琚興空.武漢郵電科學(xué)研究院 2017
本文編號:3274085
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3274085.html
最近更新
教材專著