基于Scrapy分布式的暗網(wǎng)探測爬蟲構(gòu)建
發(fā)布時(shí)間:2021-07-03 06:10
暗網(wǎng)中存在大量毒品、軍火、貨幣等非法交易網(wǎng)站,對網(wǎng)絡(luò)環(huán)境造成嚴(yán)重危害,為了對暗網(wǎng)進(jìn)行探測和監(jiān)控,提出一種基于Scrapy分布式的暗網(wǎng)探測爬蟲方法。將暗網(wǎng)使用的socks5協(xié)議轉(zhuǎn)化為爬蟲支持的http協(xié)議,再利用Python的Scrapy爬蟲框架對暗網(wǎng)站點(diǎn)進(jìn)行探測和爬取。使用該方法已發(fā)現(xiàn)數(shù)以萬計(jì)的暗網(wǎng)站點(diǎn)信息,包括網(wǎng)站標(biāo)題、源代碼、網(wǎng)站類型等。將暗網(wǎng)代理環(huán)境和Python爬蟲相結(jié)合,能夠讓程序?qū)Π稻W(wǎng)的站點(diǎn)進(jìn)行探測和爬取,對暗網(wǎng)環(huán)境進(jìn)行很好的探測和監(jiān)控。
【文章來源】:計(jì)算機(jī)時(shí)代. 2020,(04)
【文章頁數(shù)】:5 頁
【部分圖文】:
Tor通信網(wǎng)絡(luò)結(jié)構(gòu)
Scrapy是基于python程序語言編寫的爬蟲框架,其結(jié)構(gòu)清晰,模塊之間的耦合程度低,擁有極好的可擴(kuò)展性,方便對暗網(wǎng)站點(diǎn)各種定制化的需求。Scrapy框架的執(zhí)行流程如圖3所示。⑴執(zhí)行引擎從調(diào)度器中獲取一個(gè)待爬取的暗網(wǎng)站點(diǎn)鏈接并將其封裝成一個(gè)請求后傳遞給下載器;
狀態(tài)管理器起到維護(hù)爬取列隊(duì)的作用,可以在一臺獨(dú)立的服務(wù)器,也可以在爬蟲的任何一臺分發(fā)器。爬蟲分發(fā)器,負(fù)責(zé)數(shù)據(jù)抓取、數(shù)據(jù)處理、數(shù)據(jù)存儲。在其他兩臺服務(wù)器中進(jìn)行相同的環(huán)境部署,最后在Redis服務(wù)器端啟動redis服務(wù),執(zhí)行LPUSH命令同時(shí)啟動三臺爬蟲服務(wù)器。4 實(shí)驗(yàn)結(jié)果分析
【參考文獻(xiàn)】:
期刊論文
[1]基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J]. 湯艷君,安俊霖. 信息安全研究. 2019(09)
[2]基于Tor的暗網(wǎng)空間資源探測[J]. 楊溢,郭晗,王軼駿,薛質(zhì). 通信技術(shù). 2017(10)
[3]基于Freenet的暗網(wǎng)空間資源探測[J]. 郭晗,王軼駿,薛質(zhì). 通信技術(shù). 2017(09)
[4]“暗網(wǎng)”應(yīng)用情況及監(jiān)管方法研究[J]. 趙志云,張旭,羅錚,袁衛(wèi)平. 知識管理論壇. 2016(02)
[5]基于領(lǐng)域知識抽樣的深網(wǎng)資源采集方法[J]. 林海倫,熊錦華,王博,程學(xué)旗. 中文信息學(xué)報(bào). 2016(02)
碩士論文
[1]暗網(wǎng)數(shù)據(jù)源分類算法的研究和實(shí)現(xiàn)[D]. 李亞.成都理工大學(xué) 2013
本文編號:3262031
【文章來源】:計(jì)算機(jī)時(shí)代. 2020,(04)
【文章頁數(shù)】:5 頁
【部分圖文】:
Tor通信網(wǎng)絡(luò)結(jié)構(gòu)
Scrapy是基于python程序語言編寫的爬蟲框架,其結(jié)構(gòu)清晰,模塊之間的耦合程度低,擁有極好的可擴(kuò)展性,方便對暗網(wǎng)站點(diǎn)各種定制化的需求。Scrapy框架的執(zhí)行流程如圖3所示。⑴執(zhí)行引擎從調(diào)度器中獲取一個(gè)待爬取的暗網(wǎng)站點(diǎn)鏈接并將其封裝成一個(gè)請求后傳遞給下載器;
狀態(tài)管理器起到維護(hù)爬取列隊(duì)的作用,可以在一臺獨(dú)立的服務(wù)器,也可以在爬蟲的任何一臺分發(fā)器。爬蟲分發(fā)器,負(fù)責(zé)數(shù)據(jù)抓取、數(shù)據(jù)處理、數(shù)據(jù)存儲。在其他兩臺服務(wù)器中進(jìn)行相同的環(huán)境部署,最后在Redis服務(wù)器端啟動redis服務(wù),執(zhí)行LPUSH命令同時(shí)啟動三臺爬蟲服務(wù)器。4 實(shí)驗(yàn)結(jié)果分析
【參考文獻(xiàn)】:
期刊論文
[1]基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J]. 湯艷君,安俊霖. 信息安全研究. 2019(09)
[2]基于Tor的暗網(wǎng)空間資源探測[J]. 楊溢,郭晗,王軼駿,薛質(zhì). 通信技術(shù). 2017(10)
[3]基于Freenet的暗網(wǎng)空間資源探測[J]. 郭晗,王軼駿,薛質(zhì). 通信技術(shù). 2017(09)
[4]“暗網(wǎng)”應(yīng)用情況及監(jiān)管方法研究[J]. 趙志云,張旭,羅錚,袁衛(wèi)平. 知識管理論壇. 2016(02)
[5]基于領(lǐng)域知識抽樣的深網(wǎng)資源采集方法[J]. 林海倫,熊錦華,王博,程學(xué)旗. 中文信息學(xué)報(bào). 2016(02)
碩士論文
[1]暗網(wǎng)數(shù)據(jù)源分類算法的研究和實(shí)現(xiàn)[D]. 李亞.成都理工大學(xué) 2013
本文編號:3262031
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3262031.html
最近更新
教材專著