天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Scrapy分布式的暗網(wǎng)探測爬蟲構建

發(fā)布時間:2021-07-03 06:10
  暗網(wǎng)中存在大量毒品、軍火、貨幣等非法交易網(wǎng)站,對網(wǎng)絡環(huán)境造成嚴重危害,為了對暗網(wǎng)進行探測和監(jiān)控,提出一種基于Scrapy分布式的暗網(wǎng)探測爬蟲方法。將暗網(wǎng)使用的socks5協(xié)議轉化為爬蟲支持的http協(xié)議,再利用Python的Scrapy爬蟲框架對暗網(wǎng)站點進行探測和爬取。使用該方法已發(fā)現(xiàn)數(shù)以萬計的暗網(wǎng)站點信息,包括網(wǎng)站標題、源代碼、網(wǎng)站類型等。將暗網(wǎng)代理環(huán)境和Python爬蟲相結合,能夠讓程序對暗網(wǎng)的站點進行探測和爬取,對暗網(wǎng)環(huán)境進行很好的探測和監(jiān)控。 

【文章來源】:計算機時代. 2020,(04)

【文章頁數(shù)】:5 頁

【部分圖文】:

基于Scrapy分布式的暗網(wǎng)探測爬蟲構建


Tor通信網(wǎng)絡結構

流程圖,框架,流程,網(wǎng)站


Scrapy是基于python程序語言編寫的爬蟲框架,其結構清晰,模塊之間的耦合程度低,擁有極好的可擴展性,方便對暗網(wǎng)站點各種定制化的需求。Scrapy框架的執(zhí)行流程如圖3所示。⑴執(zhí)行引擎從調度器中獲取一個待爬取的暗網(wǎng)站點鏈接并將其封裝成一個請求后傳遞給下載器;

框架圖,服務器,框架,分發(fā)器


狀態(tài)管理器起到維護爬取列隊的作用,可以在一臺獨立的服務器,也可以在爬蟲的任何一臺分發(fā)器。爬蟲分發(fā)器,負責數(shù)據(jù)抓取、數(shù)據(jù)處理、數(shù)據(jù)存儲。在其他兩臺服務器中進行相同的環(huán)境部署,最后在Redis服務器端啟動redis服務,執(zhí)行LPUSH命令同時啟動三臺爬蟲服務器。4 實驗結果分析

【參考文獻】:
期刊論文
[1]基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設計與實現(xiàn)[J]. 湯艷君,安俊霖.  信息安全研究. 2019(09)
[2]基于Tor的暗網(wǎng)空間資源探測[J]. 楊溢,郭晗,王軼駿,薛質.  通信技術. 2017(10)
[3]基于Freenet的暗網(wǎng)空間資源探測[J]. 郭晗,王軼駿,薛質.  通信技術. 2017(09)
[4]“暗網(wǎng)”應用情況及監(jiān)管方法研究[J]. 趙志云,張旭,羅錚,袁衛(wèi)平.  知識管理論壇. 2016(02)
[5]基于領域知識抽樣的深網(wǎng)資源采集方法[J]. 林海倫,熊錦華,王博,程學旗.  中文信息學報. 2016(02)

碩士論文
[1]暗網(wǎng)數(shù)據(jù)源分類算法的研究和實現(xiàn)[D]. 李亞.成都理工大學 2013



本文編號:3262031

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3262031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e1309***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com