一種結(jié)合Kafka和Spark-streaming的大規(guī)模快速惡意網(wǎng)頁識別方法的設計與實現(xiàn)
發(fā)布時間:2021-02-15 04:01
隨著人們對互聯(lián)網(wǎng)應用的越來越依賴,用戶在互聯(lián)網(wǎng)中遭受攻擊的風險也越來越大。惡意網(wǎng)頁是最常見的攻擊方式,對用戶的互聯(lián)網(wǎng)應用安全造成了很大的威脅。論文根據(jù)當前惡意網(wǎng)頁對互聯(lián)網(wǎng)安全造成的威脅和面臨的現(xiàn)狀,通過理論分析與試驗研究等方法深入討論了大規(guī)模快速惡意網(wǎng)頁識別方法及其應用。論文首先對惡意網(wǎng)頁的定義、典型防范措施以及Kafka和Spark-streaming等技術(shù)進行了簡述,然后重點分析了網(wǎng)頁樣本集獲取及特征提取方法。論文對惡意網(wǎng)頁識別及檢測方法進行了設計,選擇Weka工具對樣本數(shù)據(jù)進行分類訓練和模型構(gòu)建,選擇支持向量機算法、樸素葉貝斯算法和線性神經(jīng)網(wǎng)絡算法進行了對比實驗。論文最后對系統(tǒng)應用實例進行了設計,測試結(jié)果表明,論文提出的系統(tǒng)方案具備較高的惡意網(wǎng)頁識別率,比其他靜態(tài)檢測方法具備更好的性能,能夠滿足大規(guī)模惡意網(wǎng)頁識別需求。
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
惡意網(wǎng)頁識別系統(tǒng)用例圖
容易造成處理層崩潰,而 Kafka 系統(tǒng)作為收集層和處理層之間的緩沖,有效地解上問題。框架中集成 Kafka 系統(tǒng)后,采集的匯總數(shù)據(jù)會以會話 Topic 方式進行存儲。層需要進行數(shù)據(jù)處理時,Kafka 系統(tǒng)才會將匯總的數(shù)據(jù)通過數(shù)據(jù)通道推送至處理層。(3)處理層。處理層主要由 Spark-streaming 構(gòu)成。在數(shù)據(jù)處理過程中,實時數(shù)據(jù)進層后,會通過 Spark-streaming 將其轉(zhuǎn)化為數(shù)量不等的 D-stream 分片,D-stream 分片D 序列構(gòu)成。Spark 體系中的 DAGScheduler 函數(shù)能夠?qū)?D-stream 分片中的 RDD 序為供 Spark 內(nèi)核使用的數(shù)據(jù)集,然后進行分布式計算。在進行計算處理過程中rk-streaming 將數(shù)據(jù)處理任務分解成多個 Stage ,然后將 Stage 轉(zhuǎn)換為任務集kScheduler 進行推送,然后通過 TaskScheduler 將任務向集群不同的計算節(jié)點進行推送,布式計算。 系統(tǒng)工作流程設計工作流程主要對系統(tǒng)的數(shù)據(jù)處理過程和集群管理過程進行描述,具體流程如圖 4.2所示
圖 4.3 網(wǎng)頁樣本搜集模塊類圖網(wǎng)頁抓取方法的研究,系統(tǒng)使用擴展后的 Apache Nutch2用 Apache Nutch2 架構(gòu)進行的爬蟲過程屬于循環(huán)流程,具體 SampleAction 類的 GetSample 方法獲取全球訪問量前 10供的惡意鏈接 URL 名單。ads 類的 Calculatetime 方法對頁面數(shù)據(jù)產(chǎn)生變化的時間間隔改變的頻率,進而可以與頁面改變頻率相同的頻率進行數(shù)行處理的鏈接隊列中,選擇某個鏈接,CrawlController 類CrawlController 類的 endurl 方法和 pausseurl 方法對采集任awlOrder 類的 Geturlinfo 方法對該鏈接所屬的頁面信息進行
【參考文獻】:
期刊論文
[1]基于Java的數(shù)據(jù)庫應用框架的設計分析[J]. 程小紅. 電子設計工程. 2018(21)
[2]使用程序分析和特征識別方法過濾網(wǎng)頁廣告[J]. 何欣程,查春柳,許蕾. 小型微型計算機系統(tǒng). 2018(09)
[3]基于Spring MVC框架的Java Web應用[J]. 葛萌,黃素萍,歐陽宏基. 計算機與現(xiàn)代化. 2018(08)
[4]基于RBF神經(jīng)網(wǎng)絡的Android惡意行為識別[J]. 陳天偉. 現(xiàn)代電子技術(shù). 2018(15)
[5]基于SVM的惡意流量檢測及其改進方法分析[J]. 張遠,徐逸卿. 信息與電腦(理論版). 2018(12)
[6]混淆惡意JavaScript代碼的多特征檢測識別與分析[J]. 曲文鵬,趙連軍,鄧旭. 智能計算機與應用. 2018(04)
[7]無線網(wǎng)絡惡意入侵數(shù)據(jù)自動識別仿真研究[J]. 王丹,李娜. 計算機仿真. 2018(06)
[8]基于Java EE多層框架的實時監(jiān)測系統(tǒng)設計與實現(xiàn)[J]. 魏志軍,周肖樹,路良剛. 電子設計工程. 2018(11)
[9]基于主成分分析和隨機森林的惡意網(wǎng)站評估與識別[J]. 陳遠,王超群,胡忠義,吳江. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(04)
[10]基于聚類算法的惡意網(wǎng)站智能檢測系統(tǒng)[J]. 王帥,趙剛,岳媛,苗睿捷,劉海曼. 信息系統(tǒng)工程. 2018(04)
碩士論文
[1]基于學習的惡意網(wǎng)頁智能檢測系統(tǒng)[D]. 王松.南京理工大學 2011
本文編號:3034396
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
惡意網(wǎng)頁識別系統(tǒng)用例圖
容易造成處理層崩潰,而 Kafka 系統(tǒng)作為收集層和處理層之間的緩沖,有效地解上問題。框架中集成 Kafka 系統(tǒng)后,采集的匯總數(shù)據(jù)會以會話 Topic 方式進行存儲。層需要進行數(shù)據(jù)處理時,Kafka 系統(tǒng)才會將匯總的數(shù)據(jù)通過數(shù)據(jù)通道推送至處理層。(3)處理層。處理層主要由 Spark-streaming 構(gòu)成。在數(shù)據(jù)處理過程中,實時數(shù)據(jù)進層后,會通過 Spark-streaming 將其轉(zhuǎn)化為數(shù)量不等的 D-stream 分片,D-stream 分片D 序列構(gòu)成。Spark 體系中的 DAGScheduler 函數(shù)能夠?qū)?D-stream 分片中的 RDD 序為供 Spark 內(nèi)核使用的數(shù)據(jù)集,然后進行分布式計算。在進行計算處理過程中rk-streaming 將數(shù)據(jù)處理任務分解成多個 Stage ,然后將 Stage 轉(zhuǎn)換為任務集kScheduler 進行推送,然后通過 TaskScheduler 將任務向集群不同的計算節(jié)點進行推送,布式計算。 系統(tǒng)工作流程設計工作流程主要對系統(tǒng)的數(shù)據(jù)處理過程和集群管理過程進行描述,具體流程如圖 4.2所示
圖 4.3 網(wǎng)頁樣本搜集模塊類圖網(wǎng)頁抓取方法的研究,系統(tǒng)使用擴展后的 Apache Nutch2用 Apache Nutch2 架構(gòu)進行的爬蟲過程屬于循環(huán)流程,具體 SampleAction 類的 GetSample 方法獲取全球訪問量前 10供的惡意鏈接 URL 名單。ads 類的 Calculatetime 方法對頁面數(shù)據(jù)產(chǎn)生變化的時間間隔改變的頻率,進而可以與頁面改變頻率相同的頻率進行數(shù)行處理的鏈接隊列中,選擇某個鏈接,CrawlController 類CrawlController 類的 endurl 方法和 pausseurl 方法對采集任awlOrder 類的 Geturlinfo 方法對該鏈接所屬的頁面信息進行
【參考文獻】:
期刊論文
[1]基于Java的數(shù)據(jù)庫應用框架的設計分析[J]. 程小紅. 電子設計工程. 2018(21)
[2]使用程序分析和特征識別方法過濾網(wǎng)頁廣告[J]. 何欣程,查春柳,許蕾. 小型微型計算機系統(tǒng). 2018(09)
[3]基于Spring MVC框架的Java Web應用[J]. 葛萌,黃素萍,歐陽宏基. 計算機與現(xiàn)代化. 2018(08)
[4]基于RBF神經(jīng)網(wǎng)絡的Android惡意行為識別[J]. 陳天偉. 現(xiàn)代電子技術(shù). 2018(15)
[5]基于SVM的惡意流量檢測及其改進方法分析[J]. 張遠,徐逸卿. 信息與電腦(理論版). 2018(12)
[6]混淆惡意JavaScript代碼的多特征檢測識別與分析[J]. 曲文鵬,趙連軍,鄧旭. 智能計算機與應用. 2018(04)
[7]無線網(wǎng)絡惡意入侵數(shù)據(jù)自動識別仿真研究[J]. 王丹,李娜. 計算機仿真. 2018(06)
[8]基于Java EE多層框架的實時監(jiān)測系統(tǒng)設計與實現(xiàn)[J]. 魏志軍,周肖樹,路良剛. 電子設計工程. 2018(11)
[9]基于主成分分析和隨機森林的惡意網(wǎng)站評估與識別[J]. 陳遠,王超群,胡忠義,吳江. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(04)
[10]基于聚類算法的惡意網(wǎng)站智能檢測系統(tǒng)[J]. 王帥,趙剛,岳媛,苗睿捷,劉海曼. 信息系統(tǒng)工程. 2018(04)
碩士論文
[1]基于學習的惡意網(wǎng)頁智能檢測系統(tǒng)[D]. 王松.南京理工大學 2011
本文編號:3034396
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3034396.html
最近更新
教材專著