天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

被黑網站檢測方法的關鍵技術研究

發(fā)布時間:2020-07-29 09:56
【摘要】:由于Web服務自身的特點,被黑網站可以在短時間內、各類人群中大規(guī)模傳播,擴散效果極為迅速、范圍極為廣泛,造成的影響極為惡劣。有效地進行被黑網站的檢測,特別是針對新興的被黑網站可以進行及時檢測,已成為當前網絡安全研究領域的熱點。被黑網站中存在網站掛馬、網頁制作粗糙,結構簡單和內容單一、網頁視覺效果與正常網頁相差較大的現象,因此,本文從掛馬行為、網頁文本和結構以及視覺角度出發(fā)深入研究被黑網站檢測的問題。首先,本文采用了基于Scrapy-redis的分布式數據獲取技術,實現周期性爬取網站數據并進行更新式存儲。根據對網站掛馬行為的原理分析,提出了基于規(guī)則匹配的網站掛馬檢測方法,并構建了網站掛馬知識庫,檢測的同時也在不斷豐富網站掛馬知識庫。其次,提出了一種基于網頁文本和結構的被黑網站檢測算法。該算法提取了網頁文本和結構特征,為了提高檢測準確率和穩(wěn)定性,采用基于SVM-RFE的特征選擇算法逐漸剔除掉冗余特征來得到最優(yōu)特征子集,結合SVM分類算法對網頁進行分類來實現被黑網站的檢測。實驗結果表明,使用SVM-RFE特征選擇算法結合基于SVM的被黑網站檢測算法可以實現96%的準確率。再次,提出了一種基于網頁截圖的被黑網站檢測算法。該算法使用網頁截圖生成技術、網頁截圖窗口提取技術和網頁子圖歸一化技術來進行數據的預處理。為了減少人工提取特征的工作量,采用堆疊式自編碼器自動學習截圖的高維特征,并引入了卷積神經網絡,提升了網頁分類效果,同時采用了微調神經網絡的策略,有效避免了“概念漂移”現象。實驗結果表明,基于堆疊式自編碼器和卷積神經網絡的分類算法在被黑網站檢測中的準確率和召回率都達到了90%,說明了該檢測算法的穩(wěn)定性。最后,基于上述的研究成果,本文設計并實現了被黑網站檢測原型系統(tǒng)。該系統(tǒng)實現了數據的采集、網站掛馬檢測以及多角度的被黑網站檢測的功能,并提出一種綜合決策策略來提高檢測的精度。系統(tǒng)測試表明,該系統(tǒng)在被黑網站檢測中具有較好的性能。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP393.092
【圖文】:

比較圖,曲線分析,分類算法,性能分析


圖 3-5 分類算法性能分析比較圖Precision Recall F1 AccuracySVM 0.9621 0.9613 0.9614 0.9612RF 0.9262 0.9261 0.9261 0.926GBDT 0.9017 0.9014 0.9015 0.90140.870.880.890.90.910.920.930.940.950.960.97Y:百分比X:評價指標

網頁,隱式調用


圖 4-2 正常網頁截圖圖 4-3 正常網頁被黑之后的網頁截圖用 Selenium + PhantomJS 網頁截圖技術有以下優(yōu)點:打開瀏覽器必須隱式調用,用戶無法看到工具在做什么,從而

網頁,提取技術,隱式調用,瀏覽器


- 36 -圖 4-3 正常網頁被黑之后的網頁截圖用 Selenium + PhantomJS 網頁截圖技術有以下優(yōu)點:打開瀏覽器必須隱式調用,用戶無法看到工具在做什么,從而對工具產生影響。網頁截圖必須截取瀏覽器頁面正文,保證無任何冗余信息,且。網頁截圖窗口提取技術頁截圖窗口提取技術是為了得到一個固定窗口大小的網頁子圖

【相似文獻】

相關期刊論文 前10條

1 耿磊;;起步階段的網頁信息資源長期保存[J];上海檔案;2012年02期

2 王永紅;;試論計算機網頁設計中圖形設計的處理運用[J];河北農機;2019年06期

3 陳建平;;高校重要網頁信息采集歸檔實踐探析[J];浙江檔案;2017年09期

4 楊金弓;趙璐;郭森;;《網頁信息展示》[J];美苑;2015年S2期

5 趙陽;;高校網頁翻譯特點、難點及英譯經驗總結[J];校園英語;2017年12期

6 王彥焱;李文超;;分類加權的TF-IDF的網頁分類算法[J];數碼世界;2017年07期

7 程倩楠;譚龍;李浩飛;;面向BIU的網頁解析[J];科學中國人;2017年23期

8 李培豐;;基于“控制字符”網頁信息的隱藏技術[J];福建電腦;2014年06期

9 周慶;;知識管理背景下網頁信息檔案化管理的思考[J];蘭臺世界;2011年15期

10 安琳;;國外網頁信息存檔項目及相關問題研究[J];圖書館建設;2009年12期

相關會議論文 前10條

1 李培豐;;基于“控制字符”網頁信息的隱藏技術[A];中國職協(xié)2014年度優(yōu)秀科研成果獲獎論文集(中冊)[C];2014年

2 項尚;;計算機圖像處理技術在網頁設計中的運用[A];教師教育論壇(第三輯)[C];2019年

3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網頁信息的一種網頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年

4 曹淮;晁丁丁;;3D元素在網頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年

5 吳倩;楊逍;張兆心;;基于視覺特征的網頁信息提取[A];第六屆全國信息檢索學術會議論文集[C];2010年

6 雷靜;劉偉;黃道麗;;網頁信息排列方式、色彩和層級深度對視覺搜索效率的影響[A];第十五屆全國圖象圖形學學術會議論文集[C];2010年

7 張一鳴;;基于網頁信息的印象形成的研究[A];第十屆全國心理學學術大會論文摘要集[C];2005年

8 梅雪;程學旗;郭巖;張剛;丁國棟;;一種全自動生成網頁信息抽取Wrapper的方法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

9 楊震;殷俊;;移動互聯(lián)網環(huán)境下適合運營商網絡基礎能力的搜索引擎設計研究[A];2012全國無線及移動通信學術大會論文集(下)[C];2012年

10 黃華軍;王保衛(wèi);孫星明;;基于CSS類選擇符重復引入的網頁信息隱藏算法[A];第八屆全國信息隱藏與多媒體安全學術大會湖南省計算機學會第十一屆學術年會論文集[C];2009年

相關重要報紙文章 前9條

1 壯壯;批量保存網頁信息[N];電腦報;2004年

2 本報記者 付麗麗;你的低價機票被“蟲子”吃了[N];科技日報;2017年

3 錢鵬;網盡Web頁中的好東東[N];電腦報;2004年

4 上海寶山政府門戶網站 黃永慶;網上“領導信箱”形同虛設應問責[N];東方城鄉(xiāng)報;2010年

5 本報記者 焦雯;為建設美麗中國錦上添花[N];中國文化報;2013年

6 陳英鳳;市長信箱緣何 “機器人辦公”[N];深圳商報;2010年

7 胡立彪;欺客大店別囂張[N];中國質量報;2015年

8 王健;信息高速新生活[N];黔西南日報;2015年

9 于發(fā)修;尋找搜索的技巧[N];中國計算機報;2001年

相關博士學位論文 前6條

1 魏玉良;互聯(lián)網人物摘要知識圖譜構建方法研究[D];哈爾濱工業(yè)大學;2019年

2 張夢妮;面向網站無障礙評估的網頁抽樣方法研究[D];浙江大學;2018年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年

4 宗校軍;中文網頁定題采集及分類研究[D];華中科技大學;2006年

5 徐晴陽;基于關系子群發(fā)現算法的聚焦爬行技術[D];吉林大學;2008年

6 張亞楠;基于用戶行為的信任感知推薦方法研究[D];哈爾濱工程大學;2014年

相關碩士學位論文 前10條

1 武思妍;被黑網站檢測方法的關鍵技術研究[D];哈爾濱工業(yè)大學;2018年

2 陳芊希;基于深度學習的網頁分類算法研究[D];上海交通大學;2016年

3 鄧鈺瑩;扁平化風格在網頁界面設計中的應用研究[D];哈爾濱師范大學;2019年

4 趙康;面向主題的網絡爬蟲系統(tǒng)的設計與實現[D];北京郵電大學;2019年

5 岳婉琪;基于新媒體時代的企業(yè)網頁界面視覺設計[D];福建師范大學;2018年

6 石健;HTTP/2加密網頁識別研究[D];廣州大學;2019年

7 張至先;基于視覺和語義信息的排行榜列表抓取[D];上海交通大學;2017年

8 張瑩;基于DOM結構聚類的釣魚網頁檢測方法研究[D];西安科技大學;2019年

9 張婷;網頁設計中視覺信息傳達的科學性與有效性研究[D];西北大學;2019年

10 井迪;基于Nutch的分布式爬蟲系統(tǒng)的研究與優(yōu)化[D];東北大學;2015年



本文編號:2773802

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2773802.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶7c5bb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com