網(wǎng)頁篡改監(jiān)控系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2020-12-24 17:08
目前,許多行政部門、企事業(yè)單位和高校都擁有了屬于自己的網(wǎng)站。然而,由于大部分政務網(wǎng)站缺乏本地網(wǎng)頁防篡改系統(tǒng)的支撐,政務網(wǎng)站上的網(wǎng)頁面臨著隨時可能被篡改的風險。網(wǎng)頁篡改從產(chǎn)生到被發(fā)現(xiàn)的時間跨度大,網(wǎng)頁篡改持續(xù)存在于網(wǎng)站上的時間越長,對網(wǎng)站所有者造成的各方面損失越大。因此,網(wǎng)頁篡改檢測成為政務網(wǎng)站安全建設的一項重要內(nèi)容。在行政部門、企事業(yè)單位和高校密集的大都市,政務網(wǎng)站的數(shù)量非常龐大。為了大規(guī)模地對政務網(wǎng)站的網(wǎng)頁篡改情況進行一定程度的監(jiān)控、統(tǒng)計和分析,本文設計和實現(xiàn)了一個高效實用網(wǎng)頁篡改監(jiān)控系統(tǒng)。本文對系統(tǒng)的研究工作主要從網(wǎng)頁采集和網(wǎng)頁對比兩個方面展開。在網(wǎng)頁采集上,本文設計和實現(xiàn)了一個符合系統(tǒng)實際運行需要的小型分布式網(wǎng)絡爬蟲,并對爬蟲的性能進行一定程度的優(yōu)化。網(wǎng)頁采集采用了網(wǎng)頁鏈接采集和網(wǎng)頁下載分離的模式,能減少網(wǎng)絡爬蟲的運行次數(shù),提高系統(tǒng)的運行效率。本文提出了一種使用鏈接樹計算網(wǎng)頁鏈接權重的方法,對網(wǎng)頁鏈接按照其權重進行排序后,能對網(wǎng)頁進行篩選,并為重要程度更高的網(wǎng)頁分配更短的下載檢測周期。在網(wǎng)頁對比上,本文采用的是遍歷網(wǎng)頁DOM樹的方法,來定位網(wǎng)頁的結構變化、樣式變化和內(nèi)容變化。網(wǎng)頁...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖4-1網(wǎng)頁篡改監(jiān)控系統(tǒng)模塊圖??URL采集模塊主要采用一個分布式N絡爬蟲實現(xiàn),以?個或多個種子URL??為輸入,從多個目標網(wǎng)站抓取網(wǎng)頁并收集網(wǎng)頁中的URL
圖4-2分布式網(wǎng)絡爬蟲架構圖??URL分配模塊可以采用消息隊列ActiveMQ實現(xiàn)。網(wǎng)絡爬蟲啟動時,從數(shù)據(jù)??讀取種子URL,將URL封裝成消息添加到消息隊列中。??網(wǎng)頁下載程序在監(jiān)聽到消息隊列中存在消息時,讀取消息隊列中的消息,提??消息中的URL,然后從目標網(wǎng)站下載指定網(wǎng)頁。??網(wǎng)頁下載到本地后,提取網(wǎng)頁內(nèi)的URL,將URL封裝成消息添加到消息隊??中,則網(wǎng)頁下載程序可從消息隊列中獲�。眨遥滩⒗^續(xù)下載網(wǎng)頁。??網(wǎng)頁之間的拓撲結構是?個有向圖,為了避免有向圖的環(huán)形結構造成爬蟲在??行時陷入死循環(huán),需要對網(wǎng)頁中提取的URL進行去重,舍棄之前已經(jīng)下載的??頁。??.3.2?提取?URL??從網(wǎng)頁中提�。眨遥逃姓齽t匹配和DOM解析兩種方式。??(1)正則匹配??“”
分布式H絡爬蟲每次運行后,將采集到的全部URL保存在URL總表屮(見??表5-2)。對每個+?N的網(wǎng)頁分配不同的下載檢測周期,為權重高的網(wǎng)頁分配更??短的K載周期,N貝分級K載的基礎架構如圖4-3所示。??,?A??醒>,???n???SEE??消息隊列??網(wǎng)頁下載集群????、?:?4??_??數(shù)捤庫??Hbase集群??圖4-3網(wǎng)頁分級下載架構圖??29??
【參考文獻】:
期刊論文
[1]Hadoop下改進布隆過濾器算法的網(wǎng)頁去重[J]. 黃偉建,楊海龍. 計算機工程與科學. 2017(02)
[2]高級持續(xù)性威脅攻擊及預防的探索[J]. 陳強. 網(wǎng)絡安全技術與應用. 2015(07)
[3]基于過濾驅動的文件防護系統(tǒng)的實現(xiàn)[J]. 劉鐵鋼,阮宏瑋,王燕,龐濱,李華. 內(nèi)蒙古大學學報(自然科學版). 2014(03)
[4]基于改進編輯距離的字符串相似度求解算法[J]. 姜華,韓安琪,王美佳,王崢,吳雲(yún)玲. 計算機工程. 2014(01)
[5]正則表達式的研究及在Web中的應用[J]. 唐惠麗,鄭小妹. 計算機技術與發(fā)展. 2013(02)
[6]基于局部變化性的網(wǎng)頁篡改識別模型及方法[J]. 魏文晗,鄧一貴. 計算機應用. 2013(02)
[7]淺析移動網(wǎng)絡中的WAP網(wǎng)關流量壓縮技術[J]. 鐘磊,沈偉,張建. 廣西通信技術. 2012(04)
[8]淺談網(wǎng)頁防篡改技術[J]. 劉懷北. 海峽科學. 2012(07)
[9]Linux網(wǎng)頁防篡改機制的研究與實現(xiàn)[J]. 嚴承,王偉平,段桂華. 計算技術與自動化. 2010(02)
[10]河北交通政務網(wǎng)站群建設模式探討[J]. 耿澤坤. 中國交通信息化. 2010(06)
博士論文
[1]移動Web瀏覽系統(tǒng)的若干關鍵技術研究[D]. 張開敏.中國科學技術大學 2012
碩士論文
[1]基于客戶端的網(wǎng)頁篡改檢測研究[D]. 李君.浙江工業(yè)大學 2015
[2]網(wǎng)頁篡改檢測模型的研究與實現(xiàn)[D]. 孫鵬建.北京郵電大學 2015
[3]跨媒體搜索關鍵技術[D]. 張鎧琪.北京郵電大學 2015
[4]基于協(xié)同機制的數(shù)據(jù)采集系統(tǒng)的研究與實現(xiàn)[D]. 劉軍輝.北京郵電大學 2015
[5]布隆過濾器在網(wǎng)頁去重中的研究與應用[D]. 黃濤.大連海事大學 2013
[6]基于Nutch的信息采集系統(tǒng)的研究與實現(xiàn)[D]. 吳翠雁.華南理工大學 2010
[7]分布式網(wǎng)絡爬蟲技術的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學 2006
本文編號:2936014
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖4-1網(wǎng)頁篡改監(jiān)控系統(tǒng)模塊圖??URL采集模塊主要采用一個分布式N絡爬蟲實現(xiàn),以?個或多個種子URL??為輸入,從多個目標網(wǎng)站抓取網(wǎng)頁并收集網(wǎng)頁中的URL
圖4-2分布式網(wǎng)絡爬蟲架構圖??URL分配模塊可以采用消息隊列ActiveMQ實現(xiàn)。網(wǎng)絡爬蟲啟動時,從數(shù)據(jù)??讀取種子URL,將URL封裝成消息添加到消息隊列中。??網(wǎng)頁下載程序在監(jiān)聽到消息隊列中存在消息時,讀取消息隊列中的消息,提??消息中的URL,然后從目標網(wǎng)站下載指定網(wǎng)頁。??網(wǎng)頁下載到本地后,提取網(wǎng)頁內(nèi)的URL,將URL封裝成消息添加到消息隊??中,則網(wǎng)頁下載程序可從消息隊列中獲�。眨遥滩⒗^續(xù)下載網(wǎng)頁。??網(wǎng)頁之間的拓撲結構是?個有向圖,為了避免有向圖的環(huán)形結構造成爬蟲在??行時陷入死循環(huán),需要對網(wǎng)頁中提取的URL進行去重,舍棄之前已經(jīng)下載的??頁。??.3.2?提取?URL??從網(wǎng)頁中提�。眨遥逃姓齽t匹配和DOM解析兩種方式。??(1)正則匹配??“”
分布式H絡爬蟲每次運行后,將采集到的全部URL保存在URL總表屮(見??表5-2)。對每個+?N的網(wǎng)頁分配不同的下載檢測周期,為權重高的網(wǎng)頁分配更??短的K載周期,N貝分級K載的基礎架構如圖4-3所示。??,?A??醒>,???n???SEE??消息隊列??網(wǎng)頁下載集群????、?:?4??_??數(shù)捤庫??Hbase集群??圖4-3網(wǎng)頁分級下載架構圖??29??
【參考文獻】:
期刊論文
[1]Hadoop下改進布隆過濾器算法的網(wǎng)頁去重[J]. 黃偉建,楊海龍. 計算機工程與科學. 2017(02)
[2]高級持續(xù)性威脅攻擊及預防的探索[J]. 陳強. 網(wǎng)絡安全技術與應用. 2015(07)
[3]基于過濾驅動的文件防護系統(tǒng)的實現(xiàn)[J]. 劉鐵鋼,阮宏瑋,王燕,龐濱,李華. 內(nèi)蒙古大學學報(自然科學版). 2014(03)
[4]基于改進編輯距離的字符串相似度求解算法[J]. 姜華,韓安琪,王美佳,王崢,吳雲(yún)玲. 計算機工程. 2014(01)
[5]正則表達式的研究及在Web中的應用[J]. 唐惠麗,鄭小妹. 計算機技術與發(fā)展. 2013(02)
[6]基于局部變化性的網(wǎng)頁篡改識別模型及方法[J]. 魏文晗,鄧一貴. 計算機應用. 2013(02)
[7]淺析移動網(wǎng)絡中的WAP網(wǎng)關流量壓縮技術[J]. 鐘磊,沈偉,張建. 廣西通信技術. 2012(04)
[8]淺談網(wǎng)頁防篡改技術[J]. 劉懷北. 海峽科學. 2012(07)
[9]Linux網(wǎng)頁防篡改機制的研究與實現(xiàn)[J]. 嚴承,王偉平,段桂華. 計算技術與自動化. 2010(02)
[10]河北交通政務網(wǎng)站群建設模式探討[J]. 耿澤坤. 中國交通信息化. 2010(06)
博士論文
[1]移動Web瀏覽系統(tǒng)的若干關鍵技術研究[D]. 張開敏.中國科學技術大學 2012
碩士論文
[1]基于客戶端的網(wǎng)頁篡改檢測研究[D]. 李君.浙江工業(yè)大學 2015
[2]網(wǎng)頁篡改檢測模型的研究與實現(xiàn)[D]. 孫鵬建.北京郵電大學 2015
[3]跨媒體搜索關鍵技術[D]. 張鎧琪.北京郵電大學 2015
[4]基于協(xié)同機制的數(shù)據(jù)采集系統(tǒng)的研究與實現(xiàn)[D]. 劉軍輝.北京郵電大學 2015
[5]布隆過濾器在網(wǎng)頁去重中的研究與應用[D]. 黃濤.大連海事大學 2013
[6]基于Nutch的信息采集系統(tǒng)的研究與實現(xiàn)[D]. 吳翠雁.華南理工大學 2010
[7]分布式網(wǎng)絡爬蟲技術的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學 2006
本文編號:2936014
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2936014.html
最近更新
教材專著