網(wǎng)頁篡改監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時間:2020-12-24 17:08
目前,許多行政部門、企事業(yè)單位和高校都擁有了屬于自己的網(wǎng)站。然而,由于大部分政務(wù)網(wǎng)站缺乏本地網(wǎng)頁防篡改系統(tǒng)的支撐,政務(wù)網(wǎng)站上的網(wǎng)頁面臨著隨時可能被篡改的風(fēng)險(xiǎn)。網(wǎng)頁篡改從產(chǎn)生到被發(fā)現(xiàn)的時間跨度大,網(wǎng)頁篡改持續(xù)存在于網(wǎng)站上的時間越長,對網(wǎng)站所有者造成的各方面損失越大。因此,網(wǎng)頁篡改檢測成為政務(wù)網(wǎng)站安全建設(shè)的一項(xiàng)重要內(nèi)容。在行政部門、企事業(yè)單位和高校密集的大都市,政務(wù)網(wǎng)站的數(shù)量非常龐大。為了大規(guī)模地對政務(wù)網(wǎng)站的網(wǎng)頁篡改情況進(jìn)行一定程度的監(jiān)控、統(tǒng)計(jì)和分析,本文設(shè)計(jì)和實(shí)現(xiàn)了一個高效實(shí)用網(wǎng)頁篡改監(jiān)控系統(tǒng)。本文對系統(tǒng)的研究工作主要從網(wǎng)頁采集和網(wǎng)頁對比兩個方面展開。在網(wǎng)頁采集上,本文設(shè)計(jì)和實(shí)現(xiàn)了一個符合系統(tǒng)實(shí)際運(yùn)行需要的小型分布式網(wǎng)絡(luò)爬蟲,并對爬蟲的性能進(jìn)行一定程度的優(yōu)化。網(wǎng)頁采集采用了網(wǎng)頁鏈接采集和網(wǎng)頁下載分離的模式,能減少網(wǎng)絡(luò)爬蟲的運(yùn)行次數(shù),提高系統(tǒng)的運(yùn)行效率。本文提出了一種使用鏈接樹計(jì)算網(wǎng)頁鏈接權(quán)重的方法,對網(wǎng)頁鏈接按照其權(quán)重進(jìn)行排序后,能對網(wǎng)頁進(jìn)行篩選,并為重要程度更高的網(wǎng)頁分配更短的下載檢測周期。在網(wǎng)頁對比上,本文采用的是遍歷網(wǎng)頁DOM樹的方法,來定位網(wǎng)頁的結(jié)構(gòu)變化、樣式變化和內(nèi)容變化。網(wǎng)頁...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4-1網(wǎng)頁篡改監(jiān)控系統(tǒng)模塊圖??URL采集模塊主要采用一個分布式N絡(luò)爬蟲實(shí)現(xiàn),以?個或多個種子URL??為輸入,從多個目標(biāo)網(wǎng)站抓取網(wǎng)頁并收集網(wǎng)頁中的URL
圖4-2分布式網(wǎng)絡(luò)爬蟲架構(gòu)圖??URL分配模塊可以采用消息隊(duì)列ActiveMQ實(shí)現(xiàn)。網(wǎng)絡(luò)爬蟲啟動時,從數(shù)據(jù)??讀取種子URL,將URL封裝成消息添加到消息隊(duì)列中。??網(wǎng)頁下載程序在監(jiān)聽到消息隊(duì)列中存在消息時,讀取消息隊(duì)列中的消息,提??消息中的URL,然后從目標(biāo)網(wǎng)站下載指定網(wǎng)頁。??網(wǎng)頁下載到本地后,提取網(wǎng)頁內(nèi)的URL,將URL封裝成消息添加到消息隊(duì)??中,則網(wǎng)頁下載程序可從消息隊(duì)列中獲。眨遥滩⒗^續(xù)下載網(wǎng)頁。??網(wǎng)頁之間的拓?fù)浣Y(jié)構(gòu)是?個有向圖,為了避免有向圖的環(huán)形結(jié)構(gòu)造成爬蟲在??行時陷入死循環(huán),需要對網(wǎng)頁中提取的URL進(jìn)行去重,舍棄之前已經(jīng)下載的??頁。??.3.2?提取?URL??從網(wǎng)頁中提。眨遥逃姓齽t匹配和DOM解析兩種方式。??(1)正則匹配??“”
分布式H絡(luò)爬蟲每次運(yùn)行后,將采集到的全部URL保存在URL總表屮(見??表5-2)。對每個+?N的網(wǎng)頁分配不同的下載檢測周期,為權(quán)重高的網(wǎng)頁分配更??短的K載周期,N貝分級K載的基礎(chǔ)架構(gòu)如圖4-3所示。??,?A??醒>,???n???SEE??消息隊(duì)列??網(wǎng)頁下載集群????、?:?4??_??數(shù)捤庫??Hbase集群??圖4-3網(wǎng)頁分級下載架構(gòu)圖??29??
【參考文獻(xiàn)】:
期刊論文
[1]Hadoop下改進(jìn)布隆過濾器算法的網(wǎng)頁去重[J]. 黃偉建,楊海龍. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[2]高級持續(xù)性威脅攻擊及預(yù)防的探索[J]. 陳強(qiáng). 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2015(07)
[3]基于過濾驅(qū)動的文件防護(hù)系統(tǒng)的實(shí)現(xiàn)[J]. 劉鐵鋼,阮宏瑋,王燕,龐濱,李華. 內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(03)
[4]基于改進(jìn)編輯距離的字符串相似度求解算法[J]. 姜華,韓安琪,王美佳,王崢,吳雲(yún)玲. 計(jì)算機(jī)工程. 2014(01)
[5]正則表達(dá)式的研究及在Web中的應(yīng)用[J]. 唐惠麗,鄭小妹. 計(jì)算機(jī)技術(shù)與發(fā)展. 2013(02)
[6]基于局部變化性的網(wǎng)頁篡改識別模型及方法[J]. 魏文晗,鄧一貴. 計(jì)算機(jī)應(yīng)用. 2013(02)
[7]淺析移動網(wǎng)絡(luò)中的WAP網(wǎng)關(guān)流量壓縮技術(shù)[J]. 鐘磊,沈偉,張建. 廣西通信技術(shù). 2012(04)
[8]淺談網(wǎng)頁防篡改技術(shù)[J]. 劉懷北. 海峽科學(xué). 2012(07)
[9]Linux網(wǎng)頁防篡改機(jī)制的研究與實(shí)現(xiàn)[J]. 嚴(yán)承,王偉平,段桂華. 計(jì)算技術(shù)與自動化. 2010(02)
[10]河北交通政務(wù)網(wǎng)站群建設(shè)模式探討[J]. 耿澤坤. 中國交通信息化. 2010(06)
博士論文
[1]移動Web瀏覽系統(tǒng)的若干關(guān)鍵技術(shù)研究[D]. 張開敏.中國科學(xué)技術(shù)大學(xué) 2012
碩士論文
[1]基于客戶端的網(wǎng)頁篡改檢測研究[D]. 李君.浙江工業(yè)大學(xué) 2015
[2]網(wǎng)頁篡改檢測模型的研究與實(shí)現(xiàn)[D]. 孫鵬建.北京郵電大學(xué) 2015
[3]跨媒體搜索關(guān)鍵技術(shù)[D]. 張鎧琪.北京郵電大學(xué) 2015
[4]基于協(xié)同機(jī)制的數(shù)據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D]. 劉軍輝.北京郵電大學(xué) 2015
[5]布隆過濾器在網(wǎng)頁去重中的研究與應(yīng)用[D]. 黃濤.大連海事大學(xué) 2013
[6]基于Nutch的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[D]. 吳翠雁.華南理工大學(xué) 2010
[7]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
本文編號:2936014
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4-1網(wǎng)頁篡改監(jiān)控系統(tǒng)模塊圖??URL采集模塊主要采用一個分布式N絡(luò)爬蟲實(shí)現(xiàn),以?個或多個種子URL??為輸入,從多個目標(biāo)網(wǎng)站抓取網(wǎng)頁并收集網(wǎng)頁中的URL
圖4-2分布式網(wǎng)絡(luò)爬蟲架構(gòu)圖??URL分配模塊可以采用消息隊(duì)列ActiveMQ實(shí)現(xiàn)。網(wǎng)絡(luò)爬蟲啟動時,從數(shù)據(jù)??讀取種子URL,將URL封裝成消息添加到消息隊(duì)列中。??網(wǎng)頁下載程序在監(jiān)聽到消息隊(duì)列中存在消息時,讀取消息隊(duì)列中的消息,提??消息中的URL,然后從目標(biāo)網(wǎng)站下載指定網(wǎng)頁。??網(wǎng)頁下載到本地后,提取網(wǎng)頁內(nèi)的URL,將URL封裝成消息添加到消息隊(duì)??中,則網(wǎng)頁下載程序可從消息隊(duì)列中獲。眨遥滩⒗^續(xù)下載網(wǎng)頁。??網(wǎng)頁之間的拓?fù)浣Y(jié)構(gòu)是?個有向圖,為了避免有向圖的環(huán)形結(jié)構(gòu)造成爬蟲在??行時陷入死循環(huán),需要對網(wǎng)頁中提取的URL進(jìn)行去重,舍棄之前已經(jīng)下載的??頁。??.3.2?提取?URL??從網(wǎng)頁中提。眨遥逃姓齽t匹配和DOM解析兩種方式。??(1)正則匹配??“”
分布式H絡(luò)爬蟲每次運(yùn)行后,將采集到的全部URL保存在URL總表屮(見??表5-2)。對每個+?N的網(wǎng)頁分配不同的下載檢測周期,為權(quán)重高的網(wǎng)頁分配更??短的K載周期,N貝分級K載的基礎(chǔ)架構(gòu)如圖4-3所示。??,?A??醒>,???n???SEE??消息隊(duì)列??網(wǎng)頁下載集群????、?:?4??_??數(shù)捤庫??Hbase集群??圖4-3網(wǎng)頁分級下載架構(gòu)圖??29??
【參考文獻(xiàn)】:
期刊論文
[1]Hadoop下改進(jìn)布隆過濾器算法的網(wǎng)頁去重[J]. 黃偉建,楊海龍. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[2]高級持續(xù)性威脅攻擊及預(yù)防的探索[J]. 陳強(qiáng). 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2015(07)
[3]基于過濾驅(qū)動的文件防護(hù)系統(tǒng)的實(shí)現(xiàn)[J]. 劉鐵鋼,阮宏瑋,王燕,龐濱,李華. 內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(03)
[4]基于改進(jìn)編輯距離的字符串相似度求解算法[J]. 姜華,韓安琪,王美佳,王崢,吳雲(yún)玲. 計(jì)算機(jī)工程. 2014(01)
[5]正則表達(dá)式的研究及在Web中的應(yīng)用[J]. 唐惠麗,鄭小妹. 計(jì)算機(jī)技術(shù)與發(fā)展. 2013(02)
[6]基于局部變化性的網(wǎng)頁篡改識別模型及方法[J]. 魏文晗,鄧一貴. 計(jì)算機(jī)應(yīng)用. 2013(02)
[7]淺析移動網(wǎng)絡(luò)中的WAP網(wǎng)關(guān)流量壓縮技術(shù)[J]. 鐘磊,沈偉,張建. 廣西通信技術(shù). 2012(04)
[8]淺談網(wǎng)頁防篡改技術(shù)[J]. 劉懷北. 海峽科學(xué). 2012(07)
[9]Linux網(wǎng)頁防篡改機(jī)制的研究與實(shí)現(xiàn)[J]. 嚴(yán)承,王偉平,段桂華. 計(jì)算技術(shù)與自動化. 2010(02)
[10]河北交通政務(wù)網(wǎng)站群建設(shè)模式探討[J]. 耿澤坤. 中國交通信息化. 2010(06)
博士論文
[1]移動Web瀏覽系統(tǒng)的若干關(guān)鍵技術(shù)研究[D]. 張開敏.中國科學(xué)技術(shù)大學(xué) 2012
碩士論文
[1]基于客戶端的網(wǎng)頁篡改檢測研究[D]. 李君.浙江工業(yè)大學(xué) 2015
[2]網(wǎng)頁篡改檢測模型的研究與實(shí)現(xiàn)[D]. 孫鵬建.北京郵電大學(xué) 2015
[3]跨媒體搜索關(guān)鍵技術(shù)[D]. 張鎧琪.北京郵電大學(xué) 2015
[4]基于協(xié)同機(jī)制的數(shù)據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D]. 劉軍輝.北京郵電大學(xué) 2015
[5]布隆過濾器在網(wǎng)頁去重中的研究與應(yīng)用[D]. 黃濤.大連海事大學(xué) 2013
[6]基于Nutch的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[D]. 吳翠雁.華南理工大學(xué) 2010
[7]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
本文編號:2936014
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2936014.html
最近更新
教材專著