一種基于實(shí)時(shí)網(wǎng)絡(luò)流量數(shù)據(jù)的網(wǎng)頁過濾方法的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-12-10 03:31
隨著互聯(lián)網(wǎng)的發(fā)展,基于Web的應(yīng)用已經(jīng)成為信息發(fā)布和擴(kuò)散的主流渠道。網(wǎng)絡(luò)在提供給人們豐富信息的同時(shí),也充斥了暴力、非法的、不健康的信息,人們獲取的信息被渲染了不同的色彩,色情、暴力等不良信息的巨大噱頭讓未成年人不能從網(wǎng)絡(luò)中自拔,迷失了人生的道德觀和價(jià)值觀,嚴(yán)重影響了社會(huì)的安定團(tuán)結(jié),因此,我們必須要保證網(wǎng)絡(luò)的純凈和安全,基于這種需求的業(yè)務(wù)也應(yīng)運(yùn)而生。傳統(tǒng)的網(wǎng)頁過濾方式有基于URL名單的過濾方式、基于關(guān)鍵詞的過濾方式和基于模式的過濾方式等,它們雖有著各自的優(yōu)點(diǎn),但也存在著各自的缺陷,針對(duì)這些,本論文提出了一種基于實(shí)時(shí)網(wǎng)絡(luò)流量數(shù)據(jù)的網(wǎng)頁過濾方法,將整合了SVM和KNN分類算法的網(wǎng)頁分類過程,結(jié)合URL名單過濾方式的特點(diǎn)對(duì)系統(tǒng)進(jìn)行了架構(gòu)設(shè)計(jì)。通過對(duì)實(shí)時(shí)的HTTP報(bào)文進(jìn)行監(jiān)聽、捕獲、重組得到用戶請(qǐng)求得到的HTML頁面,經(jīng)過頁面解析、文本分類等過程得到文本的分類預(yù)測(cè)信息,根據(jù)設(shè)置的阻斷策略和捕獲的相關(guān)信息構(gòu)造RST報(bào)文,實(shí)現(xiàn)對(duì)連接的阻斷,同時(shí)將處理分類信息進(jìn)行緩存,當(dāng)系統(tǒng)再次捕獲相同頁面的URL時(shí),可以立刻做出反應(yīng)。本論文主要完成了以下工作:一、針對(duì)系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)中的關(guān)鍵技術(shù)進(jìn)行了綜述,對(duì)實(shí)時(shí)頁面捕...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.2 研究內(nèi)容
1.3 研究現(xiàn)狀
1.4 本文工作和文章結(jié)構(gòu)
第二章 網(wǎng)頁過濾系統(tǒng)關(guān)鍵技術(shù)的研究
2.1 實(shí)時(shí)頁面捕獲
2.1.1 數(shù)據(jù)的監(jiān)聽和捕獲
2.1.2 數(shù)據(jù)的重組
2.1.3 數(shù)據(jù)的解壓縮
2.2 頁面解析
2.2.1 主要技術(shù)的方法比較
2.2.2 頁面解析方法的研究
2.2.3 頁面解析的策略
2.3 文本分類
2.3.1 預(yù)處理
2.3.2 特征選擇
2.3.3 分類
2.4 數(shù)據(jù)流量阻斷
2.5 本章小結(jié)
第三章 網(wǎng)頁過濾系統(tǒng)的分析與設(shè)計(jì)
3.1 需求分析
3.1.1 需求理解
3.1.2 系統(tǒng)主要功能
3.2 總體設(shè)計(jì)
3.2.1 系統(tǒng)規(guī)劃
3.2.2 系統(tǒng)功能架構(gòu)
3.3 主要功能模塊設(shè)計(jì)
3.3.1 頁面數(shù)據(jù)獲取模塊
3.3.2 頁面解析模塊
3.3.3 頁面分類模塊
3.3.4 旁路阻斷模塊
3.3.5 URL分類信息存儲(chǔ)查詢模塊
3.4 本章小結(jié)
第四章 網(wǎng)頁過濾系統(tǒng)的實(shí)現(xiàn)
4.1 實(shí)時(shí)頁面捕獲模塊
4.2 頁面解析模塊
4.3 文本分類模塊
4.4 旁路阻斷模塊
4.5 URL分類信息存儲(chǔ)查詢模塊
4.6 本章小結(jié)
第五章 系統(tǒng)的測(cè)試與優(yōu)化分析
5.1 系統(tǒng)測(cè)試
5.1.1 單元測(cè)試
5.1.2 系統(tǒng)集成測(cè)試
5.2 系統(tǒng)優(yōu)化改進(jìn)
5.3 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J]. 曾俊. 計(jì)算機(jī)應(yīng)用研究. 2012(05)
[2]三種中文文本自動(dòng)分類算法的比較和研究[J]. 陳琳,王箭. 計(jì)算機(jī)與現(xiàn)代化. 2012(02)
[3]基于SVM-KNN的文本分類算法及其分析[J]. 匡春臨,夏清強(qiáng). 計(jì)算機(jī)時(shí)代. 2010(08)
[4]一種高效的TCP會(huì)話數(shù)據(jù)流重組算法及應(yīng)用[J]. 趙啟升,李存華. 微電子學(xué)與計(jì)算機(jī). 2010(07)
[5]SVM-KNN分類算法研究[J]. 趙玲,陳磊琛,余小陸,張盛意. 計(jì)算機(jī)與數(shù)字工程. 2010(06)
[6]一種新的基于SVM-KNN的Web文本分類算法[J]. 曹建芳,王鴻斌. 計(jì)算機(jī)與數(shù)字工程. 2010(04)
[7]內(nèi)網(wǎng)安全產(chǎn)品中的旁路阻斷技術(shù)分析[J]. 賈大智. 計(jì)算機(jī)安全. 2009(11)
[8]支持向量機(jī)及其應(yīng)用研究[J]. 范秋鳳,陳彥濤. 科技信息. 2009(29)
[9]SVM-KNN分類器在網(wǎng)頁分類中的應(yīng)用[J]. 李蓉,孫媛. 科學(xué)技術(shù)與工程. 2009(16)
[10]基于SVM的分類方法綜述[J]. 張小艷,李強(qiáng). 科技信息. 2008(28)
碩士論文
[1]基于Netfilter的內(nèi)容過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 袁方方.北京郵電大學(xué) 2012
[2]基于DOM的HTML網(wǎng)頁正文信息抽取模塊的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇小魯.北京郵電大學(xué) 2011
[3]局域網(wǎng)網(wǎng)絡(luò)流量捕獲方法的研究[D]. 李慧萍.長春工業(yè)大學(xué) 2011
[4]嵌入式瀏覽器網(wǎng)頁解析器的研究與實(shí)現(xiàn)[D]. 吳銳強(qiáng).電子科技大學(xué) 2011
[5]基于向量空間模型的網(wǎng)頁過濾研究[D]. 李中原.北京化工大學(xué) 2010
[6]基于內(nèi)容過濾的企業(yè)建站審核系統(tǒng)[D]. 翟艷娣.北京郵電大學(xué) 2010
[7]領(lǐng)域本體在網(wǎng)頁內(nèi)容過濾中的應(yīng)用研究[D]. 呂祥惠.山東師范大學(xué) 2009
[8]網(wǎng)頁信息過濾系統(tǒng)的研究與設(shè)計(jì)[D]. 劉輝.蘇州大學(xué) 2009
[9]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
[10]基于旁路阻斷技術(shù)的互聯(lián)網(wǎng)內(nèi)容控制系統(tǒng)設(shè)計(jì)[D]. 馬勤.復(fù)旦大學(xué) 2008
本文編號(hào):3531825
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.2 研究內(nèi)容
1.3 研究現(xiàn)狀
1.4 本文工作和文章結(jié)構(gòu)
第二章 網(wǎng)頁過濾系統(tǒng)關(guān)鍵技術(shù)的研究
2.1 實(shí)時(shí)頁面捕獲
2.1.1 數(shù)據(jù)的監(jiān)聽和捕獲
2.1.2 數(shù)據(jù)的重組
2.1.3 數(shù)據(jù)的解壓縮
2.2 頁面解析
2.2.1 主要技術(shù)的方法比較
2.2.2 頁面解析方法的研究
2.2.3 頁面解析的策略
2.3 文本分類
2.3.1 預(yù)處理
2.3.2 特征選擇
2.3.3 分類
2.4 數(shù)據(jù)流量阻斷
2.5 本章小結(jié)
第三章 網(wǎng)頁過濾系統(tǒng)的分析與設(shè)計(jì)
3.1 需求分析
3.1.1 需求理解
3.1.2 系統(tǒng)主要功能
3.2 總體設(shè)計(jì)
3.2.1 系統(tǒng)規(guī)劃
3.2.2 系統(tǒng)功能架構(gòu)
3.3 主要功能模塊設(shè)計(jì)
3.3.1 頁面數(shù)據(jù)獲取模塊
3.3.2 頁面解析模塊
3.3.3 頁面分類模塊
3.3.4 旁路阻斷模塊
3.3.5 URL分類信息存儲(chǔ)查詢模塊
3.4 本章小結(jié)
第四章 網(wǎng)頁過濾系統(tǒng)的實(shí)現(xiàn)
4.1 實(shí)時(shí)頁面捕獲模塊
4.2 頁面解析模塊
4.3 文本分類模塊
4.4 旁路阻斷模塊
4.5 URL分類信息存儲(chǔ)查詢模塊
4.6 本章小結(jié)
第五章 系統(tǒng)的測(cè)試與優(yōu)化分析
5.1 系統(tǒng)測(cè)試
5.1.1 單元測(cè)試
5.1.2 系統(tǒng)集成測(cè)試
5.2 系統(tǒng)優(yōu)化改進(jìn)
5.3 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J]. 曾俊. 計(jì)算機(jī)應(yīng)用研究. 2012(05)
[2]三種中文文本自動(dòng)分類算法的比較和研究[J]. 陳琳,王箭. 計(jì)算機(jī)與現(xiàn)代化. 2012(02)
[3]基于SVM-KNN的文本分類算法及其分析[J]. 匡春臨,夏清強(qiáng). 計(jì)算機(jī)時(shí)代. 2010(08)
[4]一種高效的TCP會(huì)話數(shù)據(jù)流重組算法及應(yīng)用[J]. 趙啟升,李存華. 微電子學(xué)與計(jì)算機(jī). 2010(07)
[5]SVM-KNN分類算法研究[J]. 趙玲,陳磊琛,余小陸,張盛意. 計(jì)算機(jī)與數(shù)字工程. 2010(06)
[6]一種新的基于SVM-KNN的Web文本分類算法[J]. 曹建芳,王鴻斌. 計(jì)算機(jī)與數(shù)字工程. 2010(04)
[7]內(nèi)網(wǎng)安全產(chǎn)品中的旁路阻斷技術(shù)分析[J]. 賈大智. 計(jì)算機(jī)安全. 2009(11)
[8]支持向量機(jī)及其應(yīng)用研究[J]. 范秋鳳,陳彥濤. 科技信息. 2009(29)
[9]SVM-KNN分類器在網(wǎng)頁分類中的應(yīng)用[J]. 李蓉,孫媛. 科學(xué)技術(shù)與工程. 2009(16)
[10]基于SVM的分類方法綜述[J]. 張小艷,李強(qiáng). 科技信息. 2008(28)
碩士論文
[1]基于Netfilter的內(nèi)容過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 袁方方.北京郵電大學(xué) 2012
[2]基于DOM的HTML網(wǎng)頁正文信息抽取模塊的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇小魯.北京郵電大學(xué) 2011
[3]局域網(wǎng)網(wǎng)絡(luò)流量捕獲方法的研究[D]. 李慧萍.長春工業(yè)大學(xué) 2011
[4]嵌入式瀏覽器網(wǎng)頁解析器的研究與實(shí)現(xiàn)[D]. 吳銳強(qiáng).電子科技大學(xué) 2011
[5]基于向量空間模型的網(wǎng)頁過濾研究[D]. 李中原.北京化工大學(xué) 2010
[6]基于內(nèi)容過濾的企業(yè)建站審核系統(tǒng)[D]. 翟艷娣.北京郵電大學(xué) 2010
[7]領(lǐng)域本體在網(wǎng)頁內(nèi)容過濾中的應(yīng)用研究[D]. 呂祥惠.山東師范大學(xué) 2009
[8]網(wǎng)頁信息過濾系統(tǒng)的研究與設(shè)計(jì)[D]. 劉輝.蘇州大學(xué) 2009
[9]中文分詞關(guān)鍵技術(shù)研究[D]. 曹衛(wèi)峰.南京理工大學(xué) 2009
[10]基于旁路阻斷技術(shù)的互聯(lián)網(wǎng)內(nèi)容控制系統(tǒng)設(shè)計(jì)[D]. 馬勤.復(fù)旦大學(xué) 2008
本文編號(hào):3531825
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3531825.html
最近更新
教材專著