天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于異常檢測技術(shù)的數(shù)據(jù)防爬系統(tǒng)設(shè)計與應(yīng)用

發(fā)布時間:2017-10-19 03:00

  本文關(guān)鍵詞:基于異常檢測技術(shù)的數(shù)據(jù)防爬系統(tǒng)設(shè)計與應(yīng)用


  更多相關(guān)文章: 大數(shù)據(jù)分析 數(shù)據(jù)防爬 異常檢測


【摘要】:近幾年來,大數(shù)據(jù)技術(shù)在世界范圍內(nèi)發(fā)展迅猛,多個國家將大數(shù)據(jù)提升到國家戰(zhàn)略的高度,“大數(shù)據(jù)是二十一世紀(jì)的石油”。讓數(shù)據(jù)發(fā)揮價值的最有效手段是開放和共享,讓數(shù)據(jù)利用起來、流動起來,從而發(fā)揮它的最大價值。隨著互聯(lián)網(wǎng)應(yīng)用的日益普及,開放和共享面臨很多安全問題,數(shù)據(jù)被惡意爬取是面臨的最重要安全問題之一;ヂ(lián)網(wǎng)上存在很多爬蟲程序,可被任意下載,惡意人員利用這些爬蟲,通過Web頁面或數(shù)據(jù)接口,從一個入口開始遍歷,逐一訪問并獲取每個頁面的數(shù)據(jù),從而收集大量數(shù)據(jù)。大量數(shù)據(jù)的外泄,對提供數(shù)據(jù)開放的互聯(lián)網(wǎng)公司造成嚴(yán)重數(shù)據(jù)安全問題。數(shù)據(jù)開放的初衷是讓正常用戶使用、分享,產(chǎn)生新的數(shù)據(jù),基于新產(chǎn)生的數(shù)據(jù)挖掘分析產(chǎn)生更大的價值。由于網(wǎng)絡(luò)爬蟲帶來的惡意訪問,給信息服務(wù)提供者帶來大量成本消耗,包括服務(wù)器和網(wǎng)絡(luò),同時大量數(shù)據(jù)外泄,脫離互聯(lián)網(wǎng)公司有效控制,被不合理甚至非法的利用,產(chǎn)生更多安全問題,也偏離數(shù)據(jù)開放、分享的目的。本文針對互聯(lián)網(wǎng)公司信息服務(wù)系統(tǒng)的特點,設(shè)計部署數(shù)據(jù)采集點,配置防御規(guī)則及檢測算法。基于大數(shù)據(jù)分析系統(tǒng),采用Flume實現(xiàn)數(shù)據(jù)采集,Kafka實現(xiàn)數(shù)據(jù)整合,部署Agent進(jìn)行快速高效的數(shù)據(jù)收集;采用Storm構(gòu)建實時分析檢測系統(tǒng),完成不同維度訪問頻率的統(tǒng)計,并基于統(tǒng)計數(shù)據(jù)構(gòu)成的序列數(shù)據(jù)進(jìn)行異常訪問行為檢測。利用異常檢測技術(shù),識別數(shù)據(jù)被爬取的網(wǎng)站,并且根據(jù)訪問頻率來判斷爬蟲來源,從而發(fā)現(xiàn)并識別爬蟲訪問;搭建爬蟲攔截系統(tǒng),切入業(yè)務(wù)系統(tǒng)的處理流程,接收實時分析系統(tǒng)生成的爬蟲IP信息,檢測并攔截每次訪問請求,對于來自爬蟲的訪問,實施處罰處理。通過基于大數(shù)據(jù)的實時計算技術(shù),實現(xiàn)了網(wǎng)站運(yùn)行情況的數(shù)據(jù)采集及統(tǒng)計,實時產(chǎn)出數(shù)據(jù)報表,精確感知網(wǎng)站運(yùn)行狀況;利用運(yùn)行數(shù)據(jù)來優(yōu)化網(wǎng)站,提高系統(tǒng)可用性,并可以預(yù)測網(wǎng)站的訪問量的正常增長,以便及時擴(kuò)充服務(wù)器和帶寬,對于異常的訪問量暴增,能夠通過異常檢測算法快速識別,并阻斷來自惡意IP的所有訪問,降低資源消耗,同時避免數(shù)據(jù)泄露的風(fēng)險,保證網(wǎng)站的平穩(wěn)運(yùn)行。
【關(guān)鍵詞】:大數(shù)據(jù)分析 數(shù)據(jù)防爬 異常檢測
【學(xué)位授予單位】:中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 緒論10-18
  • 1.1 研究背景與意義10-11
  • 1.2 研究現(xiàn)狀及進(jìn)展11-15
  • 1.2.1 互聯(lián)網(wǎng)數(shù)據(jù)開放11-12
  • 1.2.2 大數(shù)據(jù)處理技術(shù)12
  • 1.2.3 網(wǎng)頁爬蟲技術(shù)研究12-14
  • 1.2.4 異常檢測技術(shù)14-15
  • 1.2.5 防爬方面的技術(shù)15
  • 1.3 本文主要研究內(nèi)容15-16
  • 1.4 本文組織結(jié)構(gòu)16-18
  • 第二章 關(guān)鍵技術(shù)分析18-34
  • 2.1 異常檢測技術(shù)18-24
  • 2.1.1 時間序列數(shù)據(jù)19
  • 2.1.2 Breakout檢測算法19-22
  • 2.1.3 3-Sigmal相關(guān)算法22-24
  • 2.2 大數(shù)據(jù)處理技術(shù)24-30
  • 2.2.1 數(shù)據(jù)采集技術(shù)24-28
  • 2.2.2 實時計算技術(shù)28-30
  • 2.3 分布式緩存30-32
  • 2.4 小結(jié)32-34
  • 第三章 防爬系統(tǒng)的設(shè)計與實現(xiàn)34-58
  • 3.1 數(shù)據(jù)特征及分析需求34-36
  • 3.1.1 信息服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計需求35
  • 3.1.2 信息服務(wù)網(wǎng)站的防爬需求35-36
  • 3.2 總體設(shè)計36-37
  • 3.3 數(shù)據(jù)采集層設(shè)計與實現(xiàn)37-42
  • 3.3.1 采集數(shù)據(jù)的類型與格式37-38
  • 3.3.2 數(shù)據(jù)采集模式設(shè)計與實現(xiàn)38-42
  • 3.4 實時分析設(shè)計與實現(xiàn)42-50
  • 3.4.1 實時分析總體結(jié)構(gòu)42-45
  • 3.4.2 異常檢測算法設(shè)計與實現(xiàn)45-46
  • 3.4.3 Breakout算法設(shè)計與實現(xiàn)46-47
  • 3.4.4 降低誤報設(shè)計與實現(xiàn)47-50
  • 3.5 數(shù)據(jù)防爬層設(shè)計與實現(xiàn)50-56
  • 3.5.1 客戶端設(shè)計與實現(xiàn)51-54
  • 3.5.2 服務(wù)端設(shè)計與實現(xiàn)54-56
  • 3.6 小結(jié)56-58
  • 第四章 應(yīng)用與效果分析58-68
  • 4.1 系統(tǒng)運(yùn)行環(huán)境58-61
  • 4.1.1 支撐軟件環(huán)境59
  • 4.1.2 系統(tǒng)邏輯架構(gòu)59-61
  • 4.2 系統(tǒng)應(yīng)用61-66
  • 4.2.1 后臺管理61-64
  • 4.2.2 數(shù)據(jù)分析64-65
  • 4.2.3 應(yīng)用效果65-66
  • 4.3 小結(jié)66-68
  • 第五章 結(jié)論與展望68-70
  • 5.1 結(jié)論68
  • 5.2 展望68-70
  • 參考文獻(xiàn)70-74
  • 致謝74-76
  • 個人簡歷、在學(xué)期間發(fā)表的論文與研究成果76

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 閻巧,謝維信;異常檢測技術(shù)的研究與發(fā)展[J];西安電子科技大學(xué)學(xué)報;2002年01期

2 田琳;黃文海;;無線局域網(wǎng)基于靜態(tài)馬爾可夫鏈的異常檢測技術(shù)研究[J];科技信息(學(xué)術(shù)研究);2008年24期

3 苗強(qiáng);周興社;倪紅波;張桂英;周珊丹;;基于行為規(guī)律的異常檢測技術(shù)研究[J];計算機(jī)工程與應(yīng)用;2010年15期

4 崔錫鑫;蘇偉;劉穎;;基于熵的流量分析和異常檢測技術(shù)研究與實現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2013年05期

5 金文進(jìn);楊武;;異常檢測技術(shù)研究綜述[J];軟件導(dǎo)刊;2008年01期

6 安景琦,劉貴全,錢權(quán);一種基于隱Markov模型的異常檢測技術(shù)[J];計算機(jī)應(yīng)用;2005年08期

7 胡亮;金剛;于漫;任斐;任維武;;基于異常檢測的入侵檢測技術(shù)[J];吉林大學(xué)學(xué)報(理學(xué)版);2009年06期

8 高旭麟;;視頻監(jiān)控圖像異常檢測技術(shù)在安防行業(yè)中的應(yīng)用[J];中國公共安全;2013年12期

9 周彬彬;崔寶江;楊義先;;基于系統(tǒng)行為分析的異常檢測技術(shù)研究[J];電信科學(xué);2009年02期

10 張劍,龔儉;一種基于模糊綜合評判的入侵異常檢測方法[J];計算機(jī)研究與發(fā)展;2003年06期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 李涵;;一種改進(jìn)的聚類方法在異常檢測中的應(yīng)用[A];2010年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 那罡;檢測異常網(wǎng)絡(luò) 阻擋DoS攻擊[N];中國計算機(jī)報;2008年

2 ;千兆網(wǎng)絡(luò)的安全防護(hù)神[N];中國計算機(jī)報;2003年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 于赫;網(wǎng)聯(lián)汽車信息安全問題及CAN總線異常檢測技術(shù)研究[D];吉林大學(xué);2016年

2 林果園;基于主機(jī)行為的異常檢測技術(shù)研究[D];南京大學(xué);2011年

3 吳志忠;移動設(shè)備及網(wǎng)絡(luò)的異常檢測方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

4 夏正敏;基于分形的網(wǎng)絡(luò)流量分析及異常檢測技術(shù)研究[D];上海交通大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 林旭;基于WEB訪問日志的異常檢測技術(shù)研究[D];中國海洋大學(xué);2015年

2 任宏偉;基于異常檢測技術(shù)的數(shù)據(jù)防爬系統(tǒng)設(shè)計與應(yīng)用[D];中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2016年

3 楊斌;基于聚類的異常檢測技術(shù)的研究[D];中南大學(xué);2008年

4 朱義鑫;基于網(wǎng)絡(luò)的隱馬爾可夫異常檢測技術(shù)研究[D];新疆大學(xué);2005年

5 李斌;基于正常簡檔聚類的自適應(yīng)異常檢測技術(shù)研究[D];中南大學(xué);2009年

6 楊宇舟;基于特征提取的聚類異常檢測技術(shù)的研究與實現(xiàn)[D];電子科技大學(xué);2012年

7 王冬陽;面向云計算的異常檢測技術(shù)的研究與實現(xiàn)[D];上海交通大學(xué);2013年

8 宋歌;基于程序行為的異常檢測技術(shù)研究[D];西安電子科技大學(xué);2002年

9 乜聚虎;智能手機(jī)異常檢測技術(shù)研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年

10 呂云潔;基于數(shù)據(jù)流的異常檢測技術(shù)及應(yīng)用的研究[D];華北電力大學(xué)(河北);2008年



本文編號:1058648

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1058648.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3a0a5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com