基于大數(shù)據(jù)技術(shù)的日志統(tǒng)計與分析系統(tǒng)研究
本文關(guān)鍵詞:基于大數(shù)據(jù)技術(shù)的日志統(tǒng)計與分析系統(tǒng)研究
更多相關(guān)文章: 大數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 日志統(tǒng)計分析 流程自動化
【摘要】:隨著大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式增長,IDC數(shù)據(jù)表明,全球企業(yè)數(shù)據(jù)正以62%的速度逐年增長,大量數(shù)據(jù)當(dāng)中隱藏著巨大的商業(yè)價值,引起了企業(yè)的廣泛關(guān)注。然而,大數(shù)據(jù)給數(shù)據(jù)的同步、存儲、和數(shù)據(jù)統(tǒng)計分析帶來了一定的問題和困難。本文旨在實現(xiàn)基于大數(shù)據(jù)技術(shù)的日志統(tǒng)計分析系統(tǒng),解決了現(xiàn)有的工具逐漸無法有效的處理大量數(shù)據(jù)的問題。本文在對此系統(tǒng)進行需求分析的基礎(chǔ)上,設(shè)計了以多個分布式集群為基礎(chǔ),數(shù)據(jù)源層、存儲層、計算層相互融合的體系結(jié)構(gòu),設(shè)計并實現(xiàn)了日志數(shù)據(jù)轉(zhuǎn)碼、日志傳輸、自動識別新文件的產(chǎn)生、日志存儲、數(shù)據(jù)查詢的功能。日志數(shù)據(jù)轉(zhuǎn)碼對于GBK格式編碼的日志進行格式轉(zhuǎn)換;日志傳輸提供數(shù)據(jù)從不同終端到儲存系統(tǒng)的數(shù)據(jù)收集、聚合和移動,以便模擬生產(chǎn)環(huán)境中數(shù)據(jù)實時產(chǎn)生的過程;自動識別新文件的產(chǎn)生,不同模塊之間完成通信加載數(shù)據(jù)功能。本文綜合使用了大數(shù)據(jù)生態(tài)圈的各種開源技術(shù),包括Hadoop、Flume NG、Kfaka、Sqoop、Hive、My SQL。從日志數(shù)據(jù)的收集同步,到日志的存儲和計算分析,到最終分析結(jié)果的查詢,涵蓋了使用大數(shù)據(jù)技術(shù)進行日志統(tǒng)計分析的典型流程。本文使用開發(fā)語言Java和shell腳本語言,開發(fā)工具為Intelli J IDEA,VIM。在多臺Cent OS6.5機器之上搭建集群,進行分布式存儲和計算。用戶通過統(tǒng)計分析系統(tǒng)進行日志同步、傳輸、任務(wù)提交和調(diào)度、結(jié)果查詢等操作。
【作者單位】: 北京信息科技大學(xué)計算機學(xué)院;江蘇省徐州市公安局科技處;
【關(guān)鍵詞】: 大數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 日志統(tǒng)計分析 流程自動化
【基金】:北京信息科技大學(xué)2016年人才培養(yǎng)質(zhì)量提高經(jīng)費(5111610800)支持
【分類號】:TP311.13
【正文快照】: 1 概述 搜索引擎的日志文件是由使用者的搜索行為產(chǎn)生的,是對用戶在終端行為的一種記錄。通過對日志文件的分析可以獲得很多有價值的數(shù)據(jù),可以對不同用戶的個性進行更加全面的分析,實現(xiàn)更加個性化的推薦方案。隨著時間的推移,網(wǎng)站的用戶訪問量快速增長,搜索引擎產(chǎn)生的日志數(shù)
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張曉剛;潘久輝;;MS SQL Server 2000日志分析方法的研究與實現(xiàn)[J];計算機工程與設(shè)計;2006年19期
2 李春林;周根鴻;張文體;;重視日志審計確保數(shù)據(jù)安全[J];醫(yī)學(xué)信息;2007年10期
3 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
4 黃海隆;陳賽娉;;計算機日志分析與管理方法的研究[J];大眾科技;2006年07期
5 鄭毅;;基于日志分析的網(wǎng)絡(luò)IDS研究[J];襄樊學(xué)院學(xué)報;2008年11期
6 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期
7 鄒先霞;賈維嘉;潘久輝;;基于數(shù)據(jù)庫日志的變化數(shù)據(jù)捕獲研究[J];小型微型計算機系統(tǒng);2012年03期
8 羅新;;防火墻日志分析系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機時代;2012年02期
9 姜良華;崔建明;;Serv-U FTP服務(wù)器日志分析系統(tǒng)設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年28期
10 李玉榮;楊樹強;賈焰;周斌;樊宇;;分布式日志服務(wù)關(guān)鍵技術(shù)研究[J];計算機工程與應(yīng)用;2006年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 馬辰;武斌;;一種基于攻擊事件圖的蜜網(wǎng)日志分析方法[A];虛擬運營與云計算——第十八屆全國青年通信學(xué)術(shù)年會論文集(下冊)[C];2013年
2 周濤;;基于數(shù)據(jù)挖掘的入侵檢測日志分析技術(shù)研究[A];第二屆中國科學(xué)院博士后學(xué)術(shù)年會暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會議程序冊[C];2010年
3 陳晨;鄭康鋒;;一種基于支持向量機的蜜網(wǎng)系統(tǒng)日志分析方法[A];2011年通信與信息技術(shù)新進展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
4 劉莉;;基于多協(xié)議技術(shù)的日志集中管理安全方案[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年
5 耿濤;;Web日志分析在電子數(shù)據(jù)取證中的應(yīng)用[A];第二十一次全國計算機安全學(xué)術(shù)交流會論文集[C];2006年
6 閆龍川;王懷宇;李楓;毛一凡;;基于Hadoop的郵件日志分析與研究[A];2012電力行業(yè)信息化年會論文集[C];2012年
7 陳慶章;王磊;毛科技;戴國勇;;基于防火墻日志的在線攻擊偵查系統(tǒng)的設(shè)計與實現(xiàn)(英文)[A];全國第19屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年
8 王振亞;武斌;;基于MFI-WT算法的蜜網(wǎng)日志分析方法[A];第十七屆全國青年通信學(xué)術(shù)年會論文集[C];2012年
9 金松昌;方濱興;楊樹強;賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
10 朱金清;王建新;陳志泊;;基于APRIORI的層次化聚類算法及其在IDS日志分析中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 中航工業(yè)南方航空工業(yè)集團(有限)公司科技與信息部 鄒滬湘;分析日志識別暴力破解[N];計算機世界;2013年
2 ;日志分析中的五個誤區(qū)[N];網(wǎng)絡(luò)世界;2004年
3 陳代壽;網(wǎng)管的四兩撥千斤[N];中國計算機報;2004年
4 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;大數(shù)據(jù)日志分析借機器學(xué)習(xí)騰飛[N];網(wǎng)絡(luò)世界;2014年
5 《網(wǎng)絡(luò)世界》評測實驗室 于洋;用好Web日志[N];網(wǎng)絡(luò)世界;2004年
6 重慶 航行者;IIS的安全[N];電腦報;2002年
7 河南工業(yè)職業(yè)技術(shù)學(xué)院 邱建新;監(jiān)測Squid日志的五種方法[N];計算機世界;2005年
8 shotgun;入侵檢測初步(上)[N];電腦報;2001年
9 朱閔;淺談企業(yè)核心應(yīng)用的安全審計(下)[N];網(wǎng)絡(luò)世界;2008年
10 覃進文;在Windows 2000&&2003下快速安裝Webalizer[N];中國電腦教育報;2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 饒翔;基于日志的大規(guī)模分布式軟件系統(tǒng)可信保障技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
2 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學(xué);2014年
3 胡蓉;WEB日志和子空間聚類挖掘算法研究[D];華中科技大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張?zhí)焐?日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2015年
2 周海靖;日志大數(shù)據(jù)分析平臺技術(shù)研究[D];山東大學(xué);2015年
3 賴特;網(wǎng)絡(luò)安全設(shè)備日志融合技術(shù)研究[D];電子科技大學(xué);2015年
4 董妍妍;基于Hadoop的Teradata數(shù)據(jù)倉庫日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
5 李名弈;IPTVQOS日志分析方法研究[D];復(fù)旦大學(xué);2013年
6 劉季函(Liu,Chi Han);基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
7 李榮榮;基于Hadoop平臺的日志分析系統(tǒng)[D];復(fù)旦大學(xué);2013年
8 周云斌;基于主機的日志大數(shù)椐分析及安全性檢查[D];大連理工大學(xué);2015年
9 張迪;基于NoSQL的大規(guī)模Web日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2013年
10 潘宇軒;基于Django的日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
,本文編號:921037
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/921037.html