天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

基于機(jī)器學(xué)習(xí)的EMC存儲設(shè)備日志分析與Bug預(yù)測技術(shù)研究

發(fā)布時間:2018-05-04 08:11

  本文選題:機(jī)器學(xué)習(xí) + 日志分析; 參考:《南京大學(xué)》2014年碩士論文


【摘要】:EMC是一家以存儲設(shè)備、服務(wù)和解決方案為主營業(yè)務(wù)的信息存儲咨詢科技公司,隨著公司業(yè)務(wù)的發(fā)展,越來越多的企業(yè)或個人選擇購買EMC的存儲設(shè)備來進(jìn)行數(shù)據(jù)存儲和備份。存儲設(shè)備每天將運(yùn)行日志上傳到EMC數(shù)據(jù)中心,一旦設(shè)備發(fā)生異常,這些日志就是支持工程師用來維護(hù)和定位用戶設(shè)備中Bug的唯一途徑。而隨著日志文件數(shù)量的不斷增加,大大增加了支持工程師的人工維護(hù)成本和Bug定位的難度,并且設(shè)備Bug的產(chǎn)生也大大影響了用戶對EMC產(chǎn)品的滿意度。由于日志反映了用戶機(jī)器設(shè)備基本信息和每天的運(yùn)行情況,在一個Bug發(fā)生之前,一定可以在日志中找到相關(guān)數(shù)據(jù)的展示或波動預(yù)示Bug的產(chǎn)生。為此,論文項(xiàng)目提出了基于機(jī)器學(xué)習(xí)的日志分析和Bug預(yù)測,使用機(jī)器學(xué)習(xí)的方法找出Bug產(chǎn)生的規(guī)律來主動發(fā)現(xiàn)用戶機(jī)器設(shè)備中存在的問題,幫助支持工程師及時發(fā)現(xiàn)并解決Bug,提高處理效率并且減少設(shè)備故障率。論文選定有關(guān)存儲磁盤的Bug作為研究對象,分成兩個部分完成對存儲磁盤Bug的預(yù)測。第一個部分進(jìn)行日志內(nèi)容的提取和存儲,把日志中有關(guān)于存儲段落的數(shù)據(jù)使用相關(guān)的正則表達(dá)式進(jìn)行匹配和提取,存儲到Greenplum數(shù)據(jù)庫中;第二個部分對提取出的日志數(shù)據(jù)使用Weka進(jìn)行機(jī)器學(xué)習(xí),建立Bug預(yù)測模型。論文選擇Weka中決策樹和貝葉斯的相關(guān)算法對數(shù)據(jù)進(jìn)行學(xué)習(xí)建模,對比不同模型的優(yōu)劣,最終選定一種算法建立預(yù)測模型對存儲磁盤的Bug做出預(yù)測。論文主貢獻(xiàn)包括以下幾點(diǎn):(1)提出了用于日志提取和Bug預(yù)測的解決方案,對存儲磁盤Bug相關(guān)的日志提取和預(yù)測需求進(jìn)行準(zhǔn)確的描述和定義。(2)設(shè)計并實(shí)現(xiàn)了對日志內(nèi)容進(jìn)行提取和存儲的框架,可以支持對日志內(nèi)容根據(jù)需求進(jìn)行提取和存儲的擴(kuò)展。(3)使用Weka進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練,最終選定貝葉斯網(wǎng)絡(luò)建立Bug預(yù)測模型,達(dá)到88%的預(yù)測正確率和低于13%的漏報率。
[Abstract]:EMC is an information storage consulting technology company with storage devices, services and solutions as its main business. With the development of its business, more and more enterprises or individuals choose to purchase EMC storage devices for data storage and backup. Storage devices upload daily running logs to the EMC data center, which is the only way to support engineers to maintain and locate Bug in user devices in the event of device exceptions. With the increase of the number of log files, the cost of supporting engineers' manual maintenance and the difficulty of Bug positioning are greatly increased, and the production of equipment Bug greatly affects the user's satisfaction with EMC products. Because the log reflects the basic information of the user's machine and equipment and the daily running condition, before a Bug occurs, the display or fluctuation of the relevant data can be found in the log to predict the production of the Bug. For this reason, the paper puts forward log analysis and Bug prediction based on machine learning, using machine learning method to find out the rule of Bug production to actively discover the problems existing in user's machine equipment. Help support engineer to detect and solve Bug in time, improve handling efficiency and reduce equipment failure rate. In this paper, the Bug of storage disk is selected as the research object, and the prediction of storage disk Bug is completed in two parts. In the first part, the contents of the log are extracted and stored, and the data about the stored paragraphs are matched and extracted by using the relevant regular expressions in the log, and stored in the Greenplum database. In the second part, Weka is used to learn the extracted log data, and the Bug prediction model is established. This paper selects the decision tree and Bayesian algorithms in Weka to model the data, compares the advantages and disadvantages of different models, and finally selects an algorithm to build a prediction model to predict the Bug of the storage disk. The main contributions of this paper are as follows: 1) A solution for log extraction and Bug prediction is proposed. The log extraction and prediction requirements related to storage disk Bug are described and defined accurately. 2) the framework of extracting and storing log contents is designed and implemented. It can support the extension of extracting and storing log content according to the requirement. It can use Weka to train the machine learning model. Finally, Bayesian network is selected to establish the Bug prediction model, and the prediction accuracy is 88% and the false report rate is less than 13%.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP181;TP333

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張曉剛;潘久輝;;MS SQL Server 2000日志分析方法的研究與實(shí)現(xiàn)[J];計算機(jī)工程與設(shè)計;2006年19期

2 李春林;周根鴻;張文體;;重視日志審計確保數(shù)據(jù)安全[J];醫(yī)學(xué)信息;2007年10期

3 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(自然科學(xué)版);2009年S1期

4 黃海隆;陳賽娉;;計算機(jī)日志分析與管理方法的研究[J];大眾科技;2006年07期

5 鄭毅;;基于日志分析的網(wǎng)絡(luò)IDS研究[J];襄樊學(xué)院學(xué)報;2008年11期

6 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期

7 鄒先霞;賈維嘉;潘久輝;;基于數(shù)據(jù)庫日志的變化數(shù)據(jù)捕獲研究[J];小型微型計算機(jī)系統(tǒng);2012年03期

8 羅新;;防火墻日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)時代;2012年02期

9 姜良華;崔建明;;Serv-U FTP服務(wù)器日志分析系統(tǒng)設(shè)計與實(shí)現(xiàn)[J];電腦知識與技術(shù);2010年28期

10 李玉榮;楊樹強(qiáng);賈焰;周斌;樊宇;;分布式日志服務(wù)關(guān)鍵技術(shù)研究[J];計算機(jī)工程與應(yīng)用;2006年07期

相關(guān)會議論文 前10條

1 馬辰;武斌;;一種基于攻擊事件圖的蜜網(wǎng)日志分析方法[A];虛擬運(yùn)營與云計算——第十八屆全國青年通信學(xué)術(shù)年會論文集(下冊)[C];2013年

2 周濤;;基于數(shù)據(jù)挖掘的入侵檢測日志分析技術(shù)研究[A];第二屆中國科學(xué)院博士后學(xué)術(shù)年會暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會議程序冊[C];2010年

3 陳晨;鄭康鋒;;一種基于支持向量機(jī)的蜜網(wǎng)系統(tǒng)日志分析方法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年

4 劉莉;;基于多協(xié)議技術(shù)的日志集中管理安全方案[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年

5 耿濤;;Web日志分析在電子數(shù)據(jù)取證中的應(yīng)用[A];第二十一次全國計算機(jī)安全學(xué)術(shù)交流會論文集[C];2006年

6 閆龍川;王懷宇;李楓;毛一凡;;基于Hadoop的郵件日志分析與研究[A];2012電力行業(yè)信息化年會論文集[C];2012年

7 陳慶章;王磊;毛科技;戴國勇;;基于防火墻日志的在線攻擊偵查系統(tǒng)的設(shè)計與實(shí)現(xiàn)(英文)[A];全國第19屆計算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年

8 王振亞;武斌;;基于MFI-WT算法的蜜網(wǎng)日志分析方法[A];第十七屆全國青年通信學(xué)術(shù)年會論文集[C];2012年

9 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年

10 朱金清;王建新;陳志泊;;基于APRIORI的層次化聚類算法及其在IDS日志分析中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年

相關(guān)重要報紙文章 前10條

1 中航工業(yè)南方航空工業(yè)集團(tuán)(有限)公司科技與信息部 鄒滬湘;分析日志識別暴力破解[N];計算機(jī)世界;2013年

2 ;日志分析中的五個誤區(qū)[N];網(wǎng)絡(luò)世界;2004年

3 陳代壽;網(wǎng)管的四兩撥千斤[N];中國計算機(jī)報;2004年

4 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;大數(shù)據(jù)日志分析借機(jī)器學(xué)習(xí)騰飛[N];網(wǎng)絡(luò)世界;2014年

5 《網(wǎng)絡(luò)世界》評測實(shí)驗(yàn)室 于洋;用好Web日志[N];網(wǎng)絡(luò)世界;2004年

6 重慶 航行者;IIS的安全[N];電腦報;2002年

7 河南工業(yè)職業(yè)技術(shù)學(xué)院 邱建新;監(jiān)測Squid日志的五種方法[N];計算機(jī)世界;2005年

8 shotgun;入侵檢測初步(上)[N];電腦報;2001年

9 朱閔;淺談企業(yè)核心應(yīng)用的安全審計(下)[N];網(wǎng)絡(luò)世界;2008年

10 覃進(jìn)文;在Windows 2000&&2003下快速安裝Webalizer[N];中國電腦教育報;2003年

相關(guān)博士學(xué)位論文 前3條

1 饒翔;基于日志的大規(guī)模分布式軟件系統(tǒng)可信保障技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

2 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學(xué);2014年

3 胡蓉;WEB日志和子空間聚類挖掘算法研究[D];華中科技大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 張?zhí)焐?日志采集與分析在Web網(wǎng)站中的設(shè)計與實(shí)現(xiàn)[D];上海交通大學(xué);2015年

2 周海靖;日志大數(shù)據(jù)分析平臺技術(shù)研究[D];山東大學(xué);2015年

3 賴特;網(wǎng)絡(luò)安全設(shè)備日志融合技術(shù)研究[D];電子科技大學(xué);2015年

4 董妍妍;基于Hadoop的Teradata數(shù)據(jù)倉庫日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];南京大學(xué);2014年

5 李名弈;IPTVQOS日志分析方法研究[D];復(fù)旦大學(xué);2013年

6 劉季函(Liu,Chi Han);基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];南京大學(xué);2014年

7 李榮榮;基于Hadoop平臺的日志分析系統(tǒng)[D];復(fù)旦大學(xué);2013年

8 周云斌;基于主機(jī)的日志大數(shù)椐分析及安全性檢查[D];大連理工大學(xué);2015年

9 張迪;基于NoSQL的大規(guī)模Web日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年

10 潘宇軒;基于Django的日志分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];南京大學(xué);2014年

,

本文編號:1842271

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1842271.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fda86***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com