基于某商業(yè)銀行KPI數(shù)據(jù)的概念漂移檢測和關聯(lián)性分析
發(fā)布時間:2021-08-16 00:59
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,網(wǎng)絡規(guī)模也較過去幾何級數(shù)增長,IT運維系統(tǒng)高效快速的處理也逐漸成為熱點。同時,由于機器學習技術(shù)的普及。將各種機器學習方法與運維技術(shù)結(jié)合,形成人工智能運維AIOps(Artifical Intelligence Operations)技術(shù)。在這一背景下,本文以實際某商業(yè)銀行的KPI數(shù)據(jù),研究了KPI(關鍵性能指標Key Performance Indicator)概念漂移檢測和基于相似度的關聯(lián)性分析問題。本文的主要工作如下:1.介紹AIOps的發(fā)展歷程,重點介紹針對運維數(shù)據(jù)的概念漂移測和關聯(lián)性分析的研究現(xiàn)狀。并由此闡述該相關研究的重要意義。2.提出綜合法來進行概念漂移檢測,概念漂移是指運維數(shù)據(jù)的分布發(fā)生了顯著變化。一般的異常值檢測算法由于依靠采集一段時間窗口內(nèi)的歷史數(shù)據(jù)進行計算,在數(shù)據(jù)分布發(fā)生改變后無法及時進行調(diào)整,會出現(xiàn)一段時間的誤報,直到窗口數(shù)據(jù)完全滑動到變化后的數(shù)據(jù)之后誤報才能停止。精準的確定概念漂移后,可以及時對算法進行調(diào)整,有效的減少誤報。目前較為完善的方法為StepWise方法。本文在StepWise方法的基礎上結(jié)合核密度估計來對概念漂移進行檢測。并...
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.2:周期性數(shù)據(jù)??其次,KPI數(shù)據(jù)的值域分為兩種,有些指標是通過百分率來衡量,例如內(nèi)??存占用率,此時數(shù)值的值域為0,?100
?山東大學碩士學位論文???04-01?00?04-01?12?04-02?00?04-C2?12?04-03?00?04-45312?04-04?00?04-<S4?12?04-M?<XJ??圖2.3:聚合前無明顯周期性數(shù)據(jù)??jma-ftR-ftj?7at^a?-^i??圖2.4:聚合后數(shù)據(jù)顯示周期性??看出周期性。圖2.3里的數(shù)據(jù)是按每分鐘的數(shù)據(jù)量進行作圖的,按十分鐘的時間??間隔進行聚合后,得到圖2.4,可以看出有一定的周期性。??第四,數(shù)據(jù)顆粒度不一定是均勻的數(shù)據(jù)顆粒度是指數(shù)據(jù)的細化程度,??細化程度越高,粒度越校雖然一般設定上是每分鐘/三分鐘/十分鐘統(tǒng)計一次??數(shù)據(jù),但是實際上,運維數(shù)據(jù)經(jīng)常出現(xiàn)缺失,有時是數(shù)分鐘,也可能會有數(shù)小??時或者數(shù)天的情況。這是運維數(shù)據(jù)處理時必須考慮的情況。也增加了數(shù)據(jù)處理??的難度。??第五,異常值是少數(shù)情況一線運維中,大部分的會報出的錯誤警告,??都是由于正常的生產(chǎn)情況造成的誤報。大部分的警告不影響運維的正常運行。??實際上,AIOps需要解決的一個問題并不是難以及時發(fā)現(xiàn)異常,而是對于異常??太過于敏感。警告信息太多,而使得真正需要引起運維人員的異常淹沒于大量??不必要的異常警報之中,難以得到優(yōu)先處理。??第六,異常發(fā)生的原因是隨時間變化的[281。異常每次發(fā)生的原因,雖然可??能會有相似之處,但是實際由于運維系統(tǒng)的不斷更新,實際原因可能隨時發(fā)生??變化。這也使得傳統(tǒng)的有監(jiān)督的機器學習難以大規(guī)模應用在AIOps人工智能運??維當中?梢钥紤]使用無監(jiān)督的機器學習方法,來解決尋找異常值原因的難??題。??2.2概念漂移概念??概念漂移是機器學習領域
由此可見,當參數(shù)發(fā)生變化,導致數(shù)據(jù)分布發(fā)生改變的時候,對??應的點的SST的值也會明顯增高。由此可知,可以借此判定發(fā)生概念漂移的??占[叫。??…nKtKK??0?500?1000?1500?2000?2500?3000???score???0.0006?-??0.0005?-??0.0004?-??0.0003-?.?I??0.0002-??〇〇〇〇〇.?____??0?500?1000?1500?2000?2500?3000??圖2.5:?SST模型示意圖??singular-spectrum-transformation模型(下面稱為奇異譜轉(zhuǎn)換或SST)的主??要思路為利用P?C?A來探索時間序列當中每個點過去和未來之間差異的“度”。??并且將這種差異度轉(zhuǎn)化為給每個點打分的分值。Moskvina-Zhigljavsky提出了??運用奇異譜分析方法來計算改變的度量。這個技術(shù)來源于漢克爾矩陣(Hankel??matrix)的奇異值分解(SVD)。漢克爾矩陣是指每一條逆對角線上的元素??都相等的矩陣。由于奇異值分解可以運用于幾乎各種類型的矩陣,而不需要??對矩陣進行特別的調(diào)整,因此這種算法可以應用于各種不同類型的時間序??列數(shù)據(jù),具有較強的適用性。SST變換的本質(zhì)是找出每個點前的一系列點,??即(a;(i?_p)?:?a;⑷)和之后的一系列點(a:(i)?:?;r(i?+?p))的動態(tài)變化。前后的點計算??出的差別經(jīng)過正則化后,閾值介于0和1之間。本文中將這個差別記為%⑷。??用漢克爾矩陣計算過程如下:用丑⑷來表示漢克爾矩陣,??H(t)?=?[seq(t?—?n),?
【參考文獻】:
期刊論文
[1]人工智能在網(wǎng)絡運維中的應用[J]. 牛小杰. 電子技術(shù)與軟件工程. 2019(23)
[2]交通銀行的智能運維(AIOPS)實踐[J]. 鄭仕輝. 金融電子化. 2019(01)
[3]SA-DBSCAN:一種自適應基于密度聚類算法[J]. 夏魯寧,荊繼武. 中國科學院研究生院學報. 2009(04)
[4]數(shù)據(jù)挖掘中GridLOF算法的研究與改進[J]. 王新旭,黃立文. 現(xiàn)代計算機(專業(yè)版). 2007(11)
[5]基于核密度估計的分布數(shù)據(jù)流離群點檢測[J]. 楊宜東,孫志揮,張凈. 計算機研究與發(fā)展. 2005(09)
[6]關聯(lián)規(guī)則挖掘綜述[J]. 蔡偉杰,張曉輝,朱建秋,朱揚勇. 計算機工程. 2001(05)
碩士論文
[1]基于機器學習的AIOps技術(shù)研究[D]. 黃偉.北京交通大學 2019
[2]基于概念漂移的流數(shù)據(jù)異常檢測平臺研究[D]. 徐彬.哈爾濱工業(yè)大學 2019
本文編號:3345258
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.2:周期性數(shù)據(jù)??其次,KPI數(shù)據(jù)的值域分為兩種,有些指標是通過百分率來衡量,例如內(nèi)??存占用率,此時數(shù)值的值域為0,?100
?山東大學碩士學位論文???04-01?00?04-01?12?04-02?00?04-C2?12?04-03?00?04-45312?04-04?00?04-<S4?12?04-M?<XJ??圖2.3:聚合前無明顯周期性數(shù)據(jù)??jma-ftR-ftj?7at^a?-^i??圖2.4:聚合后數(shù)據(jù)顯示周期性??看出周期性。圖2.3里的數(shù)據(jù)是按每分鐘的數(shù)據(jù)量進行作圖的,按十分鐘的時間??間隔進行聚合后,得到圖2.4,可以看出有一定的周期性。??第四,數(shù)據(jù)顆粒度不一定是均勻的數(shù)據(jù)顆粒度是指數(shù)據(jù)的細化程度,??細化程度越高,粒度越校雖然一般設定上是每分鐘/三分鐘/十分鐘統(tǒng)計一次??數(shù)據(jù),但是實際上,運維數(shù)據(jù)經(jīng)常出現(xiàn)缺失,有時是數(shù)分鐘,也可能會有數(shù)小??時或者數(shù)天的情況。這是運維數(shù)據(jù)處理時必須考慮的情況。也增加了數(shù)據(jù)處理??的難度。??第五,異常值是少數(shù)情況一線運維中,大部分的會報出的錯誤警告,??都是由于正常的生產(chǎn)情況造成的誤報。大部分的警告不影響運維的正常運行。??實際上,AIOps需要解決的一個問題并不是難以及時發(fā)現(xiàn)異常,而是對于異常??太過于敏感。警告信息太多,而使得真正需要引起運維人員的異常淹沒于大量??不必要的異常警報之中,難以得到優(yōu)先處理。??第六,異常發(fā)生的原因是隨時間變化的[281。異常每次發(fā)生的原因,雖然可??能會有相似之處,但是實際由于運維系統(tǒng)的不斷更新,實際原因可能隨時發(fā)生??變化。這也使得傳統(tǒng)的有監(jiān)督的機器學習難以大規(guī)模應用在AIOps人工智能運??維當中?梢钥紤]使用無監(jiān)督的機器學習方法,來解決尋找異常值原因的難??題。??2.2概念漂移概念??概念漂移是機器學習領域
由此可見,當參數(shù)發(fā)生變化,導致數(shù)據(jù)分布發(fā)生改變的時候,對??應的點的SST的值也會明顯增高。由此可知,可以借此判定發(fā)生概念漂移的??占[叫。??…nKtKK??0?500?1000?1500?2000?2500?3000???score???0.0006?-??0.0005?-??0.0004?-??0.0003-?.?I??0.0002-??〇〇〇〇〇.?____??0?500?1000?1500?2000?2500?3000??圖2.5:?SST模型示意圖??singular-spectrum-transformation模型(下面稱為奇異譜轉(zhuǎn)換或SST)的主??要思路為利用P?C?A來探索時間序列當中每個點過去和未來之間差異的“度”。??并且將這種差異度轉(zhuǎn)化為給每個點打分的分值。Moskvina-Zhigljavsky提出了??運用奇異譜分析方法來計算改變的度量。這個技術(shù)來源于漢克爾矩陣(Hankel??matrix)的奇異值分解(SVD)。漢克爾矩陣是指每一條逆對角線上的元素??都相等的矩陣。由于奇異值分解可以運用于幾乎各種類型的矩陣,而不需要??對矩陣進行特別的調(diào)整,因此這種算法可以應用于各種不同類型的時間序??列數(shù)據(jù),具有較強的適用性。SST變換的本質(zhì)是找出每個點前的一系列點,??即(a;(i?_p)?:?a;⑷)和之后的一系列點(a:(i)?:?;r(i?+?p))的動態(tài)變化。前后的點計算??出的差別經(jīng)過正則化后,閾值介于0和1之間。本文中將這個差別記為%⑷。??用漢克爾矩陣計算過程如下:用丑⑷來表示漢克爾矩陣,??H(t)?=?[seq(t?—?n),?
【參考文獻】:
期刊論文
[1]人工智能在網(wǎng)絡運維中的應用[J]. 牛小杰. 電子技術(shù)與軟件工程. 2019(23)
[2]交通銀行的智能運維(AIOPS)實踐[J]. 鄭仕輝. 金融電子化. 2019(01)
[3]SA-DBSCAN:一種自適應基于密度聚類算法[J]. 夏魯寧,荊繼武. 中國科學院研究生院學報. 2009(04)
[4]數(shù)據(jù)挖掘中GridLOF算法的研究與改進[J]. 王新旭,黃立文. 現(xiàn)代計算機(專業(yè)版). 2007(11)
[5]基于核密度估計的分布數(shù)據(jù)流離群點檢測[J]. 楊宜東,孫志揮,張凈. 計算機研究與發(fā)展. 2005(09)
[6]關聯(lián)規(guī)則挖掘綜述[J]. 蔡偉杰,張曉輝,朱建秋,朱揚勇. 計算機工程. 2001(05)
碩士論文
[1]基于機器學習的AIOps技術(shù)研究[D]. 黃偉.北京交通大學 2019
[2]基于概念漂移的流數(shù)據(jù)異常檢測平臺研究[D]. 徐彬.哈爾濱工業(yè)大學 2019
本文編號:3345258
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3345258.html
最近更新
教材專著