基于改進隨機森林的硬盤故障預(yù)測方法研究
發(fā)布時間:2021-07-11 14:02
隨著工業(yè)物聯(lián)網(wǎng)、云存儲、云計算、大數(shù)據(jù)等新興信息技術(shù)的出現(xiàn)和迅猛發(fā)展,全球數(shù)據(jù)總量呈現(xiàn)指數(shù)級的增長,全球接近90%的數(shù)據(jù)存儲在數(shù)據(jù)中心的硬盤中。由于硬盤自身結(jié)構(gòu)和數(shù)據(jù)存儲機制,硬盤一旦出現(xiàn)故障,硬盤中存儲的數(shù)據(jù)可能永久丟失,給企業(yè)和個人帶來嚴重的損失。雖然數(shù)據(jù)的冗余備份機制可以預(yù)防硬盤故障時數(shù)據(jù)的丟失,但是增加了數(shù)據(jù)存儲的成本,對硬盤進行故障預(yù)測成為目前最主流的方法。硬盤的S.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)技術(shù)和數(shù)據(jù)中心運維技術(shù)的發(fā)展,為硬盤的故障預(yù)測奠定了基礎(chǔ)。目前,幾乎所有的硬盤都支持S.M.A.R.T.技術(shù),這為硬盤的故障預(yù)測提供了數(shù)據(jù)基礎(chǔ),同時數(shù)據(jù)中心的運維方式正由自動化運維向基于機器學(xué)習(xí)方法的智能化運維方向轉(zhuǎn)變,使用機器學(xué)習(xí)方法進行硬盤故障預(yù)測,可以提高硬盤故障預(yù)測的準確率,保障數(shù)據(jù)存儲的安全可靠。本文分析了真實數(shù)據(jù)中心場景下硬盤S.M.A.R.T.數(shù)據(jù)的特點,同時選擇使用改進隨機森林算法建立故障預(yù)測模型,對硬盤故障進行預(yù)測。本文的主要研究工作包括:(1)針對真實數(shù)據(jù)中心場景下,硬盤S.M...
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
一個或多個S.M.A.R.T.屬性值大于0的硬盤狀態(tài)統(tǒng)計圖
()tf X為硬盤故障預(yù)測模型, 為一種抽象的狀態(tài)閾值,則硬盤故障預(yù)測過程可以定義為公式(2.1)。狀態(tài)閾值 是一個抽象概念,用于區(qū)分正常硬盤和即將故障的硬盤,例如支持向量機中的超平面。當(dāng)硬盤故障預(yù)測模型輸出值超過狀態(tài)閾值時,則表示硬盤即將發(fā)生故障,故障預(yù)測模型建立的過程實則就是 ()tf X和 的求解過程。FailurefXYesNot ( () )?:(2.1)第三步是硬盤故障預(yù)測模型的測試和評價。如圖 2.3 所示,硬盤故障預(yù)測模型的構(gòu)建通常是多次訓(xùn)練和優(yōu)化的結(jié)果,并不是一次訓(xùn)練的過程,訓(xùn)練過程中通過對模型中的參數(shù)進行多次不同值的選取,并進行不同參數(shù)值下模型的預(yù)測性能測試,來保證最大程度的使算法訓(xùn)練出模型接近最優(yōu)。測試過程中使用測試數(shù)據(jù)集來對在訓(xùn)練數(shù)據(jù)集上建立的預(yù)測模型的性能進行評價,測試過程中通常使用交叉驗證的方法,評價的指標包括精確度(Precision)、準確率(accuracy)和召回率(Recall)等,在 2.3.2 節(jié)中,本文將對硬盤故障預(yù)測的評價指標進行詳細介紹。
因此提出 F-值(F measure)來平衡兩2.5)所示。F-值越高,表示故障預(yù)測模型的預(yù)測效ecisioncallecisioncallFmeasurePrRe2PrRe ,許多學(xué)者利用 ROC(Receiver Operating Characte學(xué)習(xí)算法的性能。ROC 曲線是一條畫在二維坐標標為假正率(FPR,false positive rate),計算如公率(TPR,true positive rate),計算如公式(2.7)通過設(shè)置機器學(xué)習(xí)算法在獲取分類結(jié)果時的概率值對應(yīng)不同的坐標點,如圖 2.4 所示是 ROC 曲線 曲線都處于(0,0)和(1,1)連線的上方,如果1,1)連線的下方,則說明分類器的分類效果較差FPTNFPFPR TPFNTPTPR
【參考文獻】:
期刊論文
[1]集成學(xué)習(xí)方法:研究綜述[J]. 徐繼偉,楊云. 云南大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[2]RAID技術(shù)實現(xiàn)方法和RAID陣列[J]. 林靜. 信息與電腦(理論版). 2018(17)
[3]基于增量式隨機森林的燃氣負荷預(yù)測方法[J]. 錢恒,虞慧群,范貴生. 華東理工大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠波,徐根海. 復(fù)旦學(xué)報(自然科學(xué)版). 2017(05)
[5]一種基于自適應(yīng)監(jiān)測的云計算系統(tǒng)故障檢測方法[J]. 王燾,顧澤宇,張文博,徐繼偉,魏峻,鐘華. 計算機學(xué)報. 2018(06)
[6]存儲系統(tǒng)可靠性預(yù)測綜述[J]. 李靜,王剛,劉曉光,李忠偉. 計算機科學(xué)與探索. 2017(03)
[7]面向磁盤故障預(yù)測的機器學(xué)習(xí)方法比較[J]. 董勇,蔣艷凰,盧宇彤,周恩強. 計算機工程與科學(xué). 2015(12)
[8]硬盤故障預(yù)測模型在大型數(shù)據(jù)中心環(huán)境下的驗證[J]. 賈宇晗,李靜,賈潤瑩,李忠偉,王剛,劉曉光,肖康. 計算機研究與發(fā)展. 2015(S2)
[9]基于Adaboost和遺傳算法的硬盤故障預(yù)測模型優(yōu)化及選擇[J]. 賈潤瑩,李靜,王剛,李忠偉,劉曉光. 計算機研究與發(fā)展. 2014(S1)
[10]數(shù)據(jù)挖掘中的不平衡分類問題集分析[J]. 吳悠,高靜怡. 電子制作. 2014(10)
碩士論文
[1]基于隨機森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用[D]. 楊浩宇.鄭州大學(xué) 2017
[2]基于深度學(xué)習(xí)的磁盤健康度評估與故障預(yù)測技術(shù)研究[D]. 蘭云龍.杭州電子科技大學(xué) 2017
[3]基于機器學(xué)習(xí)的磁盤故障預(yù)測系統(tǒng)[D]. 柳永康.華中科技大學(xué) 2015
[4]基于S.M.A.R.T.預(yù)測故障磁盤的研究[D]. 宋云華.南京大學(xué) 2014
[5]大規(guī)模存儲系統(tǒng)硬盤故障預(yù)測方法研究[D]. 朱炳鵬.南開大學(xué) 2014
[6]基于SVM決策樹的增量式文本層次分類研究[D]. 劉靖雯.北京郵電大學(xué) 2014
[7]基于改進隨機森林的軟件故障預(yù)測模型研究[D]. 嚴蕾.西安電子科技大學(xué) 2013
[8]基于智能預(yù)警和自修復(fù)的高可靠磁盤陣列關(guān)鍵技術(shù)研究[D]. 胡維.國防科學(xué)技術(shù)大學(xué) 2010
本文編號:3278234
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
一個或多個S.M.A.R.T.屬性值大于0的硬盤狀態(tài)統(tǒng)計圖
()tf X為硬盤故障預(yù)測模型, 為一種抽象的狀態(tài)閾值,則硬盤故障預(yù)測過程可以定義為公式(2.1)。狀態(tài)閾值 是一個抽象概念,用于區(qū)分正常硬盤和即將故障的硬盤,例如支持向量機中的超平面。當(dāng)硬盤故障預(yù)測模型輸出值超過狀態(tài)閾值時,則表示硬盤即將發(fā)生故障,故障預(yù)測模型建立的過程實則就是 ()tf X和 的求解過程。FailurefXYesNot ( () )?:(2.1)第三步是硬盤故障預(yù)測模型的測試和評價。如圖 2.3 所示,硬盤故障預(yù)測模型的構(gòu)建通常是多次訓(xùn)練和優(yōu)化的結(jié)果,并不是一次訓(xùn)練的過程,訓(xùn)練過程中通過對模型中的參數(shù)進行多次不同值的選取,并進行不同參數(shù)值下模型的預(yù)測性能測試,來保證最大程度的使算法訓(xùn)練出模型接近最優(yōu)。測試過程中使用測試數(shù)據(jù)集來對在訓(xùn)練數(shù)據(jù)集上建立的預(yù)測模型的性能進行評價,測試過程中通常使用交叉驗證的方法,評價的指標包括精確度(Precision)、準確率(accuracy)和召回率(Recall)等,在 2.3.2 節(jié)中,本文將對硬盤故障預(yù)測的評價指標進行詳細介紹。
因此提出 F-值(F measure)來平衡兩2.5)所示。F-值越高,表示故障預(yù)測模型的預(yù)測效ecisioncallecisioncallFmeasurePrRe2PrRe ,許多學(xué)者利用 ROC(Receiver Operating Characte學(xué)習(xí)算法的性能。ROC 曲線是一條畫在二維坐標標為假正率(FPR,false positive rate),計算如公率(TPR,true positive rate),計算如公式(2.7)通過設(shè)置機器學(xué)習(xí)算法在獲取分類結(jié)果時的概率值對應(yīng)不同的坐標點,如圖 2.4 所示是 ROC 曲線 曲線都處于(0,0)和(1,1)連線的上方,如果1,1)連線的下方,則說明分類器的分類效果較差FPTNFPFPR TPFNTPTPR
【參考文獻】:
期刊論文
[1]集成學(xué)習(xí)方法:研究綜述[J]. 徐繼偉,楊云. 云南大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[2]RAID技術(shù)實現(xiàn)方法和RAID陣列[J]. 林靜. 信息與電腦(理論版). 2018(17)
[3]基于增量式隨機森林的燃氣負荷預(yù)測方法[J]. 錢恒,虞慧群,范貴生. 華東理工大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠波,徐根海. 復(fù)旦學(xué)報(自然科學(xué)版). 2017(05)
[5]一種基于自適應(yīng)監(jiān)測的云計算系統(tǒng)故障檢測方法[J]. 王燾,顧澤宇,張文博,徐繼偉,魏峻,鐘華. 計算機學(xué)報. 2018(06)
[6]存儲系統(tǒng)可靠性預(yù)測綜述[J]. 李靜,王剛,劉曉光,李忠偉. 計算機科學(xué)與探索. 2017(03)
[7]面向磁盤故障預(yù)測的機器學(xué)習(xí)方法比較[J]. 董勇,蔣艷凰,盧宇彤,周恩強. 計算機工程與科學(xué). 2015(12)
[8]硬盤故障預(yù)測模型在大型數(shù)據(jù)中心環(huán)境下的驗證[J]. 賈宇晗,李靜,賈潤瑩,李忠偉,王剛,劉曉光,肖康. 計算機研究與發(fā)展. 2015(S2)
[9]基于Adaboost和遺傳算法的硬盤故障預(yù)測模型優(yōu)化及選擇[J]. 賈潤瑩,李靜,王剛,李忠偉,劉曉光. 計算機研究與發(fā)展. 2014(S1)
[10]數(shù)據(jù)挖掘中的不平衡分類問題集分析[J]. 吳悠,高靜怡. 電子制作. 2014(10)
碩士論文
[1]基于隨機森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用[D]. 楊浩宇.鄭州大學(xué) 2017
[2]基于深度學(xué)習(xí)的磁盤健康度評估與故障預(yù)測技術(shù)研究[D]. 蘭云龍.杭州電子科技大學(xué) 2017
[3]基于機器學(xué)習(xí)的磁盤故障預(yù)測系統(tǒng)[D]. 柳永康.華中科技大學(xué) 2015
[4]基于S.M.A.R.T.預(yù)測故障磁盤的研究[D]. 宋云華.南京大學(xué) 2014
[5]大規(guī)模存儲系統(tǒng)硬盤故障預(yù)測方法研究[D]. 朱炳鵬.南開大學(xué) 2014
[6]基于SVM決策樹的增量式文本層次分類研究[D]. 劉靖雯.北京郵電大學(xué) 2014
[7]基于改進隨機森林的軟件故障預(yù)測模型研究[D]. 嚴蕾.西安電子科技大學(xué) 2013
[8]基于智能預(yù)警和自修復(fù)的高可靠磁盤陣列關(guān)鍵技術(shù)研究[D]. 胡維.國防科學(xué)技術(shù)大學(xué) 2010
本文編號:3278234
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3278234.html
最近更新
教材專著