大規(guī)模網(wǎng)絡(luò)系統(tǒng)的可靠性建模的若干問題的研究與仿真
發(fā)布時(shí)間:2020-05-21 15:57
【摘要】:在構(gòu)筑智慧城市的進(jìn)程中,云計(jì)算、大數(shù)據(jù)等新一代信息通訊技術(shù)不斷發(fā)展,提供服務(wù)所需的基礎(chǔ)設(shè)施變得極為龐大,由此形成了一種大規(guī)模網(wǎng)絡(luò)系統(tǒng)(Large Scale Network System,LSNS)。相比傳統(tǒng)IT系統(tǒng),除了需要管理數(shù)據(jù)中心中大規(guī)模的、復(fù)雜的基礎(chǔ)設(shè)施資源,還需要達(dá)到多種多樣的服務(wù)需求,特別是服務(wù)可靠性的需求。為了實(shí)現(xiàn)可靠的服務(wù),對大規(guī)模網(wǎng)絡(luò)系統(tǒng)的可靠性指標(biāo)構(gòu)建理論模型是一種直觀、高效的評估方法。但現(xiàn)有的研究中,可靠性模型的適用性往往比較局限。一方面,現(xiàn)有的可靠性研究中,一般以預(yù)測系統(tǒng)故障的發(fā)生或者減少系統(tǒng)故障的發(fā)生為目的,當(dāng)系統(tǒng)的可靠性降低時(shí),是以增加物理資源的冗余度來提高系統(tǒng)可靠性的。在大規(guī)模網(wǎng)絡(luò)系統(tǒng)中,以虛擬機(jī)資源為代表的軟件類資源的自身老化帶來的系統(tǒng)可靠性降低問題,通過增加物理資源冗余度對系統(tǒng)可靠性的提升往往收效甚微。另一方面,通過對大量的物理資源冗余備份,物理資源的利用率往往較低,導(dǎo)致資源空載,能耗成本劇增,也不符合節(jié)能減排的要求。這導(dǎo)致可靠性與能效呈現(xiàn)相互制約的關(guān)系。針對這些存在的關(guān)鍵性問題,本文以大規(guī)模網(wǎng)絡(luò)系統(tǒng)的一個(gè)數(shù)據(jù)中心為研究對象,以提供可靠性感知的能效服務(wù)(Reliability-aware and Energy-efficient Service,RES)為目的,綜合運(yùn)用了故障樹分析法、Markov建模理論、解析建模等方法,構(gòu)建了虛擬機(jī)系統(tǒng)的可靠性模型、物理機(jī)系統(tǒng)的可靠性模型、可靠性感知的能耗模型;為了最大化提升系統(tǒng)的可靠性和能效,基于采用了冗余備份策略的虛擬機(jī)系統(tǒng),分析了如何最大化降低數(shù)據(jù)中心中由于發(fā)生共因失效而導(dǎo)致的虛擬機(jī)系統(tǒng)不能正常服務(wù)的影響,提出了面向SLA的可靠性保障機(jī)制、可靠性感知的能效資源分配算法、物理機(jī)決策算法等可靠性保障和能效提升的優(yōu)化策略。為了評估以上模型和算法的有效性,通過在Cloudsim中引入大規(guī)模的谷歌集群數(shù)據(jù)Google Trace,并擴(kuò)展了故障注入、能耗模型等模塊,分別對模型和算法進(jìn)行了大量的仿真實(shí)驗(yàn)。通過對實(shí)驗(yàn)結(jié)果分析,較好地驗(yàn)證了本文提出的模型或算法的有效性。
【圖文】:
智慧城市與云計(jì)算
以認(rèn)為是物理主機(jī)修復(fù)完成,可以再次使用而加入集群;移除事件可以認(rèn)為是物理機(jī)主機(jī)發(fā)生硬件失效,導(dǎo)致物理主機(jī)被移除出集群。根據(jù) Jobs 和 Tasks 數(shù)據(jù),模擬任務(wù)請求達(dá)到數(shù)據(jù)中心、資源使用請求等。大規(guī)模的任務(wù)請求導(dǎo)入 Cloudsim進(jìn)行關(guān)于可靠性和能耗的仿真實(shí)驗(yàn),可以更真實(shí)的反映現(xiàn)實(shí)世界的情況,,驗(yàn)證可靠性與能耗模型的正確性,最終指導(dǎo)大規(guī)模網(wǎng)絡(luò)系統(tǒng)的數(shù)據(jù)中心的可靠性和能耗的優(yōu)化。通過分析 Google Trace 的 Machines 數(shù)據(jù),針對不同物理主機(jī)在不同時(shí)間發(fā)生的總共 37780 次事件,得到其中一臺(tái)物理主機(jī)發(fā)生失效事件的時(shí)間序列圖如下。圖 5-1 Google Trace 主機(jī)失效時(shí)間序列(部分)進(jìn)一步地,我們分析主機(jī)失效時(shí)間間隔,得到如圖 5-2 的主機(jī)失效間隔時(shí)間的結(jié)果。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP308
本文編號(hào):2674543
【圖文】:
智慧城市與云計(jì)算
以認(rèn)為是物理主機(jī)修復(fù)完成,可以再次使用而加入集群;移除事件可以認(rèn)為是物理機(jī)主機(jī)發(fā)生硬件失效,導(dǎo)致物理主機(jī)被移除出集群。根據(jù) Jobs 和 Tasks 數(shù)據(jù),模擬任務(wù)請求達(dá)到數(shù)據(jù)中心、資源使用請求等。大規(guī)模的任務(wù)請求導(dǎo)入 Cloudsim進(jìn)行關(guān)于可靠性和能耗的仿真實(shí)驗(yàn),可以更真實(shí)的反映現(xiàn)實(shí)世界的情況,,驗(yàn)證可靠性與能耗模型的正確性,最終指導(dǎo)大規(guī)模網(wǎng)絡(luò)系統(tǒng)的數(shù)據(jù)中心的可靠性和能耗的優(yōu)化。通過分析 Google Trace 的 Machines 數(shù)據(jù),針對不同物理主機(jī)在不同時(shí)間發(fā)生的總共 37780 次事件,得到其中一臺(tái)物理主機(jī)發(fā)生失效事件的時(shí)間序列圖如下。圖 5-1 Google Trace 主機(jī)失效時(shí)間序列(部分)進(jìn)一步地,我們分析主機(jī)失效時(shí)間間隔,得到如圖 5-2 的主機(jī)失效間隔時(shí)間的結(jié)果。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP308
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 高順川;動(dòng)態(tài)故障樹分析方法及其實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2005年
本文編號(hào):2674543
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2674543.html
最近更新
教材專著