異構(gòu)分布計(jì)算系統(tǒng)可靠性分析及優(yōu)化方法研究
本文關(guān)鍵詞:異構(gòu)分布計(jì)算系統(tǒng)可靠性分析及優(yōu)化方法研究 出處:《東南大學(xué)》2016年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 異構(gòu)分布計(jì)算系統(tǒng) 關(guān)聯(lián)失效 可靠性 DAG任務(wù)調(diào)度 優(yōu)化設(shè)計(jì) 截止時(shí)間約束
【摘要】:隨著大規(guī)?茖W(xué)計(jì)算應(yīng)用的普及以及并行數(shù)據(jù)處理規(guī)模的不斷增大,以網(wǎng)格和并行計(jì)算為基礎(chǔ)的分布計(jì)算系統(tǒng)已成為信息技術(shù)和通信技術(shù)的重要發(fā)展方向,尤其是通過互聯(lián)網(wǎng)絡(luò)將大量廉價(jià)、處理能力和可靠性等都相互異構(gòu)的計(jì)算單元進(jìn)行連接所構(gòu)成的數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。異構(gòu)分布計(jì)算平臺(tái)也成為中國(guó)戰(zhàn)略性新興產(chǎn)業(yè)的重要組成部分,其中系統(tǒng)性能和可靠性優(yōu)化問題已成為國(guó)內(nèi)外研究的熱點(diǎn)。但是系統(tǒng)和應(yīng)用規(guī)模逐漸增大的同時(shí),并行應(yīng)用對(duì)系統(tǒng)長(zhǎng)期可靠運(yùn)行的時(shí)間需求也越來越高。此外,由于異構(gòu)系統(tǒng)下計(jì)算資源的動(dòng)態(tài)加入和退出,并行應(yīng)用程序輸入?yún)?shù)的變化以及異構(gòu)系統(tǒng)環(huán)境等因素將引起并行應(yīng)用程序的執(zhí)行出現(xiàn)不確定性和不可控性等安全威脅。因此,各并行任務(wù)能否可靠地運(yùn)行是評(píng)價(jià)分布計(jì)算系統(tǒng)優(yōu)劣的關(guān)鍵指標(biāo)之一。尤其當(dāng)異構(gòu)分布計(jì)算系統(tǒng)在時(shí)間和空間維度存在關(guān)聯(lián)失效背景下,如何分析系統(tǒng)可靠性以及通過任務(wù)調(diào)度對(duì)并行應(yīng)用程序執(zhí)行過程的可靠性進(jìn)行優(yōu)化等問題。本文首先從系統(tǒng)可靠性分析理論入手,重點(diǎn)解決關(guān)聯(lián)失效模式下異構(gòu)分布計(jì)算系統(tǒng)可靠性度量和優(yōu)化方法,并在分布計(jì)算系統(tǒng)資源管理和任務(wù)分配等方面展開深入研究和探索,提出考慮性能和可靠性開銷、具有截止時(shí)間約束以及計(jì)算資源存在關(guān)聯(lián)失效等條件下的任務(wù)調(diào)度理論和可靠性優(yōu)化方法,旨在解決異構(gòu)分布計(jì)算系統(tǒng)可靠性領(lǐng)域的部分關(guān)鍵技術(shù)問題。本文的主要研究工作和貢獻(xiàn)包括:(1)擴(kuò)展現(xiàn)有分布計(jì)算系統(tǒng)可靠性分析方法,提出關(guān)聯(lián)失效模式下異構(gòu)分布計(jì)算系統(tǒng)可靠性評(píng)估方法。目前的異構(gòu)分布計(jì)算系統(tǒng)存在大規(guī)模資源共享、廣域通信以及多資源合作,而很多傳統(tǒng)可靠性分析方法都建立在計(jì)算資源間的失效是相互獨(dú)立的假設(shè)基礎(chǔ)之上,沒有考慮計(jì)算資源在時(shí)間和空間維度上可能存在的關(guān)聯(lián)失效,尤其隨著納米級(jí)大規(guī)模集成電路的快速發(fā)展,高能電磁輻射引起計(jì)算節(jié)點(diǎn)關(guān)聯(lián)失效的概率越來越大。根據(jù)分布計(jì)算系統(tǒng)資源的失效特征建立系統(tǒng)失效模型,提出關(guān)聯(lián)失效模式下基于泰勒展開式的計(jì)算系統(tǒng)可靠性度量方法,并從系統(tǒng)結(jié)構(gòu)角度分析共因失效對(duì)系統(tǒng)可靠性的影響程度,通過仿真實(shí)驗(yàn)驗(yàn)證影響系統(tǒng)可靠度和平均無故障時(shí)間的主要因素。在此基礎(chǔ)上,進(jìn)一步提出冗余系統(tǒng)和靜態(tài)失效系統(tǒng)可靠性分析方法,并通過仿真實(shí)驗(yàn)驗(yàn)證算法的性能和有效性。(2)針對(duì)資源存在異構(gòu)性、動(dòng)態(tài)性和廣域分布性等特點(diǎn)的大規(guī)模分布計(jì)算系統(tǒng),提出基于任務(wù)期望執(zhí)行時(shí)間和可靠性開銷的表調(diào)度算法。分析任意架構(gòu)網(wǎng)絡(luò)模型(APN)下關(guān)聯(lián)任務(wù)之間最可靠通信鏈路的選擇問題,并提出考慮可靠性開銷的最優(yōu)路徑選擇算法(OCPR)。在此基礎(chǔ)上通過添加具有預(yù)測(cè)功能的分布計(jì)算節(jié)點(diǎn)選擇策略,以及考慮系統(tǒng)異構(gòu)性和可靠性開銷的任務(wù)優(yōu)先級(jí)計(jì)算方法,設(shè)計(jì)分布計(jì)算系統(tǒng)環(huán)境下可靠性驅(qū)動(dòng)的任務(wù)調(diào)度算法(RDLS)。仿真實(shí)驗(yàn)結(jié)果表明所提算法在相同時(shí)間復(fù)雜度條件下,相對(duì)于經(jīng)典的HEFT和RASD算法具有更優(yōu)的調(diào)度性能和可靠性指標(biāo)。(3)針對(duì)實(shí)際分布計(jì)算系統(tǒng)運(yùn)行過程中所收集的開源失效數(shù)據(jù)集FTA,從時(shí)間和空間角度對(duì)計(jì)算資源的關(guān)聯(lián)失效進(jìn)行建模,其中空間角度又分為物理空間關(guān)聯(lián)失效和邏輯空間關(guān)聯(lián)失效兩種失效模型,并利用馬爾科夫隨機(jī)場(chǎng)和Gibbs分布之間存在的等價(jià)理論對(duì)所提出的關(guān)聯(lián)失效模型進(jìn)行理論分析和形式化建模。對(duì)關(guān)聯(lián)失效進(jìn)行建模的目的是將分布計(jì)算系統(tǒng)內(nèi)的節(jié)點(diǎn)進(jìn)行關(guān)聯(lián)組劃分,每個(gè)組內(nèi)的計(jì)算節(jié)點(diǎn)具有強(qiáng)關(guān)聯(lián)性,從而為選擇冗余節(jié)點(diǎn)來提高任務(wù)執(zhí)行可靠性提供依據(jù),避免選擇同-關(guān)聯(lián)失效組內(nèi)的多個(gè)計(jì)算節(jié)點(diǎn)作為同一任務(wù)的副本計(jì)算節(jié)點(diǎn)。通過理論分析和實(shí)驗(yàn)驗(yàn)證了所提關(guān)聯(lián)失效模型的有效性和可行性。(4)針對(duì)計(jì)算資源存在關(guān)聯(lián)失效的分布計(jì)算系統(tǒng)和具有截止時(shí)間約束的并行DAG應(yīng)用程序,提出基于任務(wù)截止時(shí)間劃分的關(guān)鍵路徑模型和子任務(wù)截止時(shí)間分配算法(SDA)。在此基礎(chǔ)上,進(jìn)一步提出基于可靠性驅(qū)動(dòng)的貪心任務(wù)復(fù)制算法(RDGD)和基于費(fèi)用驅(qū)動(dòng)的任務(wù)復(fù)制算法(CDD),在選擇復(fù)本資源進(jìn)行任務(wù)分配以提高應(yīng)用程序執(zhí)行可靠性時(shí),避免同一個(gè)子任務(wù)分配給具有關(guān)聯(lián)失效特性的計(jì)算節(jié)點(diǎn)集合內(nèi)的多個(gè)節(jié)點(diǎn),以最大化子任務(wù)執(zhí)行結(jié)果的可靠性。實(shí)驗(yàn)結(jié)果顯示基于截止時(shí)間劃分的關(guān)鍵路徑和基于不同目標(biāo)的可靠性優(yōu)化調(diào)度算法不僅能夠提高并行應(yīng)用程序執(zhí)行的可靠性,同時(shí)又能滿足并行應(yīng)用程序調(diào)度性能的需求。
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP302.7
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李暉,歐宗瑛;異構(gòu)分布環(huán)境下數(shù)據(jù)獲取與多態(tài)發(fā)布[J];計(jì)算機(jī)工程與設(shè)計(jì);2004年01期
2 徐有明;;異構(gòu)分布式數(shù)據(jù)查詢系統(tǒng)設(shè)計(jì)分析[J];軟件導(dǎo)刊;2009年09期
3 楊仕平;熊光澤;劉錦德;;基于反射中間件的異構(gòu)分布式實(shí)時(shí)調(diào)度系統(tǒng)[J];計(jì)算機(jī)科學(xué);2002年11期
4 陸鑫達(dá),胡越明;面向?qū)ο蟮拈_放式異構(gòu)分布計(jì)算系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;1994年Z5期
5 詹敏,左春,孫玉芳;異構(gòu)分布環(huán)境下企業(yè)計(jì)算模型的研究與實(shí)現(xiàn)[J];電子學(xué)報(bào);2002年11期
6 陸啟軍;;異構(gòu)分布式環(huán)境下的可靠性管理軟件系統(tǒng)開發(fā)及應(yīng)用[J];福建電腦;2007年05期
7 李貴,尹朝萬,涂曉軍,鄭懷遠(yuǎn);異構(gòu)分布環(huán)境下的遠(yuǎn)程協(xié)作系統(tǒng)(HD-RCS)[J];小型微型計(jì)算機(jī)系統(tǒng);1997年10期
8 梁正友,張凌,董守斌,亓旭光;異構(gòu)分布計(jì)算環(huán)境下應(yīng)用程序的執(zhí)行時(shí)間預(yù)測(cè)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2005年10期
9 平立;沈軍;;異構(gòu)分布式環(huán)境下DNS動(dòng)態(tài)負(fù)載均衡模型研究[J];計(jì)算機(jī)應(yīng)用與軟件;2006年11期
10 孫寧,賁可榮,王芳;異構(gòu)分布環(huán)境下監(jiān)控系統(tǒng)軟件設(shè)計(jì)方法[J];艦船電子工程;2003年04期
相關(guān)會(huì)議論文 前2條
1 梁正友;張凌;董守斌;亓旭光;;異構(gòu)分布計(jì)算環(huán)境下應(yīng)用程序的執(zhí)行時(shí)間預(yù)測(cè)研究[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
2 孫志揮;陳明生;;聯(lián)邦式異構(gòu)分布數(shù)據(jù)庫(kù)的性能分析[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年
相關(guān)博士學(xué)位論文 前1條
1 王輝;異構(gòu)分布計(jì)算系統(tǒng)可靠性分析及優(yōu)化方法研究[D];東南大學(xué);2016年
相關(guān)碩士學(xué)位論文 前3條
1 陳明;基于Web Services的異構(gòu)分布式數(shù)據(jù)共享技術(shù)研究[D];華東師范大學(xué);2006年
2 安立華;異構(gòu)分布數(shù)據(jù)源中基于本體的個(gè)性化查詢方法研究[D];大連海事大學(xué);2005年
3 陸啟軍;異構(gòu)分布式環(huán)境下的可靠性管理軟件的開發(fā)及應(yīng)用[D];南京航空航天大學(xué);2005年
,本文編號(hào):1337689
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1337689.html