超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估研究
發(fā)布時(shí)間:2020-06-09 17:43
【摘要】:超級(jí)計(jì)算機(jī)系統(tǒng)是世界各國(guó)爭(zhēng)相搶占的重要戰(zhàn)略資源,而性能則是它的生命線。在其性能不斷飛躍、功能與結(jié)構(gòu)越來(lái)越復(fù)雜的同時(shí),超級(jí)計(jì)算機(jī)系統(tǒng)的可用性問題日益嚴(yán)重。為了提高超級(jí)計(jì)算機(jī)系統(tǒng)的可用性,盡量降低失效與維修事件對(duì)系統(tǒng)性能發(fā)揮的影響,對(duì)系統(tǒng)進(jìn)行可用性評(píng)估是必不可少的。然而超級(jí)計(jì)算機(jī)系統(tǒng)不同于普通的計(jì)算機(jī)系統(tǒng),它對(duì)可用性評(píng)估有著自己的特色要求,因此不能直接延用可用性評(píng)估的傳統(tǒng)指標(biāo)與方法,而是需要開展更為深入的研究。 本文在分析了超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估研究現(xiàn)狀、并總結(jié)了普通系統(tǒng)進(jìn)行可用性評(píng)估的一般原理與基本要素的基礎(chǔ)上,針對(duì)目前工作存在的不足、以及針對(duì)直接運(yùn)用一般原理及其要素開展超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估時(shí)存在的問題,主要開展了三方面研究:(1)面向超級(jí)計(jì)算機(jī)的、具有一定普適性的可用性評(píng)估架構(gòu)與方法研究;(2)面向應(yīng)用的、能體現(xiàn)超級(jí)計(jì)算機(jī)系統(tǒng)的本質(zhì)特征的可用性評(píng)估指標(biāo)研究;(3)針對(duì)超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估狀態(tài)空間模型的數(shù)值解析方法中存在的狀態(tài)空間爆炸問題的解決方案研究。 本文的貢獻(xiàn)包括四個(gè)方面: (1)提出了針對(duì)超級(jí)計(jì)算機(jī)的、面向應(yīng)用的層次化可用性建模(Application-Oriented Hierarchical Availability Modeling,縮寫為AOHAM)評(píng)估方法。該方法以超級(jí)計(jì)算機(jī)系統(tǒng)的總體特征為基礎(chǔ),立足于不同觀察主體的感知角度,采用層次化、模塊化的SANs模型建模方法,并利用模型模塊間庫(kù)所(places)與行為(activities)的共享實(shí)現(xiàn)系統(tǒng)行為間的關(guān)聯(lián),最終利用Mobius建模工具來(lái)實(shí)現(xiàn)一次評(píng)估同時(shí)滿足多個(gè)評(píng)估需求、以減少重復(fù)性評(píng)估工作量的效果。 (2)提出了兩種新的可用性評(píng)估指標(biāo):可用強(qiáng)度和強(qiáng)度可用性,并對(duì)它們的定義和度量規(guī)則給出了詳細(xì)的描述與推導(dǎo)。這兩個(gè)指標(biāo)都是基于超級(jí)計(jì)算機(jī)系統(tǒng)的計(jì)算能力強(qiáng)度而提出的,前者直接度量的是系統(tǒng)所能提供的計(jì)算能力的大小,后者度量的是這種能力在系統(tǒng)的總計(jì)算能力中所占的比例。通過對(duì)一組參數(shù)可變的簡(jiǎn)單實(shí)例模型進(jìn)行強(qiáng)度可用性與基本可用性的兩種方法度量,其結(jié)論有力證明了新的可用性指標(biāo)更能體現(xiàn)超級(jí)計(jì)算機(jī)系統(tǒng)的本質(zhì)特征,因此更適合用于超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估。 (3)設(shè)計(jì)并實(shí)現(xiàn)了基于MapReduce機(jī)制的、狀態(tài)空間的自動(dòng)化分布式生成方案。狀態(tài)空間模型是超級(jí)計(jì)算機(jī)系統(tǒng)的可用性評(píng)估的主要方法,而數(shù)值解析是該模型的重要求解方法之一。然而,狀態(tài)空間模型的數(shù)值解析方法存在著狀態(tài)空間爆炸問題,即模型的狀態(tài)空間隨著建模對(duì)象系統(tǒng)規(guī)模的增長(zhǎng)而呈非線性增長(zhǎng),它嚴(yán)重限制了適合采用狀態(tài)空間模型進(jìn)行可用性評(píng)估的超級(jí)計(jì)算機(jī)系統(tǒng)的規(guī)模。解決這一問題的一種重要方法是在分布式環(huán)境下并行完成狀態(tài)空間的生成。針對(duì)現(xiàn)有的并行化方案存在對(duì)平臺(tái)環(huán)境與操作用戶要求高、難以推廣應(yīng)用的問題,本文提出了一種基于Hadoop平臺(tái)及其核心MapReduce機(jī)制的、狀態(tài)空間生成的自動(dòng)化并行方案,該方案已在分布式環(huán)境下實(shí)現(xiàn),實(shí)驗(yàn)的結(jié)果表明:(a)該方案具有良好的求解加速比;(b)實(shí)驗(yàn)的宿主機(jī)平臺(tái)具有良好的獨(dú)立性,非常易于擴(kuò)展,以應(yīng)對(duì)模型所模擬的系統(tǒng)規(guī)模的擴(kuò)張;(c)方案的實(shí)現(xiàn)非常簡(jiǎn)單,便于普通用戶的編程應(yīng)用。因此,該解決方案具有良好的應(yīng)用前景。 (4)實(shí)現(xiàn)了對(duì)某超級(jí)計(jì)算機(jī)系統(tǒng)的兩個(gè)核心組成部分——主機(jī)系統(tǒng)和外圍系統(tǒng)——的可用性評(píng)估。對(duì)于主機(jī)系統(tǒng),其可用性評(píng)估采用了強(qiáng)度可用性評(píng)估指標(biāo),并從系統(tǒng)維護(hù)人員、系統(tǒng)管理員和作業(yè)用戶等多個(gè)層次角度,分析了系統(tǒng)的邏輯層次結(jié)構(gòu)和不同層次的行為模型,建立了各自的SANs評(píng)估模型,并利用Mobius工具實(shí)現(xiàn)了不同模型模塊的整合,從而實(shí)現(xiàn)了一次評(píng)估模型求解即可滿足對(duì)多個(gè)主體的可用性評(píng)估需求的目標(biāo)。對(duì)于外圍系統(tǒng),鑒于其用戶觀察角度的單一性,因而對(duì)它的可用性評(píng)估采用了傳統(tǒng)的可用性指標(biāo),也建立了層次化的SANs可用性評(píng)估模型,并實(shí)現(xiàn)了基于一定模型參數(shù)值的可用性實(shí)驗(yàn)評(píng)估。通過實(shí)現(xiàn)對(duì)實(shí)例系統(tǒng)不同部分的可用性評(píng)估,我們的結(jié)論是:采用何種評(píng)估指標(biāo)需要依據(jù)情況而定,對(duì)于可用性狀態(tài)而具有布爾特性、擁有單一觀察角度的用戶的外圍系統(tǒng)而言,仍適合采用傳統(tǒng)的系統(tǒng)基本可用性進(jìn)行評(píng)估;對(duì)于需要體現(xiàn)計(jì)算能力強(qiáng)弱、擁有多個(gè)位于不同層次的觀察主體的主機(jī)系統(tǒng)而言,強(qiáng)度可用性是更好的選擇。
【圖文】:
圖 1:1995~1999 年最強(qiáng)超級(jí)計(jì)算機(jī)的性能發(fā)展情況計(jì)算機(jī) TOP500 網(wǎng)站的創(chuàng)始人之一 Hans Werner Meue997 年 6 月)TOP500 的性能數(shù)據(jù)進(jìn)行擬合,包括排名及 500 強(qiáng)的總性能等(圖 2 給出的是 1993 年 6 月至發(fā)現(xiàn)其增長(zhǎng)規(guī)律與指數(shù)分布非常吻合。據(jù)此,他做 T 級(jí)系統(tǒng)在 8 年之后將只能排到第 500 名以后。雖然與諷刺,因?yàn)橹钡?1998 年年底還只有 ASCI Red 一臺(tái)的幾年里,T 級(jí)系統(tǒng)不斷冒出;2005 年 6 月份,Cra 的性能(比當(dāng)年排名第一的 ASCI Red 性能略高)排,這一預(yù)言最終得到證實(shí)。從近年來(lái)超級(jí)計(jì)算機(jī) TOP的性能相差大約 6~8 年時(shí)間,,也就是說(shuō),現(xiàn)在的第一。
圖 1:1995~1999 年最強(qiáng)超級(jí)計(jì)算機(jī)的性能發(fā)展情況算機(jī) TOP500 網(wǎng)站的創(chuàng)始人之一 Hans Werner M7 年 6 月)TOP500 的性能數(shù)據(jù)進(jìn)行擬合,包括排 500 強(qiáng)的總性能等(圖 2 給出的是 1993 年 6 月現(xiàn)其增長(zhǎng)規(guī)律與指數(shù)分布非常吻合。據(jù)此,他 級(jí)系統(tǒng)在 8 年之后將只能排到第 500 名以后。雖諷刺,因?yàn)橹钡?1998 年年底還只有 ASCI Red 一幾年里,T 級(jí)系統(tǒng)不斷冒出;2005 年 6 月份,性能(比當(dāng)年排名第一的 ASCI Red 性能略高)一預(yù)言最終得到證實(shí)。從近年來(lái)超級(jí)計(jì)算機(jī) T性能相差大約 6~8 年時(shí)間,也就是說(shuō),現(xiàn)在的第
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2009
【分類號(hào)】:TP338
本文編號(hào):2705030
【圖文】:
圖 1:1995~1999 年最強(qiáng)超級(jí)計(jì)算機(jī)的性能發(fā)展情況計(jì)算機(jī) TOP500 網(wǎng)站的創(chuàng)始人之一 Hans Werner Meue997 年 6 月)TOP500 的性能數(shù)據(jù)進(jìn)行擬合,包括排名及 500 強(qiáng)的總性能等(圖 2 給出的是 1993 年 6 月至發(fā)現(xiàn)其增長(zhǎng)規(guī)律與指數(shù)分布非常吻合。據(jù)此,他做 T 級(jí)系統(tǒng)在 8 年之后將只能排到第 500 名以后。雖然與諷刺,因?yàn)橹钡?1998 年年底還只有 ASCI Red 一臺(tái)的幾年里,T 級(jí)系統(tǒng)不斷冒出;2005 年 6 月份,Cra 的性能(比當(dāng)年排名第一的 ASCI Red 性能略高)排,這一預(yù)言最終得到證實(shí)。從近年來(lái)超級(jí)計(jì)算機(jī) TOP的性能相差大約 6~8 年時(shí)間,,也就是說(shuō),現(xiàn)在的第一。
圖 1:1995~1999 年最強(qiáng)超級(jí)計(jì)算機(jī)的性能發(fā)展情況算機(jī) TOP500 網(wǎng)站的創(chuàng)始人之一 Hans Werner M7 年 6 月)TOP500 的性能數(shù)據(jù)進(jìn)行擬合,包括排 500 強(qiáng)的總性能等(圖 2 給出的是 1993 年 6 月現(xiàn)其增長(zhǎng)規(guī)律與指數(shù)分布非常吻合。據(jù)此,他 級(jí)系統(tǒng)在 8 年之后將只能排到第 500 名以后。雖諷刺,因?yàn)橹钡?1998 年年底還只有 ASCI Red 一幾年里,T 級(jí)系統(tǒng)不斷冒出;2005 年 6 月份,性能(比當(dāng)年排名第一的 ASCI Red 性能略高)一預(yù)言最終得到證實(shí)。從近年來(lái)超級(jí)計(jì)算機(jī) T性能相差大約 6~8 年時(shí)間,也就是說(shuō),現(xiàn)在的第
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2009
【分類號(hào)】:TP338
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 魯向擁;劉正發(fā);李明明;;基于Deep Learning多隱含層感知架構(gòu)的超級(jí)計(jì)算機(jī)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年04期
本文編號(hào):2705030
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2705030.html
最近更新
教材專著