高性能計(jì)算機(jī)中互連網(wǎng)絡(luò)的可靠性研究
發(fā)布時(shí)間:2020-03-19 06:25
【摘要】:高性能計(jì)算機(jī)是一個(gè)可以處理大型應(yīng)用和處理大數(shù)據(jù)的計(jì)算系統(tǒng)。為了充分發(fā)揮高性能計(jì)算機(jī)的特性,向用戶提供滿意的服務(wù)質(zhì)量,這就要求計(jì)算系統(tǒng)必須是可靠的。隨著高端計(jì)算機(jī)系統(tǒng)(特別是超級計(jì)算機(jī))中計(jì)算結(jié)點(diǎn)、芯片等組件的快速增加,連接這些組件的互連網(wǎng)絡(luò)規(guī)模也在相應(yīng)擴(kuò)大,互連網(wǎng)絡(luò)中出現(xiàn)故障結(jié)點(diǎn)的可能性急劇增大。因此,互連網(wǎng)絡(luò)的可靠性在很大程度上決定了整個(gè)計(jì)算機(jī)系統(tǒng)的可靠性。 本文的主要任務(wù)有兩個(gè):(1)以連通度和診斷度作為互連網(wǎng)絡(luò)的可靠性度量指標(biāo),研究結(jié)點(diǎn)故障對互連網(wǎng)絡(luò)可靠性的影響;(2)設(shè)計(jì)典型互連網(wǎng)絡(luò)的故障診斷算法。本文取得的具體研究成果如下: 1.雖然光互連具有很高的帶寬和很低的功耗,但是當(dāng)傳輸距離達(dá)到毫米級式,電互連的性能卻表現(xiàn)得更好,為了充分利用光、電互連各自的優(yōu)點(diǎn),前人提出了光電轉(zhuǎn)換互連網(wǎng)絡(luò)——OTIS——使之成為互連網(wǎng)絡(luò)領(lǐng)域的研究熱點(diǎn)。眾所周知,具有n2個(gè)結(jié)點(diǎn)的OTIS,其連通度為n。本文進(jìn)一步研究了具有n2個(gè)結(jié)點(diǎn)的OTIS的連通度,,證明了(1)當(dāng)n為偶數(shù)時(shí),只需要添加少量邊,就可以將OTIS網(wǎng)絡(luò)的連通度提高;(2)在故障結(jié)點(diǎn)數(shù)不超過一個(gè)閾值時(shí),OTIS網(wǎng)絡(luò)中依然存在一個(gè)大型連通分支完成系統(tǒng)工作。 2.互連網(wǎng)絡(luò)中任意結(jié)點(diǎn)的鄰居結(jié)點(diǎn)同時(shí)發(fā)生故障的概率相對較小,條件連通度就是忽略了這樣的小概率事件后引入的容錯(cuò)性衡量標(biāo)準(zhǔn)。k n個(gè)結(jié)點(diǎn)的Hypermesh網(wǎng)絡(luò)作為一種新型的光互連網(wǎng)絡(luò),具有很多優(yōu)良的互連網(wǎng)絡(luò)特性,其可靠性得到了人們的廣泛關(guān)注。近年來,人們用公式化的最小點(diǎn)割集研究了互連網(wǎng)絡(luò)的條件容錯(cuò)性,清晰的展示出任一結(jié)點(diǎn)的g-無故障鄰居結(jié)點(diǎn)的存在,為此,本文研究了Hypermesh網(wǎng)絡(luò)中g(shù)-無故障組件的鄰居結(jié)點(diǎn)的規(guī)模,即最大條件連通子圖的大小。 3.相較于傳統(tǒng)的精確診斷,悲觀診斷以允許一個(gè)無故障結(jié)點(diǎn)被誤診斷的代價(jià),可以顯著的提升系統(tǒng)的自診斷能力。光多網(wǎng)格超立方體集成了超立方體和mesh網(wǎng)絡(luò)的優(yōu)良拓?fù)湫再|(zhì),作為一種實(shí)用的新型光互連網(wǎng)絡(luò)得到了關(guān)注。在PMC模型下光多網(wǎng)格超立方體的精確診斷度得到了驗(yàn)證,本文進(jìn)一步證明了光多網(wǎng)格超立方體的悲觀診斷度是精確診斷度的2倍,并利用圈分解技術(shù)設(shè)計(jì)了其在PMC模型下的快速故障診斷算法。 4.折疊立方體網(wǎng)絡(luò)是一類規(guī)則互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),它具有同維超立方體所沒有的優(yōu)良拓?fù)湫阅。近年來,人們研究了折疊立方體網(wǎng)絡(luò)在PMC模型和比較模型的精確診斷度、條件診斷度和強(qiáng)診斷度等問題。本文在比較模型下,證明了折疊立方體網(wǎng)絡(luò)的悲觀診斷度是其精確診斷度的2倍,并設(shè)計(jì)了一個(gè)線性時(shí)間復(fù)雜度的故障診斷算法 綜上所述,本文的主要工作可以總結(jié)為:研究了兩類互連網(wǎng)絡(luò)的容錯(cuò)性能,并針對另外兩類互連網(wǎng)絡(luò)設(shè)計(jì)了高效率的故障診斷算法。這些研究成果為上述互連網(wǎng)絡(luò)的推廣應(yīng)用奠定了一定的理論基礎(chǔ)。
【圖文】:
的 Pi 代表一個(gè)處理器結(jié)點(diǎn),i {1,2,...n }),其中分布式內(nèi)存越來越成為了現(xiàn)代高性能計(jì)算機(jī)的主要系統(tǒng)結(jié)構(gòu),在這些計(jì)算機(jī)中各部件之間用互連網(wǎng)絡(luò)實(shí)現(xiàn)連接。圖1.1 分布式內(nèi)存Fig. 1.1 Distributed Memory圖1.2 共享式內(nèi)存Fig. 1.2 Shared Memory顯然系統(tǒng)的可靠性會隨其復(fù)雜性增加而降低,復(fù)雜的設(shè)備使用的器件種類和數(shù)量都多,不可避免有較高的故障率。雖然高性能計(jì)算機(jī)中各個(gè)元件的集成工藝已經(jīng)有了巨大的進(jìn)步,但是迄今為止,除了通信結(jié)構(gòu)中使用到了光傳輸介質(zhì)以外,
圖1.1 分布式內(nèi)存Fig. 1.1 Distributed Memory圖1.2 共享式內(nèi)存Fig. 1.2 Shared Memory顯然系統(tǒng)的可靠性會隨其復(fù)雜性增加而降低,復(fù)雜的設(shè)備使用的器件種類和數(shù)量都多,不可避免有較高的故障率。雖然高性能計(jì)算機(jī)中各個(gè)元件的集成工藝已經(jīng)有了巨大的進(jìn)步,但是迄今為止,除了通信結(jié)構(gòu)中使用到了光傳輸介質(zhì)以外,
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP38
本文編號:2589838
【圖文】:
的 Pi 代表一個(gè)處理器結(jié)點(diǎn),i {1,2,...n }),其中分布式內(nèi)存越來越成為了現(xiàn)代高性能計(jì)算機(jī)的主要系統(tǒng)結(jié)構(gòu),在這些計(jì)算機(jī)中各部件之間用互連網(wǎng)絡(luò)實(shí)現(xiàn)連接。圖1.1 分布式內(nèi)存Fig. 1.1 Distributed Memory圖1.2 共享式內(nèi)存Fig. 1.2 Shared Memory顯然系統(tǒng)的可靠性會隨其復(fù)雜性增加而降低,復(fù)雜的設(shè)備使用的器件種類和數(shù)量都多,不可避免有較高的故障率。雖然高性能計(jì)算機(jī)中各個(gè)元件的集成工藝已經(jīng)有了巨大的進(jìn)步,但是迄今為止,除了通信結(jié)構(gòu)中使用到了光傳輸介質(zhì)以外,
圖1.1 分布式內(nèi)存Fig. 1.1 Distributed Memory圖1.2 共享式內(nèi)存Fig. 1.2 Shared Memory顯然系統(tǒng)的可靠性會隨其復(fù)雜性增加而降低,復(fù)雜的設(shè)備使用的器件種類和數(shù)量都多,不可避免有較高的故障率。雖然高性能計(jì)算機(jī)中各個(gè)元件的集成工藝已經(jīng)有了巨大的進(jìn)步,但是迄今為止,除了通信結(jié)構(gòu)中使用到了光傳輸介質(zhì)以外,
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP38
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 黃永勤;金利峰;劉耀;;高性能計(jì)算機(jī)的可靠性技術(shù)現(xiàn)狀與趨勢[J];計(jì)算機(jī)研究與發(fā)展;2010年04期
2 陽惠;楊小帆;;在MM*比較模型下M銉bius立方體的一個(gè)快速診斷算法[J];計(jì)算機(jī)學(xué)報(bào);2007年07期
本文編號:2589838
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2589838.html
最近更新
教材專著