天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 組織管理論文 >

超級(jí)計(jì)算機(jī)自治故障管理系統(tǒng)消息通信及展示框架的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-03-27 00:45
【摘要】:隨著超級(jí)計(jì)算機(jī)系統(tǒng)性能的不斷提升,超級(jí)計(jì)算機(jī)的系統(tǒng)規(guī)模也在快速增長,由此帶來的一個(gè)嚴(yán)峻問題是超級(jí)計(jì)算機(jī)系統(tǒng)的故障發(fā)生頻率越來越高、可靠性面臨越來越嚴(yán)重的威脅。可靠性制約了超級(jí)計(jì)算機(jī)系統(tǒng)規(guī)模的進(jìn)一步擴(kuò)展,從而限制了超級(jí)計(jì)算機(jī)系統(tǒng)性能的進(jìn)一步提升,這被稱為“可靠性墻”,是當(dāng)前和未來的超級(jí)計(jì)算機(jī)研發(fā)所面臨的嚴(yán)峻挑戰(zhàn)。為了應(yīng)對(duì)“可靠性墻”挑戰(zhàn),課題組提出并實(shí)現(xiàn)了一個(gè)綜合性的解決方案——超級(jí)計(jì)算機(jī)自治故障管理系統(tǒng),由它來完成對(duì)故障整個(gè)生命周期的自動(dòng)化管理,包括故障的檢測(cè)、故障的診斷、故障的隔離以及任務(wù)的恢復(fù)等,這可以極大提高故障處理的效率、降低故障處理的開銷、改善大規(guī)模超級(jí)計(jì)算機(jī)系統(tǒng)的可靠性。超級(jí)計(jì)算機(jī)自治故障管理系統(tǒng)是一個(gè)非常龐大且復(fù)雜的系統(tǒng),包含許多非常重要的功能,本文聚焦于其中的兩項(xiàng)功能——統(tǒng)一消息通信功能和故障信息展示功能,對(duì)它們的設(shè)計(jì)和實(shí)現(xiàn)方案進(jìn)行研究和探討。具體而言,本文開展了以下兩方面的工作:(1)消息通信框架的設(shè)計(jì)與實(shí)現(xiàn)消息通信框架用于實(shí)現(xiàn)統(tǒng)一消息通信功能,包括分層架構(gòu)和基于發(fā)布/訂閱的模塊間協(xié)作機(jī)制兩個(gè)方面的內(nèi)容。分層架構(gòu)將故障管理進(jìn)行功能分解后分配到多個(gè)層次實(shí)現(xiàn),只有最底層部署在超級(jí)計(jì)算機(jī)的每個(gè)節(jié)點(diǎn)上,負(fù)責(zé)故障的檢測(cè)以及簡單的診斷和處理,而將復(fù)雜的功能交由上面的層次實(shí)現(xiàn);上面的層次部署在單獨(dú)的管理服務(wù)器上,可以使用更多的資源、從更大范圍節(jié)點(diǎn)集的視角實(shí)現(xiàn)更復(fù)雜的故障診斷和處理等功能。分層架構(gòu)既能減輕故障管理對(duì)超級(jí)計(jì)算機(jī)節(jié)點(diǎn)性能的影響,又能支持從節(jié)點(diǎn)集以及整個(gè)超級(jí)計(jì)算機(jī)系統(tǒng)的視角對(duì)故障進(jìn)行更有效地管理,同時(shí)還保證了超級(jí)計(jì)算機(jī)自治故障管理系統(tǒng)良好的規(guī)?蓴U(kuò)展性;诎l(fā)布/訂閱的模塊間協(xié)作機(jī)制將所有功能模塊劃分為發(fā)布者模塊、訂閱者模塊、訂閱/發(fā)布者模塊三類并提供相應(yīng)的實(shí)現(xiàn)接口,它們只與事件服務(wù)模塊通過發(fā)布或/和接收故障事件進(jìn)行交互,由故障事件在模塊之間和層次之間的流動(dòng)驅(qū)動(dòng)故障管理的整個(gè)流程。該機(jī)制統(tǒng)一了各種功能模塊的通信方式以及各個(gè)層次的所有自治故障管理子系統(tǒng)的工作方式,使得整個(gè)超級(jí)計(jì)算機(jī)自治故障管理系統(tǒng)的邏輯結(jié)構(gòu)清晰,降低了其開發(fā)的難度和工作量并保證了其良好的功能可擴(kuò)展性。(2)消息展示框架的設(shè)計(jì)與實(shí)現(xiàn)消息展示框架用于實(shí)現(xiàn)故障信息展示功能,方便系統(tǒng)管理和維護(hù)人員了解整個(gè)超級(jí)計(jì)算機(jī)系統(tǒng)的健康狀況以及定位故障節(jié)點(diǎn)以進(jìn)行必要的硬件維修/更換操作。該框架采用C/S架構(gòu),服務(wù)端作為頂層自治故障管理子系統(tǒng)的一個(gè)訂閱者模塊向其事件服務(wù)模塊訂閱所有的故障事件并周期性地將重要的故障信息格式化為SCSDL文檔后發(fā)送給客戶端,客戶端對(duì)接收到的SCSDL文檔進(jìn)行解析后通過圖形用戶界面將故障信息直觀形象地展示出來。超級(jí)計(jì)算機(jī)系統(tǒng)描述語言SCSDL具有較強(qiáng)的表達(dá)能力,能夠描述具有任意規(guī)模的超級(jí)計(jì)算機(jī)中計(jì)算節(jié)點(diǎn)的實(shí)際物理布局和各節(jié)點(diǎn)所處的狀態(tài)。借助SCSDL,服務(wù)端對(duì)故障信息進(jìn)行壓縮表示,客戶端則實(shí)現(xiàn)展示界面內(nèi)容和視圖的分離,使消息展示框架具有良好的可擴(kuò)展性和靈活性。原型系統(tǒng)在“天河二號(hào)”超級(jí)計(jì)算機(jī)上的部署實(shí)驗(yàn)驗(yàn)證了本文工作的可行性和有效性,本文工作為大規(guī)模P級(jí)系統(tǒng)以及未來E級(jí)系統(tǒng)的故障管理和狀態(tài)信息展示做了積極的探索和有益的嘗試。
【圖文】:

系統(tǒng)結(jié)構(gòu),頁圖


歷屆Top500榜單中各種系統(tǒng)結(jié)構(gòu)所占比例

系統(tǒng)基本模型,發(fā)布者,事件服務(wù),訂閱者


圖 2.1 采用發(fā)布/訂閱模式的系統(tǒng)基本模型示意從上述事件的發(fā)布/訂閱過程可以看出,事件服務(wù)對(duì)發(fā)布者和訂閱者進(jìn)行了強(qiáng)有力的解耦,這可以從空間、時(shí)間和同步性三個(gè)維度進(jìn)行分析,,如圖 2.2[53]所示。(1)空間上的解耦(圖 2.2(a)):交互的雙方不需要知道彼此。發(fā)布者通過事件服務(wù)發(fā)布事件,訂閱者則通過事件服務(wù)間接地接收事件。發(fā)布者通常不會(huì)對(duì)訂閱
【學(xué)位授予單位】:國防科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP338.4

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馬科篤;潘何;吳靜;馮澤江;張翼;;對(duì)天然氣壓縮機(jī)全面故障管理的研究[J];設(shè)備管理與維修;2013年02期

2 楊惠敏;孫紅軍;;計(jì)算機(jī)控制系統(tǒng)的零故障管理[J];大氮肥;2006年02期

3 馬艷華;呼詠;鄭玉彬;;談設(shè)備零故障管理[J];建筑機(jī)械;2006年13期

4 王俊洪;淺談設(shè)備零故障管理[J];中國設(shè)備工程;2003年01期

5 郭慶林;無故障管理的實(shí)踐[J];冶金經(jīng)濟(jì)與管理;2003年03期

6 王梅 ,張?zhí)m英;FMX(故障管理專家)應(yīng)用初探[J];通訊世界;2002年09期

7 魏光軒;開展全面故障管理的探討[J];設(shè)備管理;1987年04期

8 高來陽;;<設(shè)備的狀態(tài)管理>講座(二)[J];設(shè)備維修;1987年02期

9 馮月霞;樊志強(qiáng);;集中故障管理系統(tǒng)的建設(shè)和應(yīng)用[J];通信企業(yè)管理;2016年02期

10 劉華進(jìn);;零故障管理在大型泵站的應(yīng)用[J];設(shè)備管理與維修;2014年08期

相關(guān)會(huì)議論文 前10條

1 李t

本文編號(hào):2602198


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/2602198.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1b5d5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com