大規(guī)模高通量計(jì)算系統(tǒng)的可靠性設(shè)計(jì)研究年度報(bào)告
發(fā)布時(shí)間:2022-12-22 06:45
高通量計(jì)算系統(tǒng)由海量的計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)互連而成。由于規(guī)模巨大,系統(tǒng)的可靠性成為一個(gè)非常嚴(yán)重的問(wèn)題,部件失效已經(jīng)成為一種常態(tài),系統(tǒng)設(shè)計(jì)必須考慮容錯(cuò)的問(wèn)題。我們需要建立新的高通量計(jì)算系統(tǒng)的可靠性保障框架,來(lái)適應(yīng)高通量計(jì)算中不同層次的可靠性需求,研究從芯片級(jí)到系統(tǒng)級(jí)跨層次的可靠計(jì)算技術(shù)。圍繞該目標(biāo),該研究從高通量處理芯片的故障檢測(cè)和容錯(cuò)設(shè)計(jì)方法,高通量計(jì)算系統(tǒng)的失效檢測(cè)和恢復(fù)方法和從芯片級(jí)到系統(tǒng)級(jí)的故障自預(yù)測(cè)、自檢測(cè)、自定位、自隔離和自愈合(5S)支撐環(huán)境3方面展開(kāi)研究。截至2013年各項(xiàng)工作按照任務(wù)書(shū)原定計(jì)劃正在穩(wěn)步推進(jìn),部分工作取得階段性成果。在(1)針對(duì)NBTI老化故障的在線預(yù)測(cè)技術(shù);(2)深度學(xué)習(xí)等系統(tǒng)故障預(yù)測(cè)技術(shù);(3)寄存器故障診斷;(4)片上網(wǎng)絡(luò)通信隔離技術(shù)等技術(shù)點(diǎn)上取得了突破,共發(fā)表錄用了IEEE Transactions論文6篇,其他期刊論文1篇。從研究點(diǎn)覆蓋來(lái)看,部署到研究點(diǎn)已經(jīng)全部覆蓋了任務(wù)書(shū)規(guī)定的所有研究計(jì)劃,并對(duì)某些研究點(diǎn)進(jìn)行了細(xì)化。
【文章頁(yè)數(shù)】:1 頁(yè)
本文編號(hào):3723668
【文章頁(yè)數(shù)】:1 頁(yè)
本文編號(hào):3723668
本文鏈接:http://sikaile.net/projectlw/xtxlw/3723668.html
最近更新
教材專(zhuān)著