大規(guī)模高通量計算系統(tǒng)的可靠性設(shè)計研究年度報告
發(fā)布時間:2022-12-22 06:45
高通量計算系統(tǒng)由海量的計算節(jié)點、存儲節(jié)點通過網(wǎng)絡(luò)互連而成。由于規(guī)模巨大,系統(tǒng)的可靠性成為一個非常嚴重的問題,部件失效已經(jīng)成為一種常態(tài),系統(tǒng)設(shè)計必須考慮容錯的問題。我們需要建立新的高通量計算系統(tǒng)的可靠性保障框架,來適應(yīng)高通量計算中不同層次的可靠性需求,研究從芯片級到系統(tǒng)級跨層次的可靠計算技術(shù)。圍繞該目標,該研究從高通量處理芯片的故障檢測和容錯設(shè)計方法,高通量計算系統(tǒng)的失效檢測和恢復(fù)方法和從芯片級到系統(tǒng)級的故障自預(yù)測、自檢測、自定位、自隔離和自愈合(5S)支撐環(huán)境3方面展開研究。截至2013年各項工作按照任務(wù)書原定計劃正在穩(wěn)步推進,部分工作取得階段性成果。在(1)針對NBTI老化故障的在線預(yù)測技術(shù);(2)深度學(xué)習(xí)等系統(tǒng)故障預(yù)測技術(shù);(3)寄存器故障診斷;(4)片上網(wǎng)絡(luò)通信隔離技術(shù)等技術(shù)點上取得了突破,共發(fā)表錄用了IEEE Transactions論文6篇,其他期刊論文1篇。從研究點覆蓋來看,部署到研究點已經(jīng)全部覆蓋了任務(wù)書規(guī)定的所有研究計劃,并對某些研究點進行了細化。
【文章頁數(shù)】:1 頁
本文編號:3723668
【文章頁數(shù)】:1 頁
本文編號:3723668
本文鏈接:http://sikaile.net/projectlw/xtxlw/3723668.html
最近更新
教材專著