面向高性能計算的眾核處理器輕量級錯誤恢復(fù)技術(shù)研究
[Abstract]:With the progress of semiconductor technology, a large number of core processors integrated on a single chip have been widely used in the field of high performance computing. Compared with multi-core processors, multi-core processors can provide better computing density and energy efficiency ratio, but also face more and more serious reliability challenges. It is necessary to design an efficient processor fault-tolerant mechanism to effectively ensure the running efficiency of the project without bringing large chip power consumption and area overhead. Based on a prototype of an autonomous multicore processor DFMC (deeply fused and heterogeneous many-core, depending on whether the application running on the core has the characteristics of relevance, Two lightweight error recovery technologies, independent and cooperative, are proposed and implemented for multi-core processors. Among them, the cooperative recovery technology is managed by the centralized components, and through the collaborative recovery bus interconnection, multiple cores associated with the error are quickly rolled back to the correct state in the event of an error. Both the retention and recovery processes are realized by custom instructions, and the information needed for recovery is retained in the core of the operation to ensure that the impact on the performance of the project is minimized. The experimental results show that only 1.257% of the chip area is increased by the above technology, which can solve the instantaneous error of about 80% of the independent multi-core processor, and has little effect on the performance, chip timing and power consumption of the project. It can effectively improve the fault-tolerant ability of multi-core processors.
【作者單位】: 數(shù)學(xué)工程與先進計算國家重點實驗室;
【基金】:國家“八六三”高技術(shù)研究發(fā)展計劃基金項目(2014AA01A301) “核高基”國家科技重大專項基金項目(2013ZX0102-8001-001-001)
【分類號】:TP332
【參考文獻】
相關(guān)期刊論文 前2條
1 黃海林;唐志敏;許彤;;龍芯1號處理器的故障注入方法與軟錯誤敏感性分析[J];計算機研究與發(fā)展;2006年10期
2 賈佳;楊學(xué)軍;李志凌;;一種基于冗余線程的GPU多副本容錯技術(shù)[J];計算機研究與發(fā)展;2013年07期
【共引文獻】
相關(guān)期刊論文 前10條
1 張英武;袁國順;;微處理器故障注入工具與故障敏感度分析[J];半導(dǎo)體技術(shù);2008年07期
2 張程燁;張大偉;陳辰;;面向星載應(yīng)用的軟件故障注入方法[J];儀器儀表用戶;2013年02期
3 梁華國;陳凡;黃正峰;;時序敏感的容軟錯誤電路選擇性加固方案[J];電子測量與儀器學(xué)報;2014年03期
4 張麗娜;梁華國;黃正峰;邢璐;;一種基于二分查找的電路選擇性加固方案[J];電子測量與儀器學(xué)報;2014年07期
5 孫巖;張民選;李少青;高昌壘;;基于敏感寄存器替換的電路軟錯誤率與開銷最優(yōu)化[J];計算機研究與發(fā)展;2011年01期
6 潘慶和;洪炳熔;;軟件故障優(yōu)化注入方案研究與分析[J];計算機研究與發(fā)展;2011年03期
7 繩偉光;肖立伊;毛志剛;;用于電路級仿真軟故障注入的自動化方法[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2009年03期
8 繩偉光;肖立伊;毛志剛;;組合邏輯電路的軟錯誤率自動分析平臺[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2009年11期
9 胡嘉偉;江建慧;;一種面向軟件可靠性評估的故障注入機制的設(shè)計與實現(xiàn)[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2012年06期
10 孫科;梁華國;黃正峰;王偉;;一種基于三模冗余令牌的自恢復(fù)控制器[J];計算機應(yīng)用;2009年02期
相關(guān)會議論文 前7條
1 舒曉芬;王曉峰;余鵬;;某BIT測試性指標(biāo)驗證系統(tǒng)的研究與實現(xiàn)[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(1)[C];2008年
2 潘送軍;胡瑜;李曉維;;多核處理器瞬態(tài)故障敏感性分析[A];第五屆中國測試學(xué)術(shù)會議論文集[C];2008年
3 王天成;呂濤;李曉維;;RTL錯誤注入的方法和實現(xiàn)[A];第五屆中國測試學(xué)術(shù)會議論文集[C];2008年
4 吳珍妮;梁華國;黃正峰;王俊;陳秀美;曹源;;容軟錯誤的電路選擇性加固技術(shù)[A];第六屆中國測試學(xué)術(shù)會議論文集[C];2010年
5 趙利;陳中梁;胡瑜;李曉維;;軟硬件協(xié)同的微處理器可靠性設(shè)計評估平臺[A];第六屆中國測試學(xué)術(shù)會議論文集[C];2010年
6 胡嘉偉;江建慧;;一種面向軟件可靠性評估的故障注入機制的設(shè)計與實現(xiàn)[A];第十四屆全國容錯計算學(xué)術(shù)會議(CFTC'2011)論文集[C];2011年
7 田增;朱英;巨鵬錦;曹華;;基于VPI的故障注入驗證環(huán)境[A];第十五屆計算機工程與工藝年會暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
相關(guān)博士學(xué)位論文 前10條
1 孫巖;納米集成電路軟錯誤分析與緩解技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
2 朱丹;基于時序等價性檢查的電路軟錯誤系統(tǒng)級可靠性分析方法研究[D];國防科學(xué)技術(shù)大學(xué);2010年
3 劉必慰;集成電路單粒子效應(yīng)建模與加固方法研究[D];國防科學(xué)技術(shù)大學(xué);2009年
4 龔銳;多核微處理器容軟錯誤設(shè)計關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
5 黃正峰;數(shù)字電路軟錯誤防護方法研究[D];合肥工業(yè)大學(xué);2009年
6 繩偉光;數(shù)字集成電路軟錯誤敏感性分析與可靠性優(yōu)化技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
7 成玉;高性能微處理器動態(tài)容軟錯誤設(shè)計關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
8 劉光輝;高效處理器容錯技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2013年
9 熊磊;面向程序級的軟錯誤容錯研究[D];國防科學(xué)技術(shù)大學(xué);2012年
10 譚蘭芳;面向軟錯誤的故障恢復(fù)和驗證技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 繆斯;深亞微米FPGA互連抗軟錯誤方法研究[D];復(fù)旦大學(xué);2011年
2 唐志敏;基于CPCI總線的故障模擬系統(tǒng)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
3 孫金銀;基于時序等價性檢查的組合邏輯單元軟錯誤可靠性分析[D];國防科學(xué)技術(shù)大學(xué);2011年
4 孫科;基于令牌加固的自恢復(fù)容錯控制器設(shè)計研究[D];合肥工業(yè)大學(xué);2009年
5 安龍飛;高可靠8051中ALU和系統(tǒng)管理單元的可靠性技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2008年
6 黃捚;組合電路軟錯誤敏感性分析與加固[D];哈爾濱工業(yè)大學(xué);2008年
7 曹源;有限狀態(tài)機的容軟錯誤及低功耗設(shè)計[D];合肥工業(yè)大學(xué);2010年
8 吳珍妮;數(shù)字電路容錯設(shè)計與研究[D];合肥工業(yè)大學(xué);2010年
9 鄧先坤;SRAM型FPGASEU故障注入系統(tǒng)設(shè)計[D];哈爾濱工業(yè)大學(xué);2013年
10 楊森彬;航天總線容錯性能測試平臺的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2013年
,本文編號:2476660
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2476660.html