面向安騰2處理器的故障注入工具設(shè)計與實現(xiàn)
發(fā)布時間:2020-10-09 10:42
如今計算機系統(tǒng)已經(jīng)在一些關(guān)鍵的行業(yè)(如民航訂票系統(tǒng)、銀行結(jié)算系統(tǒng)、證券交易系統(tǒng)等)得到廣泛應(yīng)用,這些計算機系統(tǒng)可靠穩(wěn)定的運行起著非常關(guān)鍵的作用。在這些領(lǐng)域的高端容錯服務(wù)器中,安騰家族處理器因其主要面向關(guān)鍵任務(wù)和數(shù)據(jù)密集型計算市場,常常是其首選。Intel宣稱,全球電信運營商百強企業(yè)中已有八十家部署了安騰服務(wù)器。因此,面向安騰服務(wù)器的可靠性評估與測量是非常有意義的。 本文采用基于故障注入的方法實現(xiàn)對系統(tǒng)可靠性的評估,即使用軟件或硬件方法向系統(tǒng)注入故障,觀察系統(tǒng)在模擬真實故障下的表現(xiàn)達到對容錯性能評估的目的。首先對國內(nèi)外各種故障注入方法和工具進行了研究和分析,然后根據(jù)安騰服務(wù)器的軟硬件特點,設(shè)計并實現(xiàn)了一種操作系統(tǒng)層模擬處理器故障注入工具,可以向目標處理器運行關(guān)鍵的50個寄存器注入固定0、固定1以及翻轉(zhuǎn)等多種故障模型,可通過設(shè)置永久、瞬時、間歇等時間類型來控制故障的持續(xù)時間和注入頻率。 操作系統(tǒng)層模擬的處理器故障注入雖能在一定程度上模擬處理器的一些故障,但其不能深入處理器內(nèi)部結(jié)構(gòu),故而無法做到對處理器的一些內(nèi)部結(jié)構(gòu)獨立測試,且模擬的故障也不夠貼近真實。因此本文又開發(fā)了固件層處理器故障注入工具,故障注入基于IA-64架構(gòu)處理器提供的固件實現(xiàn),可向目標處理器注入處理核心失效、Cache、TLB、Register File各結(jié)構(gòu)機器檢查錯誤,Cache內(nèi)容失效等一系列故障。最后通過一系列實際故障注入實驗,證實了本文設(shè)計的兩種面向安騰2處理器的故障注入工具的有效性,并指出其在評測系統(tǒng)可靠性方面可發(fā)揮的重要作用。
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2010
【中圖分類】:TP332
【部分圖文】:
Linux系統(tǒng)軟件結(jié)構(gòu)
因而還需要系統(tǒng)狀態(tài)監(jiān)控器。其整體解決方案如圖 2-5 所示。需要重意的是,必須保證所獲得的內(nèi)核數(shù)據(jù)的一致性,我們通過探測器的處理中訪問臨界資源前加鎖解決此問題。首先,通過結(jié)果回收器建立探測點采集內(nèi)核信息,其采集到的每條信息一個記錄,內(nèi)核專門開辟一塊可以容納 N 條記錄的循環(huán)緩沖區(qū)。緩沖區(qū)滿時,不再寫入信息,只更新緩沖區(qū)當前指針(index),用戶根據(jù)ex 是否連續(xù)判斷出信息丟失與否。每指定數(shù)目(batch_count)條記錄就喚核線程 Reporter,批量處理有利于系統(tǒng)性能,N 和 batch_count 的取值于具體情況。
系統(tǒng)狀態(tài)監(jiān)測器結(jié)構(gòu)圖
本文編號:2833588
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2010
【中圖分類】:TP332
【部分圖文】:
Linux系統(tǒng)軟件結(jié)構(gòu)
因而還需要系統(tǒng)狀態(tài)監(jiān)控器。其整體解決方案如圖 2-5 所示。需要重意的是,必須保證所獲得的內(nèi)核數(shù)據(jù)的一致性,我們通過探測器的處理中訪問臨界資源前加鎖解決此問題。首先,通過結(jié)果回收器建立探測點采集內(nèi)核信息,其采集到的每條信息一個記錄,內(nèi)核專門開辟一塊可以容納 N 條記錄的循環(huán)緩沖區(qū)。緩沖區(qū)滿時,不再寫入信息,只更新緩沖區(qū)當前指針(index),用戶根據(jù)ex 是否連續(xù)判斷出信息丟失與否。每指定數(shù)目(batch_count)條記錄就喚核線程 Reporter,批量處理有利于系統(tǒng)性能,N 和 batch_count 的取值于具體情況。
系統(tǒng)狀態(tài)監(jiān)測器結(jié)構(gòu)圖
【引證文獻】
相關(guān)碩士學位論文 前5條
1 劉璧怡;Linux操作系統(tǒng)內(nèi)核可靠性評測方法研究[D];哈爾濱工業(yè)大學;2011年
2 龐東賀;基于STAF的分布式自動化可用性評測平臺的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
3 羅宗揚;基于JTAG的CPU故障注入工具的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
4 唐志敏;基于CPCI總線的故障模擬系統(tǒng)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
5 王力;高端容錯計算機系統(tǒng)監(jiān)測平臺的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
本文編號:2833588
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2833588.html
最近更新
教材專著