帶冗余核的NoC眾核系統(tǒng)容錯(cuò)技術(shù)研究
發(fā)布時(shí)間:2017-12-09 08:24
本文關(guān)鍵詞:帶冗余核的NoC眾核系統(tǒng)容錯(cuò)技術(shù)研究
更多相關(guān)文章: 片上網(wǎng)絡(luò) 眾核系統(tǒng) 核級(jí)冗余 容錯(cuò)
【摘要】:隨著芯片特征尺寸的減小和系統(tǒng)復(fù)雜度的增加,眾核系統(tǒng)的容錯(cuò)問(wèn)題已不容忽視。處理器核是眾核系統(tǒng)中提供處理能力的重要組件。為應(yīng)對(duì)處理器核故障,常用方法是在芯片中設(shè)置冗余核。如何以最小代價(jià)最大限度減少處理器核故障給眾核系統(tǒng)整體性能造成的損失是研究人員當(dāng)前所面臨的嚴(yán)峻挑戰(zhàn)之一。眾核系統(tǒng)中,處理器核故障不僅會(huì)影響芯片的物理拓?fù)浣Y(jié)構(gòu),還會(huì)影響軟件的運(yùn)行。為保證處理器核故障后系統(tǒng)的可管理性、任務(wù)負(fù)載的平衡性,減小物理拓?fù)渥兓瘜?duì)任務(wù)執(zhí)行的影響,本文以帶有冗余核的、基于No C的眾核系統(tǒng)為研究對(duì)象,從管理結(jié)構(gòu)容錯(cuò)、任務(wù)遷移、虛擬拓?fù)溥原與物理拓?fù)溥原4個(gè)方面出發(fā),圍繞眾核系統(tǒng)永久性處理器核故障的容錯(cuò)問(wèn)題展開研究。論文的主要工作包括:(1)研究眾核系統(tǒng)管理結(jié)構(gòu)的容錯(cuò)方法。眾核系統(tǒng)發(fā)生永久性處理器核故障后,首先需要解決系統(tǒng)如何恢復(fù)的問(wèn)題。眾核系統(tǒng)的管理結(jié)構(gòu)是直接負(fù)責(zé)整個(gè)眾核系統(tǒng)資源管理的重要結(jié)構(gòu),只有使管理結(jié)構(gòu)本身具有較強(qiáng)的容錯(cuò)能力,才能使眾核系統(tǒng)從故障中自主恢復(fù)運(yùn)行。為增強(qiáng)眾核系統(tǒng)管理結(jié)構(gòu)的故障適應(yīng)能力,本文研究一種角色可變的容錯(cuò)管理方法。該方法根據(jù)典型的層次化管理方式,采用一種角色可轉(zhuǎn)變的管理結(jié)構(gòu),基于該結(jié)構(gòu)提出相互監(jiān)視、自適應(yīng)管理、選舉和自喚醒4種機(jī)制,使各核心都具有自主判斷和構(gòu)建管理結(jié)構(gòu)的能力。實(shí)驗(yàn)表明,該方法能夠保證管理結(jié)構(gòu)容忍各種分布的處理器核故障;在每個(gè)核增加20K字節(jié)ROM開銷與35.6K字節(jié)RAM開銷情況下,眾核系統(tǒng)能夠在各種故障情況下成功重構(gòu)管理結(jié)構(gòu),維持運(yùn)行;在系統(tǒng)正常運(yùn)行時(shí),該方法僅引入1.48%的計(jì)算開銷。(2)研究面向負(fù)載平衡的任務(wù)遷移算法。眾核系統(tǒng)恢復(fù)管理以后,故障核上的任務(wù)需要遷移到其他無(wú)故障核上繼續(xù)運(yùn)行。而尋找最優(yōu)任務(wù)遷移終點(diǎn)的問(wèn)題本質(zhì)上屬于任務(wù)分配問(wèn)題,是NP完全問(wèn)題,很難在短時(shí)間內(nèi)求得最優(yōu)解。為能夠在較短時(shí)間內(nèi)得到一種滿意的負(fù)載平衡的任務(wù)遷移方案,本文對(duì)標(biāo)準(zhǔn)遺傳算法進(jìn)行了改進(jìn),研究一種自適應(yīng)交叉An混沌映射擾動(dòng)的遺傳遷移算法。該算法將標(biāo)準(zhǔn)遺傳算法中的固定交叉率修改為自適應(yīng)交叉率加快算法收斂速度,并通過(guò)隨進(jìn)化代數(shù)遞減的交叉點(diǎn)數(shù)選取方法來(lái)緩解算法早熟問(wèn)題和平衡算法前后期的搜索速度。此外,為進(jìn)一步提高算法的局部搜索能力,該算法利用An混沌映射對(duì)每代中的最優(yōu)個(gè)體施加擾動(dòng)。實(shí)驗(yàn)表明,本文改進(jìn)算法在適應(yīng)度和標(biāo)準(zhǔn)差方面較標(biāo)準(zhǔn)遺傳算法平均提升33.9%和27.1%,算法尋優(yōu)過(guò)程優(yōu)于標(biāo)準(zhǔn)遺傳算法。與其他4種算法相比,本文算法能夠產(chǎn)生更加平衡的任務(wù)分布,有利于緩解芯片中局部溫度過(guò)高的問(wèn)題,也有利于芯片整體的均勻老化。(3)研究虛擬拓?fù)渲嘏渲萌蒎e(cuò)方法。永久性處理器核故障將導(dǎo)致眾核系統(tǒng)物理拓?fù)浣Y(jié)構(gòu)發(fā)生變化。為減小物理拓?fù)渥兓o傳統(tǒng)2D mesh No C眾核系統(tǒng)帶來(lái)的性能損失、縮短系統(tǒng)故障恢復(fù)時(shí)間,本文研究一種適用于眾核系統(tǒng)的、面向虛擬拓?fù)溥原的快速兩步拓?fù)渲嘏渲盟惴。該算法關(guān)注映射方案DF值與算法的計(jì)算復(fù)雜度,通過(guò)定義映射區(qū)域并采用匈牙利算法求解最大匹配問(wèn)題,快速得到初始映射解;通過(guò)約束交錯(cuò)映射情況縮小禁忌搜索的搜索范圍,在初始映射解基礎(chǔ)上快速優(yōu)化,得到最終映射方案。此外,還利用本文算法對(duì)前期提出的消息傳遞模型中的虛擬拓?fù)鋵舆M(jìn)行擴(kuò)展。實(shí)驗(yàn)結(jié)果表明,本文算法具有較低的容錯(cuò)時(shí)間開銷;當(dāng)故障位置隨機(jī)分布時(shí),本文算法在DF值的優(yōu)化效果上較參考算法平均提升5.81%;而當(dāng)故障位置集中分布時(shí),該提升比達(dá)到了15.40%,對(duì)故障的分布具有較強(qiáng)的適應(yīng)能力。(4)研究物理拓?fù)渲嘏渲萌蒎e(cuò)方法。雖然虛擬拓?fù)浼夹g(shù)可緩解物理拓?fù)渥兓瘜?duì)上層軟件的影響,但在傳統(tǒng)2D mesh No C眾核系統(tǒng)中僅依靠虛擬拓?fù)浼夹g(shù)并不能保證系統(tǒng)性能的完全恢復(fù)。針對(duì)該問(wèn)題,本文首先在傳統(tǒng)2D mesh No C結(jié)構(gòu)基礎(chǔ)上增加了路由器和多路選擇器,研究一種物理拓?fù)淇蛇原的可重配置2D mesh互連結(jié)構(gòu);然后針對(duì)該結(jié)構(gòu)研究一種拓?fù)渲嘏渲盟惴ㄒ詫ふ矣行У耐負(fù)渲嘏渲梅桨。該算法通過(guò)每次找到的局部最優(yōu)解來(lái)逐步逼近全局最優(yōu)解,并在一定條件下修改初始解并重新搜索。實(shí)驗(yàn)表明,采用本文結(jié)構(gòu)的Intel 80核芯片總面積僅增加約3.8%;對(duì)于工作網(wǎng)絡(luò)規(guī)模不超過(guò)12×12的帶有單列冗余核和單行單列冗余核的眾核系統(tǒng),當(dāng)故障核總數(shù)分別不超過(guò)核心總數(shù)的5.1%和7.7%時(shí),本文算法可獲得90%以上的重配置成功率。為完全恢復(fù)系統(tǒng)性能提供了一種低面積開銷的解決思路。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP332;TP18
,
本文編號(hào):1269722
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1269722.html
最近更新
教材專著