基于相似性的粗粒度可重構(gòu)指令壓縮
發(fā)布時(shí)間:2021-02-24 18:12
粗粒度可重構(gòu)架構(gòu)在能效比方面具有明顯優(yōu)勢(shì),然而其指令存儲(chǔ)與傳輸過程的功耗代價(jià)過高.實(shí)驗(yàn)發(fā)現(xiàn)指令間具有明顯的相似性,由此本文提出一種基于指令相似性的壓縮技術(shù),通過對(duì)指令的壓縮、傳輸與解壓,可以在不降低性能的前提下,優(yōu)化架構(gòu)的功耗和面積.針對(duì)同構(gòu)和異構(gòu)平臺(tái)分別提出了指令分發(fā)模型和指令寄存器模型的解決方案,結(jié)合編譯策略優(yōu)化,最終與兩種傳統(tǒng)結(jié)構(gòu)相比,面積效率比分別提升36%和181%,功耗效率比分別提升33%和118%.
【文章來源】:微電子學(xué)與計(jì)算機(jī). 2020,37(08)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
典型CGRA結(jié)構(gòu)圖
本文未壓縮基礎(chǔ)指令集如圖2(a)所示.考慮到通用性和可擴(kuò)展性的要求,基礎(chǔ)指令長(zhǎng)度固定為64位,共由以下幾部分組成:5位的操作碼字段,用來表示本條指令的具體操作類型;3個(gè)源操作數(shù)字段,每個(gè)字段7位,用來表示3個(gè)源操作數(shù)(其中3位表示輸入來源:立即數(shù)、共享數(shù)據(jù)存儲(chǔ)器、全局寄存器、本地?cái)?shù)據(jù)寄存器、本地或其他相聯(lián)處理單元的輸出寄存器;4位表示具體地址索引);輸出也用7位表示(3位表示輸出去向:共享數(shù)據(jù)存儲(chǔ)器、全局寄存器、本地?cái)?shù)據(jù)寄存器或輸出寄存器;4位表示輸出的具體地址索引);28位的立即數(shù)/地址字段,用來表示操作數(shù)是立即數(shù)時(shí)的值或者load和store指令直接尋址時(shí)的地址.3.2 指令分割及壓縮
(2)在處理單元映射過程中,可以在性能相同的幾種配置方案中,選擇改變字段數(shù)較少的結(jié)果.如圖3所示將圖3(b)所示算法,映射到圖3(a)所示2×2 CGRA陣列上,成功映射方案中的兩種如圖3(c)和圖3(d)所示.啟動(dòng)間隔表示多條指令循環(huán)執(zhí)行時(shí),一條指令在兩次迭代間的間隔.作為性能衡量的指標(biāo),兩種方案的啟動(dòng)間隔均為2,說明性能相同.如圖4所示,兩種方案改變字段已用虛線框標(biāo)出.對(duì)于映射方案1,處理單元2除操作碼字段(SOp)外,還需要傳輸2個(gè)字段(S0和S3);但對(duì)于映射方案2,除操作碼字段外,每個(gè)處理單元最多只有一個(gè)字段發(fā)生改變,故方案2更優(yōu).針對(duì)不同的應(yīng)用,映射算法大多具有明顯的優(yōu)化空間.圖4 映射結(jié)果選擇
【參考文獻(xiàn)】:
期刊論文
[1]一種快速高效的粗粒度可重構(gòu)架構(gòu)編譯框架[J]. 尹文志,趙仲元,毛志剛,王琴,繩偉光. 微電子學(xué)與計(jì)算機(jī). 2019(08)
本文編號(hào):3049758
【文章來源】:微電子學(xué)與計(jì)算機(jī). 2020,37(08)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
典型CGRA結(jié)構(gòu)圖
本文未壓縮基礎(chǔ)指令集如圖2(a)所示.考慮到通用性和可擴(kuò)展性的要求,基礎(chǔ)指令長(zhǎng)度固定為64位,共由以下幾部分組成:5位的操作碼字段,用來表示本條指令的具體操作類型;3個(gè)源操作數(shù)字段,每個(gè)字段7位,用來表示3個(gè)源操作數(shù)(其中3位表示輸入來源:立即數(shù)、共享數(shù)據(jù)存儲(chǔ)器、全局寄存器、本地?cái)?shù)據(jù)寄存器、本地或其他相聯(lián)處理單元的輸出寄存器;4位表示具體地址索引);輸出也用7位表示(3位表示輸出去向:共享數(shù)據(jù)存儲(chǔ)器、全局寄存器、本地?cái)?shù)據(jù)寄存器或輸出寄存器;4位表示輸出的具體地址索引);28位的立即數(shù)/地址字段,用來表示操作數(shù)是立即數(shù)時(shí)的值或者load和store指令直接尋址時(shí)的地址.3.2 指令分割及壓縮
(2)在處理單元映射過程中,可以在性能相同的幾種配置方案中,選擇改變字段數(shù)較少的結(jié)果.如圖3所示將圖3(b)所示算法,映射到圖3(a)所示2×2 CGRA陣列上,成功映射方案中的兩種如圖3(c)和圖3(d)所示.啟動(dòng)間隔表示多條指令循環(huán)執(zhí)行時(shí),一條指令在兩次迭代間的間隔.作為性能衡量的指標(biāo),兩種方案的啟動(dòng)間隔均為2,說明性能相同.如圖4所示,兩種方案改變字段已用虛線框標(biāo)出.對(duì)于映射方案1,處理單元2除操作碼字段(SOp)外,還需要傳輸2個(gè)字段(S0和S3);但對(duì)于映射方案2,除操作碼字段外,每個(gè)處理單元最多只有一個(gè)字段發(fā)生改變,故方案2更優(yōu).針對(duì)不同的應(yīng)用,映射算法大多具有明顯的優(yōu)化空間.圖4 映射結(jié)果選擇
【參考文獻(xiàn)】:
期刊論文
[1]一種快速高效的粗粒度可重構(gòu)架構(gòu)編譯框架[J]. 尹文志,趙仲元,毛志剛,王琴,繩偉光. 微電子學(xué)與計(jì)算機(jī). 2019(08)
本文編號(hào):3049758
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3049758.html
最近更新
教材專著