同時多線程處理器前端系統(tǒng)的研究

發(fā)布時間：2020-08-10 12:41

【摘要】： 同時多線程處理器(SMT)通過在每個時鐘周期從多個同時運行的線程取指令執(zhí)行,充分挖掘了線程內(nèi)的指令級并行性和線程間的線程級并行性,減少了指令槽的水平浪費和垂直浪費,從而極大地提高了處理器的指令吞吐率,成為目前主流的微處理器體系結(jié)構(gòu)之一。 SMT的前端系統(tǒng)(包括:取指部件、1級Cache和分支預測器)是影響其性能的關(guān)鍵,也是目前學術(shù)界研究SMT的重點。本論文分別從其前端系統(tǒng)的三個部件出發(fā),就取指策略、Cache的壓縮存儲技術(shù)及分支預測器進行了研究,提出兩個有效的取指策略、一種簡單的Cache壓縮技術(shù),以及一種基于值的分支預測方法,將這些研究成果結(jié)合起來構(gòu)成一個新的前端系統(tǒng),使其總體性能得到了大幅度的提高。具體的研究成果如下: 一種有效的SMT取指策略——IPCBFP:該策略分析了目前性能最好的ICOUNT策略的取指特點,發(fā)現(xiàn)其存在線程指令分配不適當?shù)膯栴},針對該問題提出一種新的取指策略IPCBFP,該策略通過很少的硬件支持即可使SMT的總體性能得到很大的提高,同時對系統(tǒng)中其他資源的利用也更加有效; 一種具有QoS特性的取指策略:目前對在SMT中支持線程的QoS需求的研究非常少,僅有的一個策略其實現(xiàn)復雜度很高,不利于物理上的實現(xiàn)。本研究只從取指的角度來實現(xiàn)線程QoS的需求,提出一種新的取指策略,該策略在一定精度的范圍內(nèi)可以同時滿足多個線程的QoS需求,與前人的研究成果相比,該策略的實現(xiàn)更加簡單,但精度稍差; 一種簡單的Cache壓縮存儲技術(shù)和一種覆蓋存儲結(jié)構(gòu):在SMT的研究中,因多個線程競爭Cache導致Cache失效率大幅度增加和單線程性能下降的問題一直沒有得到很好的解決,本研究從Cache壓縮存儲的角度來解決該問題,提出一種簡單的Cache壓縮存儲技術(shù)和一種覆蓋存儲方法,獲得了較好的研究結(jié)果,使Cache的潛在容量大大提高,有效地減少了Cache失效次數(shù),提高了SMT的總體性能;該研究同時給出了關(guān)于Cache壓縮技術(shù)在SMT下應(yīng)用的一些結(jié)論; 一種基于數(shù)據(jù)值的分支預測器VBBP:多線程共享分支預測器的空間導致分支預測命中率大幅度下降,極大地影響了單線程的性能,本研究從數(shù)據(jù)值的角度提出一種新的分支預測器,并作為一個輔助部件與傳統(tǒng)的分支預測器共同使用;初步研究表明,該預測器有效地提高了分支預測的命中率; 結(jié)合上述研究成果提出的一種新的SMT前端系統(tǒng)組成方式:新的前端系統(tǒng)有效地提高了SMT的總體性能。與傳統(tǒng)的基于ICOUNT取指策略和gshare分支預測器的前端結(jié)構(gòu)相比,其性能得到了大幅度的提高,加速比達到了55%。除此之外,本論文對目前最新的基于神經(jīng)元網(wǎng)絡(luò)的分支預測器在SMT下的性能也作
【學位授予單位】：中國科學院研究生院（計算技術(shù)研究所）
【學位級別】：博士
【學位授予年份】：2004
【分類號】：TP332
【圖文】：

控制部分,系統(tǒng)結(jié)構(gòu),緩沖區(qū),指令流

還有一類新的SMT取指控制部件組織方法，其基本思想是在每個時鐘周期根據(jù)一個取指目標緩沖區(qū)[GR01]或取指指令流緩沖區(qū)（Stream Buffer）[AR02]所提供的信息僅從一個線程取指令執(zhí)行，多個線程在不同的時鐘周期內(nèi)輪流進行取指。在此，取指目標緩沖區(qū)或流緩沖區(qū)的實質(zhì)是通過忽略若干個非跳轉(zhuǎn)的分支指令來增加有效的指令流長度，從而減少流水線的斷流并提高處理器的性能。研究結(jié)果表明，基于流緩沖區(qū)的取指控制機制目前可以獲得最優(yōu)的SMT處理器指令吞吐率性能�？傮w來看，對 SMT 前端系統(tǒng)的總體組織方式和性能進行研究和討論的較單獨的技術(shù)而言相對較少。7.2 一種有效的 SMT 前端結(jié)構(gòu)在本節(jié)中，我們將把前面各章的研究成果結(jié)合到一起，提出一種新的有效的 SM前端結(jié)構(gòu)。在新的前端結(jié)構(gòu)中，取指策略選擇第二章提出的 IPCBFP 策略，1 級數(shù)據(jù) Cach采用第四章提出的改進的 Cache 壓縮存儲結(jié)構(gòu)，分支預測器則采用第五章提出的基于數(shù)據(jù)值的分支預測器 VBBP；此外，為了進一步提高性能，將分支分類器應(yīng)用到新的 SM前端結(jié)構(gòu)中，從而形成本章提出的最終結(jié)構(gòu)，其系統(tǒng)結(jié)構(gòu)如圖 7.1 所示。

【共引文獻】

相關(guān)博士學位論文前1條

1 馬可;微處理器性能分析模型的建立和研究[D];中國科學技術(shù)大學;2007年

本文編號：2788092

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2788092.html

上一篇：基于嵌入式平臺的iSCSI網(wǎng)絡(luò)RAID的研究與實現(xiàn)
下一篇：基于芯片TMS320DM6467的視頻采集卡的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

同時多線程處理器前端系統(tǒng)的研究