EDGE處理器中分布式存儲(chǔ)結(jié)構(gòu)研究
本文關(guān)鍵詞: EDGE處理器 分布式 存儲(chǔ)指令隊(duì)列 出處:《哈爾濱工業(yè)大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:廣泛存在的傳統(tǒng)集總式結(jié)構(gòu)已經(jīng)嚴(yán)重限制亂序超標(biāo)量處理器的性能提升。特別是針對(duì)EDGE(Explicit Data Graph Execution)體系結(jié)構(gòu)的微處理器,盡管取指單元、執(zhí)行單元、寄存器單元都采用了分布式結(jié)構(gòu),但是,存儲(chǔ)指令單元——Load-Store-Queue,仍然是一種集總式的設(shè)計(jì)結(jié)構(gòu)。這種集總式結(jié)構(gòu)擁有很差的可擴(kuò)展性特點(diǎn),限制了相關(guān)性檢查的處理效率,阻礙了處理器性能的提高。 本文主要通過運(yùn)用M5-EDGE模擬器,針對(duì)集總式Load-Store-Queue的特征進(jìn)行實(shí)現(xiàn)并加以研究分析,評(píng)估集總式Load-Store-Queue所面臨的諸多問題和缺陷。評(píng)估得出,集總式Load-Store-Queue處理效率很低,一次檢索項(xiàng)數(shù)較多,延時(shí)和功耗也相應(yīng)較高,,并且,可擴(kuò)展性差,不能一味地與指令窗口數(shù)保持對(duì)等的項(xiàng)數(shù)增加。同時(shí),研究現(xiàn)代應(yīng)用程序的存儲(chǔ)指令相關(guān)性特點(diǎn),發(fā)現(xiàn)加速相關(guān)指令的執(zhí)行效率將大大提高處理器性能。 在M5-EDGE模擬器上設(shè)計(jì)實(shí)現(xiàn)分布式Load-Store-Queue結(jié)構(gòu)。使得每個(gè)執(zhí)行單元都包含一個(gè)獨(dú)立的Load-Store-Queue單元。針對(duì)甚塊動(dòng)態(tài)Deep映射算法,每個(gè)甚塊獨(dú)立進(jìn)行甚塊內(nèi)相關(guān)性檢查操作,并在流水線遞交級(jí)進(jìn)行甚塊間的相關(guān)性檢查.將遞交延時(shí)和相關(guān)性檢查延時(shí)重疊以減少總延時(shí),并且設(shè)計(jì)重取指機(jī)制以處理甚塊間違例的恢復(fù)工作。 進(jìn)行分布式Load-Store-Queue性能評(píng)估。相對(duì)于集總式結(jié)構(gòu)設(shè)計(jì),分布式結(jié)構(gòu)面積并無明顯增加,同時(shí),增加相關(guān)性檢查帶寬和減少檢查延時(shí),平均效率提高64至256倍,而且也相應(yīng)的降低了相關(guān)性檢查的功耗。在綜合評(píng)估之后,分布式Load-Store-Queue的優(yōu)勢(shì)是顯而易見的,徹底摒棄了集總式Load-Store-Queue結(jié)構(gòu)的缺點(diǎn)。雖然運(yùn)行測(cè)試程序后發(fā)現(xiàn)性能有所降低,這主要是由于重取指的機(jī)制帶來的性能損害,可以通過其他機(jī)制進(jìn)行優(yōu)化,而且可優(yōu)化的策略很多,在充分選擇優(yōu)化策略之后,會(huì)對(duì)EDGE體系結(jié)構(gòu)微處理器性能產(chǎn)生很好的影響。
[Abstract]:The widespread traditional lumped architecture has severely limited the performance improvement of scrambled superscalar processors. The register unit is distributed, but the memory instruction unit, Load-Store-Queue, is still a lumped structure, which has poor extensibility and limits the processing efficiency of correlation checking. It hinders the improvement of processor performance. In this paper, we use M5-edge simulator to realize and analyze the characteristics of lumped Load-Store-Queue, and evaluate the problems and defects faced by lumped Load-Store-Queue. It is concluded that lumped Load-Store-Queue is very inefficient. The number of items in a single retrieval is more, the delay and power consumption are also higher, and the expansibility is poor, so the number of items can not be kept equal to the number of instruction windows blindly. At the same time, the characteristics of memory instruction correlation of modern application programs are studied. It is found that accelerating the execution efficiency of related instructions will greatly improve processor performance. The distributed Load-Store-Queue structure is designed and implemented on the M5-edge simulator, which makes each execution unit contain an independent Load-Store-Queue unit. For the very block dynamic Deep mapping algorithm, each very block independently performs the very block correlation checking operation. In order to reduce the total delay, we also design a refetch mechanism to deal with the recovery work between the very block violations. To evaluate the performance of distributed Load-Store-Queue. Compared with lumped structure design, the area of distributed structure does not increase significantly. At the same time, it increases the bandwidth of correlation check and reduces the check delay, and the average efficiency is increased 64 to 256 times. After comprehensive evaluation, the advantages of distributed Load-Store-Queue are obvious, and the shortcomings of lumped Load-Store-Queue structure are completely abandoned. This is mainly due to the performance damage caused by the mechanism of reindication, which can be optimized by other mechanisms, and there are many strategies that can be optimized. After the optimization strategy is fully selected, it will have a good impact on the performance of the EDGE architecture microprocessor.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP333
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王;PowerEdge2300配置靈活,功能強(qiáng)大[J];中國(guó)計(jì)算機(jī)用戶;1998年19期
2 Jose Fridman,Zoran Zvonar;Blackfin處理器使EDGE設(shè)計(jì)更具彈性[J];世界電子元器件;2004年11期
3 ;戴爾推出全新四路PowerEdge服務(wù)器及管理軟件[J];CAD/CAM與制造業(yè)信息化;2005年05期
4 ;新聞[J];電子設(shè)計(jì)應(yīng)用;2005年05期
5 ;TTPCom與英特爾的合作關(guān)系進(jìn)一步擴(kuò)展至EDGE和3G[J];電子技術(shù)應(yīng)用;2004年04期
6 ;西門子選擇ADI和TTPCom開發(fā)新一代EDGE[J];通信世界;2004年23期
7 付琦;泰克為EDGE提供基站測(cè)試功能[J];郵電設(shè)計(jì)技術(shù);2004年08期
8 葉菊青;上海貝爾阿爾卡特助您輕松晉級(jí)EDGE[J];移動(dòng)通信;2004年09期
9 李志剛;Solid Edge軟件學(xué)習(xí)之我見[J];CAD/CAM與制造業(yè)信息化;2005年04期
10 ;Dell新服務(wù)器PowerEdge 4200[J];中國(guó)青年科技;1997年07期
相關(guān)會(huì)議論文 前10條
1 Michael A.Foley;;Creating Powerful Systematic Methods,Tools and Datasets for Understanding Human Biology and Disease and Applying Them to Leading-Edge Medical Challenges[A];2011年全國(guó)藥物化學(xué)學(xué)術(shù)會(huì)議——藥物的源頭創(chuàng)新論文摘要集[C];2011年
2 范靈俊;安述倩;李楊;張浩;王達(dá);范東睿;;眾核處理器高效片上訪存機(jī)制研究[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
3 遲瑛;;基于GSM的第三代移動(dòng)通信過渡技術(shù)——EDGE[A];第十八屆中國(guó)(天津)’2004IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2004年
4 萬志濤;;基于多核處理器的面向時(shí)延敏感服務(wù)的云基礎(chǔ)架構(gòu)[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年
5 ;Edge Preserving Smoothing for Oblique Images[A];中國(guó)科學(xué)院地質(zhì)與地球物理研究所二○○三學(xué)術(shù)論文匯編·第三卷(地球環(huán)境·工程地質(zhì)與災(zāi)害)[C];2003年
6 萬志濤;;MIPS指令集多核處理器信令處理能力評(píng)估[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年
7 扈小燕;劉培洵;陳順云;劉力強(qiáng);馬瑾;馬勝利;;多核處理器環(huán)境下遙感數(shù)據(jù)處理的并行與串行算法的性能比較[A];中國(guó)地震學(xué)會(huì)第14次學(xué)術(shù)大會(huì)專題[C];2012年
8 劉杰;馬彥;葉維;高劍剛;;多核處理器存儲(chǔ)體系分析[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
9 陳遠(yuǎn)知;楊帆;;Tilera多核處理器網(wǎng)絡(luò)應(yīng)用研究[A];全國(guó)第五屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議專刊(第一冊(cè))[C];2011年
10 季q
本文編號(hào):1546912
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1546912.html