YHFT-DX片內二級Cache控制器的優(yōu)化設計

發(fā)布時間：2020-08-15 19:35

【摘要】： 數(shù)字信號處理器(DSP)在近年來得到了快速的發(fā)展和廣泛的應用。片內存儲系統(tǒng)的優(yōu)劣直接影響DSP的性能。存儲器層次結構有效的降低了CPU訪存開銷,“Cache+RAM”層次結構普遍應用在DSP處理器存儲系統(tǒng)中,片內二級存儲器(L2)是CPU和外設交換數(shù)據(jù)的中樞,存儲器訪存時間開銷中L2處理數(shù)據(jù)的時間開銷占有很大比例。L2是提高存儲系統(tǒng)性能的主要突破口,設計一個高性能的片內二級存儲器具有重要意義。 YHFT-DX是我們自主研發(fā)的一款高頻高性能DSP,采用0.13umCMOS工藝,設計主頻600MHz,片上存儲器(L2)容量高達1MB,采用“Cache+RAM”結構,可以靈活配置Cache容量大小,具有可擴展性好的特點。該芯片的技術路線是對已有同樣采用0.13umCMOS工藝、主頻為350MHz的芯片進行優(yōu)化設計。在深入分析原設計的基礎上,本文對二級Cache控制器進行了設計優(yōu)化,實現(xiàn)主頻600MHz,并提高處理缺失效率、降低功耗。主要工作和貢獻有: 一、針對二級Cache缺失流水線處理單個缺失請求的不足,設計實現(xiàn)了二級Cache預取結構——Stream Buffer,命中預取緩存的缺失請求可以提前2拍得到數(shù)據(jù),在YHFT-DX一級Cache中連續(xù)發(fā)送讀缺失的概率大約為0.14%,同時使得L2原本串行的兩條數(shù)據(jù)通路可以并行執(zhí)行,提高了總線資源的利用率,所以對Cache系統(tǒng)性能有極大的提升,這一改進使L2處理L1缺失的效率提高了6%以上。二、為了把實現(xiàn)高頻帶來的功耗增大的危害降到最低,在二級Cache控制器中設計Tag行預取結構——Filter,但是Filter緩存行數(shù)較少缺失率較高。為了彌補這一缺點采用了Tag路預測結構。在體系結構級單條路徑命中Filter或者Tag路預測準確時,L2的Tag體就處于休眠狀態(tài),所以L2的功耗要比同時讀取四路Tag降低5%。三、對原設計進行關鍵路徑分析,發(fā)現(xiàn)二級Cache是影響性能的最關鍵模塊,本文采用優(yōu)化接口協(xié)議、平衡流水棧之間邏輯、關鍵信號提前處理、合理層次化等方法優(yōu)化邏輯結構。對關鍵路徑中結構規(guī)整的但延時較大的邏輯采用定制設計,為9到512位譯碼器建立時序模型。片內二級Cache經(jīng)過時序優(yōu)化設計后,達到了600MHz的設計目標。四、為了充分的驗證二級Cache控制器的功能正確性,在全芯片級驗證中使用了大型的測試程序,使用CCS調試了針對于MP4視屏解碼程序——Xvid,生成激勵作為Benchmark。并且介紹了RTL級邏輯仿真的流程和準確定位設計缺陷的方法。五、提出了壓縮L2行大小增加相對存儲容量、數(shù)據(jù)體縱向劃分減小功耗優(yōu)化L2數(shù)據(jù)體的先進方法,并且評估了其設計實現(xiàn)的可行性。
【學位授予單位】：國防科學技術大學
【學位級別】：碩士
【學位授予年份】：2009
【分類號】：TP332
【圖文】：

原理圖,原理圖,主存,程序

構內只使用 RAM，沒有 Cache 配置，用于存放程序和/O 接口從片外加載，如 ADSP－21161N。的分層結構內使用一級 Cache/RAM 結構，Cache/RAM 的大小可編以存放所有程序或數(shù)據(jù)時，可以使用 Cache 方式與片外1[11]。結構內使用兩級 Cache 結構，其二級 Cache 是可部分或全部層次程序的需要，如 TI C6416[12]。內 Cache 技術的重要性和發(fā)展趨勢位于 CPU 和主存之間快速且小容量的存儲器，一般由的提高了 CPU 訪問主存的平均速度，縮小了 CPU 和主問局部性原理為 Cache 技術提供了理論基礎[13]，如圖

結構圖,結構圖

置搬移數(shù)據(jù)的負擔，而 Cache 有兩個明顯的缺點：一是容量小存放的數(shù)據(jù)是有的，如果 Cache 不命中 CPU 從外存中讀取數(shù)據(jù)帶來的延遲很大，而且 Cache 失的時間也是不確定的，所以 Cache 中的數(shù)據(jù)是一種靈活的數(shù)據(jù)形式。二是數(shù)據(jù)致性的維護，Cache 中的數(shù)據(jù)必須和主存的數(shù)據(jù)保持一致，硬件資源限制了 Cache寫的方式，這是一個相當復雜的過程，程序員對程序進行干預的情況會更加多且更加難以把握。顯然對早期的 DSP 芯片來說“CPU 核＋片內 RAM”的平板構更加適合，如上述的片內存儲器非分層結構，片內只使用 RAM，用于存放程和數(shù)據(jù)。RAM 中的數(shù)據(jù)通過 I/O 接口和 DMA 從片外加載，如圖 1-2 所示 ADSP21161N[14]。

二級存儲器

圖 1-3 TIC6416 的片內二級存儲器結構程序員可以將一些核心代碼和數(shù)據(jù)結構全部放入 RAM 中，需要處理的實時數(shù)通過 DMA 控制器進行搬移，以此來完成 DSP 的“確定性”要求。而對于那些核心的代碼和數(shù)據(jù)結構則放在片外，利用 Cache 而不是 DMA 來進行片內外數(shù)據(jù)交換，這樣既滿足了 DSP 的“實時性”要求[17]，也減少了程序員的手工干預。外，Cache 還可以很好地適用于那些“實時性”要求不太高的程序。可配置 Cache 容量大小的“Cache+RAM”存儲架構是目前高性能 DSP 片內存結構的一個發(fā)展方向[18]。DSP 性能越來越高，片內存儲器的容量越來越大，對che 性能也隨之增加，針對“減小 Cache 失效頻率”，“降低 Cache 失效的時間，“減小 Cache 命中時間”專家學者提出了很多的優(yōu)化措施[19]。其中包括增加che 容量，優(yōu)化關聯(lián)度算法，路預測和行預取，利用編譯器優(yōu)化代碼提高 Cache性能等等。而且現(xiàn)今 DSP 的片內存儲器有由 SRAM 向 DRAM 轉變的趨勢[20]。管是 MIMD 還是多 DSP 核，乃至 DSP-RAM，基本上都是基于“DRAM＋Cache”儲架構的。值得注意的是，AD 公司的 TigerSHARC 系列 DSP 采用了 IBM 公司[21]

【參考文獻】

相關期刊論文前1條

1 陳書明;李振濤;萬江華;胡定磊;郭陽;汪東;扈嘯;孫書為;;“銀河飛騰”高性能數(shù)字信號處理器研究進展[J];計算機研究與發(fā)展;2006年06期

本文編號：2794551

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2794551.html

上一篇：集群監(jiān)控中的數(shù)據(jù)采集技術研究
下一篇：云計算環(huán)境下高性能私有主機服務構建的研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

YHFT-DX片內二級Cache控制器的優(yōu)化設計