天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

YHFT-DX片內(nèi)二級Cache控制器的優(yōu)化設計

發(fā)布時間:2020-08-15 19:35
【摘要】: 數(shù)字信號處理器(DSP)在近年來得到了快速的發(fā)展和廣泛的應用。片內(nèi)存儲系統(tǒng)的優(yōu)劣直接影響DSP的性能。存儲器層次結構有效的降低了CPU訪存開銷,“Cache+RAM”層次結構普遍應用在DSP處理器存儲系統(tǒng)中,片內(nèi)二級存儲器(L2)是CPU和外設交換數(shù)據(jù)的中樞,存儲器訪存時間開銷中L2處理數(shù)據(jù)的時間開銷占有很大比例。L2是提高存儲系統(tǒng)性能的主要突破口,設計一個高性能的片內(nèi)二級存儲器具有重要意義。 YHFT-DX是我們自主研發(fā)的一款高頻高性能DSP,采用0.13umCMOS工藝,設計主頻600MHz,片上存儲器(L2)容量高達1MB,采用“Cache+RAM”結構,可以靈活配置Cache容量大小,具有可擴展性好的特點。該芯片的技術路線是對已有同樣采用0.13umCMOS工藝、主頻為350MHz的芯片進行優(yōu)化設計。在深入分析原設計的基礎上,本文對二級Cache控制器進行了設計優(yōu)化,實現(xiàn)主頻600MHz,并提高處理缺失效率、降低功耗。主要工作和貢獻有: 一、針對二級Cache缺失流水線處理單個缺失請求的不足,設計實現(xiàn)了二級Cache預取結構——Stream Buffer,命中預取緩存的缺失請求可以提前2拍得到數(shù)據(jù),在YHFT-DX一級Cache中連續(xù)發(fā)送讀缺失的概率大約為0.14%,同時使得L2原本串行的兩條數(shù)據(jù)通路可以并行執(zhí)行,提高了總線資源的利用率,所以對Cache系統(tǒng)性能有極大的提升,這一改進使L2處理L1缺失的效率提高了6%以上。 二、為了把實現(xiàn)高頻帶來的功耗增大的危害降到最低,在二級Cache控制器中設計Tag行預取結構——Filter,但是Filter緩存行數(shù)較少缺失率較高。為了彌補這一缺點采用了Tag路預測結構。在體系結構級單條路徑命中Filter或者Tag路預測準確時,L2的Tag體就處于休眠狀態(tài),所以L2的功耗要比同時讀取四路Tag降低5%。 三、對原設計進行關鍵路徑分析,發(fā)現(xiàn)二級Cache是影響性能的最關鍵模塊,本文采用優(yōu)化接口協(xié)議、平衡流水棧之間邏輯、關鍵信號提前處理、合理層次化等方法優(yōu)化邏輯結構。對關鍵路徑中結構規(guī)整的但延時較大的邏輯采用定制設計,為9到512位譯碼器建立時序模型。片內(nèi)二級Cache經(jīng)過時序優(yōu)化設計后,達到了600MHz的設計目標。 四、為了充分的驗證二級Cache控制器的功能正確性,在全芯片級驗證中使用了大型的測試程序,使用CCS調(diào)試了針對于MP4視屏解碼程序——Xvid,生成激勵作為Benchmark。并且介紹了RTL級邏輯仿真的流程和準確定位設計缺陷的方法。 五、提出了壓縮L2行大小增加相對存儲容量、數(shù)據(jù)體縱向劃分減小功耗優(yōu)化L2數(shù)據(jù)體的先進方法,并且評估了其設計實現(xiàn)的可行性。
【學位授予單位】:國防科學技術大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:TP332
【圖文】:

原理圖,原理圖,主存,程序


構內(nèi)只使用 RAM,沒有 Cache 配置,用于存放程序和/O 接口從片外加載,如 ADSP-21161N。的分層結構內(nèi)使用一級 Cache/RAM 結構,Cache/RAM 的大小可編以存放所有程序或數(shù)據(jù)時,可以使用 Cache 方式與片外1[11]。結構內(nèi)使用兩級 Cache 結構,其二級 Cache 是可部分或全部層次程序的需要,如 TI C6416[12]。內(nèi) Cache 技術的重要性和發(fā)展趨勢位于 CPU 和主存之間快速且小容量的存儲器,一般由 的提高了 CPU 訪問主存的平均速度,縮小了 CPU 和主問局部性原理為 Cache 技術提供了理論基礎[13],如圖

結構圖,結構圖


置搬移數(shù)據(jù)的負擔,而 Cache 有兩個明顯的缺點:一是容量小存放的數(shù)據(jù)是有的,如果 Cache 不命中 CPU 從外存中讀取數(shù)據(jù)帶來的延遲很大,而且 Cache 失的時間也是不確定的,所以 Cache 中的數(shù)據(jù)是一種靈活的數(shù)據(jù)形式。二是數(shù)據(jù)致性的維護,Cache 中的數(shù)據(jù)必須和主存的數(shù)據(jù)保持一致,硬件資源限制了 Cache寫的方式,這是一個相當復雜的過程,程序員對程序進行干預的情況會更加多且更加難以把握。顯然對早期的 DSP 芯片來說“CPU 核+片內(nèi) RAM”的平板構更加適合,如上述的片內(nèi)存儲器非分層結構,片內(nèi)只使用 RAM,用于存放程和數(shù)據(jù)。RAM 中的數(shù)據(jù)通過 I/O 接口和 DMA 從片外加載,如圖 1-2 所示 ADSP21161N[14]。

二級存儲器


圖 1-3 TIC6416 的片內(nèi)二級存儲器結構程序員可以將一些核心代碼和數(shù)據(jù)結構全部放入 RAM 中,需要處理的實時數(shù)通過 DMA 控制器進行搬移,以此來完成 DSP 的“確定性”要求。而對于那些核心的代碼和數(shù)據(jù)結構則放在片外,利用 Cache 而不是 DMA 來進行片內(nèi)外數(shù)據(jù)交換,這樣既滿足了 DSP 的“實時性”要求[17],也減少了程序員的手工干預。外,Cache 還可以很好地適用于那些“實時性”要求不太高的程序?膳渲 Cache 容量大小的“Cache+RAM”存儲架構是目前高性能 DSP 片內(nèi)存結構的一個發(fā)展方向[18]。DSP 性能越來越高,片內(nèi)存儲器的容量越來越大,對che 性能也隨之增加,針對“減小 Cache 失效頻率”,“降低 Cache 失效的時間,“減小 Cache 命中時間”專家學者提出了很多的優(yōu)化措施[19]。其中包括增加che 容量,優(yōu)化關聯(lián)度算法,路預測和行預取,利用編譯器優(yōu)化代碼提高 Cache性能等等。而且現(xiàn)今 DSP 的片內(nèi)存儲器有由 SRAM 向 DRAM 轉變的趨勢[20]。管是 MIMD 還是多 DSP 核,乃至 DSP-RAM,基本上都是基于“DRAM+Cache”儲架構的。值得注意的是,AD 公司的 TigerSHARC 系列 DSP 采用了 IBM 公司[21]

【參考文獻】

相關期刊論文 前1條

1 陳書明;李振濤;萬江華;胡定磊;郭陽;汪東;扈嘯;孫書為;;“銀河飛騰”高性能數(shù)字信號處理器研究進展[J];計算機研究與發(fā)展;2006年06期



本文編號:2794551

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2794551.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶75b32***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com