天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

異構多核DSP數據流前瞻關鍵技術研究

發(fā)布時間:2020-10-27 23:25
   異構多核DSP通過在一塊芯片內集成多個DSP核和其他處理器核,可以將不同類型的計算任務分配到不同類型的處理器核上并行處理,是一種功能強大、靈活高效的嵌入式SoC處理器。異構多核DSP在處理數據流密集型應用時,相比單核DSP需要更大的存儲帶寬和更靈活的存儲結構,對片上存儲系統(tǒng)和數據通路具有更高的性能要求。如何有效減輕“存儲墻”問題對異構多核DSP性能和擴展性的限制,成為異構多核DSP體系結構研究中的重要課題之一。 數據前瞻技術是提高計算與存儲并行性,緩解多核處理器中“存儲墻”問題的有效手段。它通過前瞻地執(zhí)行遠程數據訪問,將計算所需的數據提前送入距離處理器較近的局部存儲器(例如數據Cache)內,能夠有效減少本地訪存失效,隱藏遠程訪問延遲。本文針對異構多核DSP應用中數據流密集的特點,從隱藏遠程訪問延遲、優(yōu)化片上存儲層次、改進數據管理效率和提高數據輸入/輸出帶寬四個方面,有針對性地研究了幾種數據流前瞻技術,并結合異構多核DSP實驗平臺SDSP和PolyDSP進行了性能分析與評測。本文的主要工作與創(chuàng)新點體現在以下幾個方面: 1)結合多核DSP課題組的工作,構建了共享存儲結構的異構多核DSP“SDSP”,并以SDSP為超節(jié)點擴展出了大規(guī)模多核DSP系統(tǒng)原型“PolyDSP”。本文完善了SDSP和PolyDSP在各個層次上的同步與通信機制,以及系統(tǒng)的并行編程框架和DSP應用程序的并行映射方法。 2)全面分析了典型DSP應用程序中的數據流分布特征。分析結果表明:單個DSP核運行所訪問的數據、多個DSP核之間共享的數據以及Cache一致性失效涉及的數據中都分布著大量數據流;同時,多DSP核共享的數據流之間具有相似的生產順序、消費順序和相似的訪問局部性。 3)為了減少Cache一致性失效,隱藏遠程訪問延遲,提出了一種面向共享存儲多核DSP結構的數據流分簇前向(forwarding)技術DSCF。DSCF技術采用專門的硬件模塊執(zhí)行軟件原語發(fā)出的核間前向傳輸請求,將“消費者”DSP核所需的數據塊提前分簇傳送到它的私有數據Cache中,傳輸速度與消費速度相匹配。實驗結果表明,DSCF技術有效降低了Cache一致性失效率,提高了共享存儲多核DSP的計算性能,總體性能優(yōu)于已有的Koufaty方法和Wenisch方法。 4)為了優(yōu)化異構多核DSP的片上存儲層次,提出了一種適用于小規(guī)模多核DSP的快速共享便箋存儲技術,并構建了其結構模型FCC-SDP。FCC-SDP以多體并行的小容量便箋存儲器為傳輸媒介,采用基于硬件信號燈的同步機制,支持多個DSP核的并行訪問和點對點事件同步,訪問速度與一級數據Cache相當,能夠快速實現DSP核間細粒度共享數據的傳輸。實驗結果表明,FCC-SDP相比已有的VS-SPM結構具有明顯的性能優(yōu)勢;采用FCC-SDP與共享Cache相結合的數據映射方式,將DSP核間的細粒度和不規(guī)則共享數據映射到FCC-SDP上,能夠進一步提高片內的數據重用性和系統(tǒng)的計算性能。 5)為了改進系統(tǒng)的數據流管理效率,設計了異構多核DSP的數據流傳輸控制引擎(DSTCE),并提出了一種利用DSTCE實現數據流前瞻傳輸的方法。DSTCE采用了可編程的后臺傳輸機制,針對異構處理器核之間的數據流傳輸、超節(jié)點之間的數據通信和系統(tǒng)的并行編程與映射都進行了專門的設計優(yōu)化。本文采用專用的前瞻操作原語,利用DSTCE實現了不同端口之間的數據流前瞻傳輸。DSTCE有效提高了異構多核DSP系統(tǒng)對數據流的管理效率,相比基于CC-NUMA結構的超節(jié)點擴展方案,基于DSTCE和片上網絡的擴展方案在計算性能和數據帶寬兩方面都具有更好的擴展性。 6)設計實現了異構多核DSP的外部存儲器控制接口(EMCI)并提出了一種基于鏈表式數據流預取技術的訪存帶寬優(yōu)化方法。EMCI的設計采用了多項關鍵技術,能夠同時支持高速的DDR2存儲器和多種異步存儲器。本文采用兩個基于鏈表結構的數據流預取緩沖器,識別并預取與二級Cache失效相關的數據流。實驗結果表明,相比已有的兩種預取方法,本文的方法以較低的硬件開銷實現了比較令人滿意的預取命中率、預取有效性和性能提升,具有更高的能效比。
【學位單位】:國防科學技術大學
【學位級別】:博士
【學位年份】:2007
【中圖分類】:TP368.1
【部分圖文】:

處理器


互連網絡圖1.1CC一NUMA多處理機結構導體集成工藝的發(fā)展和SoC設計水平的提高,人們成功實個處理器內核,構成CMP。已有的CMP體系結構在很大機系統(tǒng)的結構模型,并結合微處理器的工藝特點進行了改,采用多級Cache結構并用硬件維護多核的Cache一致性,術等。目前有代表性的CMP有幾下幾款。學于2002年推出多核處理器RAW,使用IBM的o.18um50oMHz[’4]。RAw處理器中集成了16個精簡的刃sC處理器都有單獨的微處理器、數據Cache以及存儲器。Tile之間通esh網絡互連,其結構如圖1.2所示。RAW處理器適合于線間并行執(zhí)行。RAW的互連結構為編譯器可見,編譯器可傳遞,這使得程序員面對通信延遲可以更好的安排程序執(zhí)行

處理器


圖1.3TRIPS處理器結構年底,STI聯盟(索尼、東芝和IBM公司聯盟的簡稱)推出了擁的eell處理器[’5],如圖1.4所示。eell集成了一個PowerPe主處理助處理單元(SPE),采用IBM的90納米銅互連501工藝,包,主頻可達4.6GHz,運算性能峰值為256GFLOPS。Cell結合了多標量、低功耗控制、高速存儲接口和1/0等所有處理器和體系結術,是當前多核處理器設計的一個巨大飛躍。}}}繃}}}}sXUUU建建建建建建建建建建建建建建建建建建建…鶴霆霆霆黝黝黝巨巨匯粼粼垂垂垂垂垂垂容:::::,_____年攀攀攀攀攀攀攀攀攀攀攀一一娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜日日日日日日日日日日日日鉚鉚窄)))))琳琳霸霸霸陳陳滋式式口口口口口口口口口日日日日日日日

處理器


每個處理核心具有16個同構的執(zhí)行節(jié)點和相應的覷覷瓣覷覷卜卜1.1;卜I、11竺衛(wèi)」弓l之」二」卜卜}孟巨卜卜口口仁!羞口1二11二下111二]司壓l司賈口司司園園司蘇應國壓回琢區(qū)衛(wèi)〕口刃;壓1刃刃陣陣】司老嚇下1廠杯1筆同司岡司竺壓下111覷覷瓣撇撇瓢瓢拼句句!娜‘階……匣匣三到~澎絮璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐‘‘‘講只晦晦擺料……………}}}!~竺竺日日,職只崢崢崢崢崢崢崢崢崢日日日日~,!二日日日」」」」」」」」」」」」」」」」」」~{城:}}}}}}}二~}}}傘傘中爭爭爭爭爭爭爭爭一一門吁公公乙乙長長搜拙七狄七七加加因巨吹吹圖1.3TRIPS處理器結構底,STI聯盟(索尼、東芝和IBM公司聯盟的簡稱)推出了eell處理器[’5],如圖1.4所示。eell集成了一個PowerPe主處理單元(SPE),采用IBM的90納米銅互連501工藝,主頻可達4.6GHz,運算性能峰值為256GFLOPS。Cell結合量、低功耗控制、高速存儲接口和1/0等所有處理器和體系,是當前多核處理器設計的一個巨大飛躍。
【引證文獻】

相關期刊論文 前1條

1 孫科林;周維超;吳欽章;彭真明;;光纖實時傳輸的多核DSP圖像處理系統(tǒng)(英文)[J];光電工程;2012年04期


相關博士學位論文 前4條

1 張波濤;片上高性能嵌入式計算—面向軟基帶的應用并行處理模型及體系結構[D];國防科學技術大學;2011年

2 劉彩霞;基三片上多核系統(tǒng)TriBA存儲體系關鍵技術研究[D];北京理工大學;2010年

3 孫科林;基于多核DSP的實時圖像處理平臺研究[D];電子科技大學;2012年

4 尹亞明;MPSoC片上互連網絡緩沖管理與高速互連技術研究[D];國防科學技術大學;2013年


相關碩士學位論文 前6條

1 靳強;“銀河飛騰-DX”DSP高效二級cache的設計與實現[D];國防科學技術大學;2011年

2 柴俊;多核流體系結構原型驗證平臺的研究與實現[D];國防科學技術大學;2009年

3 劉立哲;基于雙核處理器(OMAP3530)的嵌入式開發(fā)平臺研究與實現[D];北京工業(yè)大學;2012年

4 王新明;實時圖像融合的雙DSP并行系統(tǒng)研究[D];南京理工大學;2013年

5 張浩龍;基于多核DSP的電子穩(wěn)像系統(tǒng)關鍵技術研究[D];北京工業(yè)大學;2013年

6 周佩;基于多核DSP并行調度機制的實現[D];中國科學院研究生院(光電技術研究所);2014年



本文編號:2859227

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2859227.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b734d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com