異構(gòu)多核DSP通過(guò)在一塊芯片內(nèi)集成多個(gè)DSP核和其他處理器核,可以將不同類(lèi)型的計(jì)算任務(wù)分配到不同類(lèi)型的處理器核上并行處理,是一種功能強(qiáng)大、靈活高效的嵌入式SoC處理器。異構(gòu)多核DSP在處理數(shù)據(jù)流密集型應(yīng)用時(shí),相比單核DSP需要更大的存儲(chǔ)帶寬和更靈活的存儲(chǔ)結(jié)構(gòu),對(duì)片上存儲(chǔ)系統(tǒng)和數(shù)據(jù)通路具有更高的性能要求。如何有效減輕“存儲(chǔ)墻”問(wèn)題對(duì)異構(gòu)多核DSP性能和擴(kuò)展性的限制,成為異構(gòu)多核DSP體系結(jié)構(gòu)研究中的重要課題之一。 數(shù)據(jù)前瞻技術(shù)是提高計(jì)算與存儲(chǔ)并行性,緩解多核處理器中“存儲(chǔ)墻”問(wèn)題的有效手段。它通過(guò)前瞻地執(zhí)行遠(yuǎn)程數(shù)據(jù)訪問(wèn),將計(jì)算所需的數(shù)據(jù)提前送入距離處理器較近的局部存儲(chǔ)器(例如數(shù)據(jù)Cache)內(nèi),能夠有效減少本地訪存失效,隱藏遠(yuǎn)程訪問(wèn)延遲。本文針對(duì)異構(gòu)多核DSP應(yīng)用中數(shù)據(jù)流密集的特點(diǎn),從隱藏遠(yuǎn)程訪問(wèn)延遲、優(yōu)化片上存儲(chǔ)層次、改進(jìn)數(shù)據(jù)管理效率和提高數(shù)據(jù)輸入/輸出帶寬四個(gè)方面,有針對(duì)性地研究了幾種數(shù)據(jù)流前瞻技術(shù),并結(jié)合異構(gòu)多核DSP實(shí)驗(yàn)平臺(tái)SDSP和PolyDSP進(jìn)行了性能分析與評(píng)測(cè)。本文的主要工作與創(chuàng)新點(diǎn)體現(xiàn)在以下幾個(gè)方面: 1)結(jié)合多核DSP課題組的工作,構(gòu)建了共享存儲(chǔ)結(jié)構(gòu)的異構(gòu)多核DSP“SDSP”,并以SDSP為超節(jié)點(diǎn)擴(kuò)展出了大規(guī)模多核DSP系統(tǒng)原型“PolyDSP”。本文完善了SDSP和PolyDSP在各個(gè)層次上的同步與通信機(jī)制,以及系統(tǒng)的并行編程框架和DSP應(yīng)用程序的并行映射方法。 2)全面分析了典型DSP應(yīng)用程序中的數(shù)據(jù)流分布特征。分析結(jié)果表明:單個(gè)DSP核運(yùn)行所訪問(wèn)的數(shù)據(jù)、多個(gè)DSP核之間共享的數(shù)據(jù)以及Cache一致性失效涉及的數(shù)據(jù)中都分布著大量數(shù)據(jù)流;同時(shí),多DSP核共享的數(shù)據(jù)流之間具有相似的生產(chǎn)順序、消費(fèi)順序和相似的訪問(wèn)局部性。 3)為了減少Cache一致性失效,隱藏遠(yuǎn)程訪問(wèn)延遲,提出了一種面向共享存儲(chǔ)多核DSP結(jié)構(gòu)的數(shù)據(jù)流分簇前向(forwarding)技術(shù)DSCF。DSCF技術(shù)采用專(zhuān)門(mén)的硬件模塊執(zhí)行軟件原語(yǔ)發(fā)出的核間前向傳輸請(qǐng)求,將“消費(fèi)者”DSP核所需的數(shù)據(jù)塊提前分簇傳送到它的私有數(shù)據(jù)Cache中,傳輸速度與消費(fèi)速度相匹配。實(shí)驗(yàn)結(jié)果表明,DSCF技術(shù)有效降低了Cache一致性失效率,提高了共享存儲(chǔ)多核DSP的計(jì)算性能,總體性能優(yōu)于已有的Koufaty方法和Wenisch方法。 4)為了優(yōu)化異構(gòu)多核DSP的片上存儲(chǔ)層次,提出了一種適用于小規(guī)模多核DSP的快速共享便箋存儲(chǔ)技術(shù),并構(gòu)建了其結(jié)構(gòu)模型FCC-SDP。FCC-SDP以多體并行的小容量便箋存儲(chǔ)器為傳輸媒介,采用基于硬件信號(hào)燈的同步機(jī)制,支持多個(gè)DSP核的并行訪問(wèn)和點(diǎn)對(duì)點(diǎn)事件同步,訪問(wèn)速度與一級(jí)數(shù)據(jù)Cache相當(dāng),能夠快速實(shí)現(xiàn)DSP核間細(xì)粒度共享數(shù)據(jù)的傳輸。實(shí)驗(yàn)結(jié)果表明,FCC-SDP相比已有的VS-SPM結(jié)構(gòu)具有明顯的性能優(yōu)勢(shì);采用FCC-SDP與共享Cache相結(jié)合的數(shù)據(jù)映射方式,將DSP核間的細(xì)粒度和不規(guī)則共享數(shù)據(jù)映射到FCC-SDP上,能夠進(jìn)一步提高片內(nèi)的數(shù)據(jù)重用性和系統(tǒng)的計(jì)算性能。 5)為了改進(jìn)系統(tǒng)的數(shù)據(jù)流管理效率,設(shè)計(jì)了異構(gòu)多核DSP的數(shù)據(jù)流傳輸控制引擎(DSTCE),并提出了一種利用DSTCE實(shí)現(xiàn)數(shù)據(jù)流前瞻傳輸?shù)姆椒āSTCE采用了可編程的后臺(tái)傳輸機(jī)制,針對(duì)異構(gòu)處理器核之間的數(shù)據(jù)流傳輸、超節(jié)點(diǎn)之間的數(shù)據(jù)通信和系統(tǒng)的并行編程與映射都進(jìn)行了專(zhuān)門(mén)的設(shè)計(jì)優(yōu)化。本文采用專(zhuān)用的前瞻操作原語(yǔ),利用DSTCE實(shí)現(xiàn)了不同端口之間的數(shù)據(jù)流前瞻傳輸。DSTCE有效提高了異構(gòu)多核DSP系統(tǒng)對(duì)數(shù)據(jù)流的管理效率,相比基于CC-NUMA結(jié)構(gòu)的超節(jié)點(diǎn)擴(kuò)展方案,基于DSTCE和片上網(wǎng)絡(luò)的擴(kuò)展方案在計(jì)算性能和數(shù)據(jù)帶寬兩方面都具有更好的擴(kuò)展性。 6)設(shè)計(jì)實(shí)現(xiàn)了異構(gòu)多核DSP的外部存儲(chǔ)器控制接口(EMCI)并提出了一種基于鏈表式數(shù)據(jù)流預(yù)取技術(shù)的訪存帶寬優(yōu)化方法。EMCI的設(shè)計(jì)采用了多項(xiàng)關(guān)鍵技術(shù),能夠同時(shí)支持高速的DDR2存儲(chǔ)器和多種異步存儲(chǔ)器。本文采用兩個(gè)基于鏈表結(jié)構(gòu)的數(shù)據(jù)流預(yù)取緩沖器,識(shí)別并預(yù)取與二級(jí)Cache失效相關(guān)的數(shù)據(jù)流。實(shí)驗(yàn)結(jié)果表明,相比已有的兩種預(yù)取方法,本文的方法以較低的硬件開(kāi)銷(xiāo)實(shí)現(xiàn)了比較令人滿(mǎn)意的預(yù)取命中率、預(yù)取有效性和性能提升,具有更高的能效比。
【學(xué)位單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2007
【中圖分類(lèi)】:TP368.1
【部分圖文】:
互連網(wǎng)絡(luò)圖1.1CC一NUMA多處理機(jī)結(jié)構(gòu)導(dǎo)體集成工藝的發(fā)展和SoC設(shè)計(jì)水平的提高,人們成功實(shí)個(gè)處理器內(nèi)核,構(gòu)成CMP。已有的CMP體系結(jié)構(gòu)在很大機(jī)系統(tǒng)的結(jié)構(gòu)模型,并結(jié)合微處理器的工藝特點(diǎn)進(jìn)行了改,采用多級(jí)Cache結(jié)構(gòu)并用硬件維護(hù)多核的Cache一致性,術(shù)等。目前有代表性的CMP有幾下幾款。學(xué)于2002年推出多核處理器RAW,使用IBM的o.18um50oMHz[’4]。RAw處理器中集成了16個(gè)精簡(jiǎn)的刃sC處理器都有單獨(dú)的微處理器、數(shù)據(jù)Cache以及存儲(chǔ)器。Tile之間通esh網(wǎng)絡(luò)互連,其結(jié)構(gòu)如圖1.2所示。RAW處理器適合于線間并行執(zhí)行。RAW的互連結(jié)構(gòu)為編譯器可見(jiàn),編譯器可傳遞,這使得程序員面對(duì)通信延遲可以更好的安排程序執(zhí)行

圖1.3TRIPS處理器結(jié)構(gòu)年底,STI聯(lián)盟(索尼、東芝和IBM公司聯(lián)盟的簡(jiǎn)稱(chēng))推出了擁的eell處理器[’5],如圖1.4所示。eell集成了一個(gè)PowerPe主處理助處理單元(SPE),采用IBM的90納米銅互連501工藝,包,主頻可達(dá)4.6GHz,運(yùn)算性能峰值為256GFLOPS。Cell結(jié)合了多標(biāo)量、低功耗控制、高速存儲(chǔ)接口和1/0等所有處理器和體系結(jié)術(shù),是當(dāng)前多核處理器設(shè)計(jì)的一個(gè)巨大飛躍。}}}繃}}}}sXUUU建建建建建建建建建建建建建建建建建建建…鶴霆霆霆黝黝黝巨巨匯粼粼垂垂垂垂垂垂容:::::,_____年攀攀攀攀攀攀攀攀攀攀攀一一娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜日日日日日日日日日日日日鉚鉚窄)))))琳琳霸霸霸陳陳滋式式口口口口口口口口口日日日日日日日

每個(gè)處理核心具有16個(gè)同構(gòu)的執(zhí)行節(jié)點(diǎn)和相應(yīng)的覷覷瓣覷覷卜卜1.1;卜I、11竺衛(wèi)」弓l之」二」卜卜}孟巨卜卜口口仁!羞口1二11二下111二]司壓l司賈口司司園園司蘇應(yīng)國(guó)壓回琢區(qū)衛(wèi)〕口刃;壓1刃刃陣陣】司老嚇下1廠杯1筆同司岡司竺壓下111覷覷瓣撇撇瓢瓢拼句句!娜‘階……匣匣三到~澎絮璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐‘‘‘講只晦晦擺料……………}}}!~竺竺日日,職只崢崢崢崢崢崢崢崢崢日日日日~,!二日日日」」」」」」」」」」」」」」」」」」~{城:}}}}}}}二~}}}傘傘中爭(zhēng)爭(zhēng)爭(zhēng)爭(zhēng)爭(zhēng)爭(zhēng)爭(zhēng)爭(zhēng)一一門(mén)吁公公乙乙長(zhǎng)長(zhǎng)搜拙七狄七七加加因巨吹吹圖1.3TRIPS處理器結(jié)構(gòu)底,STI聯(lián)盟(索尼、東芝和IBM公司聯(lián)盟的簡(jiǎn)稱(chēng))推出了eell處理器[’5],如圖1.4所示。eell集成了一個(gè)PowerPe主處理單元(SPE),采用IBM的90納米銅互連501工藝,主頻可達(dá)4.6GHz,運(yùn)算性能峰值為256GFLOPS。Cell結(jié)合量、低功耗控制、高速存儲(chǔ)接口和1/0等所有處理器和體系,是當(dāng)前多核處理器設(shè)計(jì)的一個(gè)巨大飛躍。
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 孫科林;周維超;吳欽章;彭真明;;光纖實(shí)時(shí)傳輸?shù)亩嗪薉SP圖像處理系統(tǒng)(英文)[J];光電工程;2012年04期
相關(guān)博士學(xué)位論文 前4條
1 張波濤;片上高性能嵌入式計(jì)算—面向軟基帶的應(yīng)用并行處理模型及體系結(jié)構(gòu)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
2 劉彩霞;基三片上多核系統(tǒng)TriBA存儲(chǔ)體系關(guān)鍵技術(shù)研究[D];北京理工大學(xué);2010年
3 孫科林;基于多核DSP的實(shí)時(shí)圖像處理平臺(tái)研究[D];電子科技大學(xué);2012年
4 尹亞明;MPSoC片上互連網(wǎng)絡(luò)緩沖管理與高速互連技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前6條
1 靳強(qiáng);“銀河飛騰-DX”DSP高效二級(jí)cache的設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
2 柴俊;多核流體系結(jié)構(gòu)原型驗(yàn)證平臺(tái)的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
3 劉立哲;基于雙核處理器(OMAP3530)的嵌入式開(kāi)發(fā)平臺(tái)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2012年
4 王新明;實(shí)時(shí)圖像融合的雙DSP并行系統(tǒng)研究[D];南京理工大學(xué);2013年
5 張浩龍;基于多核DSP的電子穩(wěn)像系統(tǒng)關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2013年
6 周佩;基于多核DSP并行調(diào)度機(jī)制的實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(光電技術(shù)研究所);2014年
本文編號(hào):
2859227
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2859227.html