當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)論文 >

針對(duì)CPU-FPGA異構(gòu)多核片上系統(tǒng)的自動(dòng)化數(shù)據(jù)布局研究

發(fā)布時(shí)間：2020-07-19 10:04

【摘要】：隨著深度學(xué)習(xí)與大數(shù)據(jù)應(yīng)用的興起,傳統(tǒng)的基于CPU的架構(gòu)已經(jīng)難以滿足這些新型應(yīng)用的計(jì)算要求。對(duì)此,工業(yè)界與學(xué)術(shù)界開(kāi)始使用硬件加速器來(lái)彌補(bǔ)傳統(tǒng)CPU架構(gòu)的弊端。FPGA憑借其高能效比以及靈活的動(dòng)態(tài)可重構(gòu)功能(dynamic reconfiguration)得到了越來(lái)越多的關(guān)注。然而,傳統(tǒng)的基于FPGA的設(shè)計(jì)往往需要花費(fèi)大量的時(shí)間并且調(diào)試難度很大。隨著FPGA的不斷發(fā)展,高級(jí)綜合(High Level Synthesis,HLS)工具得到了極其廣泛的應(yīng)用,其有效地解決了FPGA設(shè)計(jì)難于實(shí)現(xiàn)的問(wèn)題。高級(jí)綜合工具將C\C++等高級(jí)語(yǔ)言自動(dòng)轉(zhuǎn)換為相對(duì)應(yīng)的硬件描述語(yǔ)言模塊,大大減少了設(shè)計(jì)實(shí)現(xiàn)基于FPGA的系統(tǒng)應(yīng)用的難度,特別是針對(duì)大量的軟件工程師而言。同時(shí),高級(jí)綜合工具提供了許多優(yōu)化技術(shù)以便于系統(tǒng)設(shè)計(jì)者針對(duì)包括硬件資源消耗,性能,功耗等在內(nèi)的不同優(yōu)化目標(biāo)進(jìn)行系統(tǒng)優(yōu)化。此外,不同于以往基于CPU的系統(tǒng)架構(gòu),異構(gòu)系統(tǒng)中的存儲(chǔ)子系統(tǒng)通常要復(fù)雜的多。具體而言,純CPU系統(tǒng)架構(gòu)下的存儲(chǔ)體系一般由多級(jí)Cache與主存構(gòu)成。而針對(duì)異構(gòu)系統(tǒng)來(lái)說(shuō),有著軟件可控的便箋式存儲(chǔ)器(Scratchpad Memory,SPM)以及CPU端與加速器端均可訪問(wèn)的共享Cache。這些存儲(chǔ)體系各具特點(diǎn),對(duì)其進(jìn)行合理地利用對(duì)提高整個(gè)系統(tǒng)性能有著重要的作用。針對(duì)CPU-FPGA異構(gòu)多核片上系統(tǒng).(Heterogeneous Multiprocessor system-on-chip,HMPSoC)而言,片上存儲(chǔ)資源極其有限。因此,對(duì)其進(jìn)行合理地利用尤為重要。然而當(dāng)今最先進(jìn)的高級(jí)綜合工具都依賴于系統(tǒng)設(shè)計(jì)者人工決定復(fù)雜存儲(chǔ)體系下的數(shù)據(jù)布局。在這篇論文中,我們提出了一個(gè)可以與商業(yè)化工具Vivado HLS無(wú)縫結(jié)合的自動(dòng)化的數(shù)據(jù)布局框架。首先,我們基于Zedboard異構(gòu)多核片上系統(tǒng)設(shè)計(jì)了一系列微測(cè)試程序來(lái)測(cè)量各種類(lèi)型的訪存延遲,如Cache命中,Cache miss,或者直接訪問(wèn)主存等。基于對(duì)上述存儲(chǔ)子系統(tǒng)模型中數(shù)據(jù)的分析,我們得出了一些不同于傳統(tǒng)CPU架構(gòu)環(huán)境的結(jié)論:如Cache所發(fā)揮的作用沒(méi)有傳統(tǒng)環(huán)境下的那么大;針對(duì)突發(fā)模式訪存來(lái)說(shuō),其訪存延遲與存儲(chǔ)資源的選擇基本沒(méi)有關(guān)系。因此基于這些結(jié)論,我們發(fā)現(xiàn)基于頻率與局部性的,針對(duì)傳統(tǒng)的CPU架構(gòu)的數(shù)據(jù)布局策略直接應(yīng)用于CPU-FPGA異構(gòu)多核片上系統(tǒng)上所取得的性能并不理想。依賴于我們的存儲(chǔ)延遲分析模型并結(jié)合LLVM編譯框架,我們提出了一個(gè)基于整數(shù)線性規(guī)劃(Integer linear programming,ILP)的自動(dòng)化數(shù)據(jù)布局框架來(lái)決定了每一個(gè)數(shù)組對(duì)象應(yīng)該經(jīng)由以下哪種存儲(chǔ)被訪問(wèn):片上塊存儲(chǔ)(Block RAM,BRAM),CPU-FPGA共享的第二級(jí)存儲(chǔ)(Level 2 Cache,L2 Cache)或者直接訪問(wèn)雙倍速率(Double Date Rate,DDR)存儲(chǔ)器。此外,我們?cè)O(shè)計(jì)了一個(gè)基于貪心策略的基準(zhǔn)算法來(lái)進(jìn)行比較,在Zedboard平臺(tái)上得到的實(shí)驗(yàn)結(jié)果表明相較于基準(zhǔn)算法,我們所提出的策略有1.39X的性能加速比。
【學(xué)位授予單位】：山東大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類(lèi)號(hào)】：TP332;TN791
【圖文】：

內(nèi)核程序,工具,基本工作,調(diào)度方案

Ｖ邐＾逡逑圖２－１高級(jí)綜合工具基本工作機(jī)制逡逑如圖２－１所示，高級(jí)綜合工具對(duì)該內(nèi)核程序做出的調(diào)度方案為：第一個(gè)時(shí)鐘逡逑周期執(zhí)行＊和＋，第二個(gè)時(shí)鐘周期執(zhí)行＋以及結(jié)果輸出。在最終的硬件實(shí)現(xiàn)逡逑中，高級(jí)綜合將形參實(shí)現(xiàn)為對(duì)應(yīng)的輸入輸出端口，在圖２－１中，ｘ、ａ、ｂ、ｃ最終逡逑被實(shí)現(xiàn)為８位的輸入端口，而ｙ則實(shí)現(xiàn)為３２位的輸出端口。在剛開(kāi)始的綁定階逡逑段，高級(jí)綜合使用組合乘法器（Ｍｕｌｔｉｐｌｉｅｒ，邋Ｍｕｌ）來(lái)做乘法，使用組合加法器／減逡逑法器（Ａｄｄｅｒ／Ｓｕｂｔｒａｃｔｏｒ，邋ＡｄｄＳｕｂ）來(lái)實(shí)現(xiàn)加法。然而在最終的綁定階段，高級(jí)綜逡逑１１逡逑

優(yōu)化技術(shù),執(zhí)行模式,語(yǔ)言程序,操作結(jié)束

在串行執(zhí)行模式下，如傳統(tǒng)的Ｃ／Ｃ＋＋語(yǔ)言程序，下一次的循環(huán)迭代必須等到逡逑當(dāng)前迭代的最后一個(gè)操作結(jié)束之后才能開(kāi)始。當(dāng)用優(yōu)化之后，循逡逑環(huán)體中的操作可以如圖２－２所示的方式并行執(zhí)行。逡逑Ｗｉｔｈｏｕｔ邋Ｐｉｐｅｌｉｎｉｎｇ邐Ｗｉｔｈ邋Ｐｉｐｅｌｉｎｉｎｇ逡逑Ｌｏｏｐ＇ｆｏｒ（ｉ＝１；ｉ＜３；ｉ－＊－＊－）邋｛邐邐逡逑ｏｐ＿Ｒｅａｄ：邐—逡逑邐邋ｏｐ＿Ｃｏｍｐｕ�。澹哼姡茫停绣义希铮穑撸郑颍椋簦�；逡逑ｆ邐ｆ逡逑Ｉｎｉｔｉａｔｉｏｎ邋Ｉｎｔｅｒｖａｌ邋＝邋３邋ｃｙｃｌｅｓ邐Ｉｎｉｔｉａｔｉｏｎ邋Ｉｎｔｅｒｖａｌ邋＝邋１邋ｃｙｃｌｅ逡逑ＲＤ邋ＣＭＰ邋｜邋ＷＲ邋｜邋Ｒ0邋ＣＭＰ邋ｆ邋ＷＲ邐ＲＤ邋ＣＭＰ邋［＂ｗｒ＂＊逡逑ＲＤ邋ＣＭＰ邋ＷＲ逡逑？邐？邋？邐？逡逑Ｌａｔｅｎｃｙ邋＝邋３邋ｃｙｃｌｅｓ邐Ｌａｔｅｎｃｙ邋＝邋３邋ｃｙｃｌｅｓ逡逑ｍ邐？邐？邐邐邐？逡逑Ｌｏｏｐ邋Ｌａｔｅｎｃｙ邋＝邋６邋ｃｙｃｌｅｓ邐Ｌｏｏｐ邋Ｌａｔｅｎｃｙ邋＝邋４邋ｃｙｃｌｅｓ逡逑圖２－２邐優(yōu)化技術(shù)不例逡逑如圖２－２所示，在沒(méi)有用／ｏ％；７扣／／／７／／７ｇ優(yōu)化時(shí)，兩個(gè)ＲＤ操作之間需要經(jīng)過(guò)逡逑１２逡逑

架構(gòu)圖,架構(gòu),機(jī)器碼,中間代碼

邐Ｏｊ＾ｉｍｉｚｅｒ邐Ｂａｃｋｅｎｄ邋？逡逑圖２－５傳統(tǒng)編譯器架構(gòu)逡逑其中前端（Ｆｒｏｎｔｅｎｄ）主要包括詞法分析、語(yǔ)法分析、語(yǔ)義分析以及生成中間逡逑代碼。優(yōu)化器（Ｏｐｔｍｉｉｚｅｒ）主要是指中間代碼優(yōu)化。后端（Ｂａｃｋｅｎｄ）主要指生逡逑成機(jī)器碼。逡逑而ＬＬＶＭ邋（Ｌｏｗ邋Ｌｅｖｅｌ邋Ｖｉｒｔｕａｌ邋Ｍａｃｈｉｎｅ）的主要架構(gòu)如下所示：逡逑ｒ邐Ｃｌａｎｇ邋０／０？？／０句Ｃ邐ＵＶＭ邐ｙ邋Ａ逡逑＾ｒｏｎｆｔｎｄ邐＾＼ｓ邐ｆ邐ＫＳ６邋Ｂａｅｋ＿ｄ逡逑Ｆｏｒｔｒａｎ－＊．邋Ｈｖｍ＾ｃｃＦｒｏｎｓｅｎａ邋—｜邐＾邋ＰｏｗｅｒＰＣ＾Ｂａｃｋ＊＾邋ＰｏｗｅｔＰＣ逡逑ＨａｓＫｅｆｉ邋＾邐ＯＨＣ邋ｆｒ0ｒ＼ｍｍ邐＇邐、邐＾邐ＡＨＭ逡逑ａｖＭ邋ｍ邐Ｕ．ＶＭＩＲ逡逑圖２－６邋ＬＬＶＭ架構(gòu)逡逑１４逡逑

【相似文獻(xiàn)】

相關(guān)碩士學(xué)位論文前3條

1 李世清;針對(duì)CPU-FPGA異構(gòu)多核片上系統(tǒng)的自動(dòng)化數(shù)據(jù)布局研究[D];山東大學(xué);2019年

2 鄭凌;基于CPU-FPGA的異構(gòu)多核系統(tǒng)設(shè)計(jì)及并行編程模型研究[D];西安電子科技大學(xué);2014年

3 楊慧德;層疊式多CPU-FPGA微服務(wù)器體系架構(gòu)的研究與實(shí)現(xiàn)[D];東南大學(xué);2017年

本文編號(hào)：2762269

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2762269.html

上一篇：NAS資源管理系統(tǒng)研究
下一篇：一種快速浮點(diǎn)加法器的優(yōu)化設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對(duì)CPU-FPGA異構(gòu)多核片上系統(tǒng)的自動(dòng)化數(shù)據(jù)布局研究