天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CAPI的通用數(shù)據(jù)處理技術(shù)研究

發(fā)布時(shí)間:2020-03-29 00:02
【摘要】:當(dāng)前摩爾定律遇到瓶頸,通用處理器的計(jì)算能力受到制約,而大數(shù)據(jù)搜索與分析、深度學(xué)習(xí)等新型企業(yè)計(jì)算對(duì)數(shù)據(jù)中心服務(wù)器的計(jì)算能力和功耗提出了新的挑戰(zhàn)。為了提高數(shù)據(jù)中心底層基礎(chǔ)平臺(tái)的能耗比P/W(Performance/Watt),一種解決方法是通過(guò)硬件加速,采用專用協(xié)處理器的異構(gòu)計(jì)算方式來(lái)提升計(jì)算性能。FPGA(Field Programming Gate Array,FPGA)相比于GPU(Graphics Processing Unit,GPU)具有更高的計(jì)算效率、更高的能耗比,逐漸成為異構(gòu)計(jì)算中主流的協(xié)處理器。然而,受限于傳統(tǒng)I/O技術(shù)PCIe數(shù)據(jù)傳輸帶寬的局限性,基于FPGA的異構(gòu)架構(gòu)無(wú)法充分發(fā)揮FPGA的性能潛力。鑒于此,IBM Open POWER組織針對(duì)異構(gòu)架構(gòu)通信接口研發(fā)了CAPI(Coherent Accelerator Processor Interface,CAPI)技術(shù)。正是由于CAPI技術(shù)的優(yōu)勢(shì),有效降低了異構(gòu)架構(gòu)通信過(guò)程中數(shù)據(jù)傳輸時(shí)延(總延遲大約是PCIe I/O模式的1/36),使基于FPGA的異構(gòu)架構(gòu)迅速成為新一代異構(gòu)計(jì)算的亮點(diǎn)。本文針對(duì)新一代I/O技術(shù)CAPI展開研究,與前人只是采用基于CAPI的FPGA異構(gòu)架構(gòu)加速某一具體算法不同,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了一個(gè)通用的基于CAPI技術(shù)下的FPGA/CPU異構(gòu)算法加速框架,簡(jiǎn)化開發(fā)人員基于CAPI技術(shù)進(jìn)行算法加速時(shí)的設(shè)計(jì)復(fù)雜度,使不同的算法可以快速移植到此框架下進(jìn)行加速并獲得良好的性能提升。本文主要工作包括:(1)深入研究基于CAPI技術(shù)下的FPGA/CPU異構(gòu)架構(gòu),重點(diǎn)分析算法加速功能單元如何根據(jù)PSL(Power Service Layer,PSL)硬核提供的接口來(lái)讀寫訪問CPU端的主存。(2)在(1)的工作基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了基于CAPI的通用數(shù)據(jù)處理和算法加速框架,重點(diǎn)闡述了框架的可擴(kuò)展性特點(diǎn)。(3)選擇兩種不同特點(diǎn)的算法:AES(Advanced Encryption Standard)算法(算法執(zhí)行時(shí),數(shù)據(jù)之間相互無(wú)依賴,適合于并行加速)和SHA(Secure Hash Algorithm)算法(算法執(zhí)行時(shí),數(shù)據(jù)之間相互依賴,不適合于并行加速),分別測(cè)試框架對(duì)其加速的性能并與CPU軟件實(shí)現(xiàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明:相比于局限的CPU單線程環(huán)境中軟件執(zhí)行的AES算法,框架對(duì)AES算法的加速能達(dá)到大約2447倍的加速比;相比于實(shí)際的生產(chǎn)應(yīng)用環(huán)境——假設(shè)AES算法經(jīng)過(guò)軟件優(yōu)化并以多線程方式運(yùn)行在10核心的CPU上,框架對(duì)AES算法的加速能達(dá)到大約49倍的加速比;相比于CPU單線程環(huán)境中軟件執(zhí)行的SHA算法,框架對(duì)SHA算法的加速不夠明顯,但依然獲得大約3.3倍加速比。(4)針對(duì)(3)中AES算法加速時(shí)發(fā)現(xiàn)的問題——AES算法的吞吐率性能沒有隨AES算法核的數(shù)量增加而線性提高,我們進(jìn)一步以基本內(nèi)存拷貝為例,測(cè)試了框架的吞吐率性能。實(shí)驗(yàn)結(jié)果分析表明:算法加速框架處理數(shù)據(jù)輸入輸出時(shí)的吞吐率存在性能瓶頸是導(dǎo)致上述問題產(chǎn)生的主要原因。(5)最后,為了進(jìn)一步探究算法加速框架的性能瓶頸根源,我們?cè)诨緝?nèi)存拷貝實(shí)驗(yàn)基礎(chǔ)上設(shè)計(jì)了一組對(duì)比實(shí)驗(yàn),并對(duì)框架執(zhí)行時(shí)的波形圖進(jìn)行分析,最終得出算法加速框架的性能瓶頸在于框架中I/O功能模塊讀寫訪存延遲過(guò)高,導(dǎo)致框架在處理數(shù)據(jù)輸入輸出時(shí)的吞吐率受限,從而影響框架對(duì)算法加速性能的進(jìn)一步提升。
【圖文】:

架構(gòu)圖,異構(gòu),架構(gòu)


基于 CAPI 的通用數(shù)據(jù)處理技術(shù)研究2.1.1 基于 GPU 的異構(gòu)架構(gòu)相比于 CPU 架構(gòu)而言,GPU 架構(gòu)提供眾多的計(jì)算單元和大量的高速緩存,,同時(shí)采用 SIMT(Single Instruction Multiple Thread)向量化技術(shù)使各計(jì)算單元并行執(zhí)行,以此提供強(qiáng)大的運(yùn)算性能,特別是浮點(diǎn)運(yùn)算性能。典型的基于 GPU 的異構(gòu)架構(gòu)如圖 2.1 所示,其中 CPU 端負(fù)責(zé)邏輯密集型任務(wù)的執(zhí)行并將計(jì)算密集型任務(wù)分配給 GPU 端并行處理。

架構(gòu)圖,異構(gòu),架構(gòu)


圖 2.2 基于 FPGA 的異構(gòu)架構(gòu)與基于 GPU 的異構(gòu)架構(gòu)類似,CPU 端與 FPGA 端之間的數(shù)據(jù)通信帶寬也成為算法執(zhí)行時(shí)性能進(jìn)一步提高的瓶頸。傳統(tǒng)的通信方式也采用 PCIe 技術(shù),將FPGA 設(shè)備端地址空間映射到 CPU 端的內(nèi)存地址空間中,F(xiàn)PGA 通過(guò) PCIe 控制器訪問相應(yīng)的主機(jī)內(nèi)存空間。為了摒棄 PCIe 通信過(guò)程中地址映射機(jī)制,縮短通信上下文建立時(shí)間,近年來(lái) IBM 公司推出 CPAI 技術(shù)。CAPI 接口技術(shù)使得 CPU端與 FPGA 端之間共享虛擬地址空間,F(xiàn)PGA 可以直接訪問 CPU 端的虛擬地址空間,從而摒棄了繁瑣的地址映射耗時(shí),使基于 FPGA 的異構(gòu)架構(gòu)中 CPU 與FPGA 之間的數(shù)據(jù)訪問效率更高,總延遲是傳統(tǒng) PCIe I/O 模式的 1/36。2.1.3 FPGA vs GPU針對(duì)上述兩種不同的異構(gòu)架構(gòu),要使特定應(yīng)用達(dá)到高性能低功耗的目的,架構(gòu)中的協(xié)處理器扮演著關(guān)鍵角色。由于 GPU 和 FPGA 具有不同的體系結(jié)構(gòu)和計(jì)
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP332

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 Bruce Wile;;OpenPOWER+CAPI實(shí)現(xiàn)第二代分布計(jì)算[J];電子產(chǎn)品世界;2015年11期

2 王濤;;“天河二號(hào)”超級(jí)計(jì)算機(jī)[J];科學(xué);2013年04期



本文編號(hào):2605111

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2605111.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶222f2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com