基于CAPI的通用數(shù)據(jù)處理技術研究

發(fā)布時間：2020-03-29 00:02

【摘要】：當前摩爾定律遇到瓶頸,通用處理器的計算能力受到制約,而大數(shù)據(jù)搜索與分析、深度學習等新型企業(yè)計算對數(shù)據(jù)中心服務器的計算能力和功耗提出了新的挑戰(zhàn)。為了提高數(shù)據(jù)中心底層基礎平臺的能耗比P/W(Performance/Watt),一種解決方法是通過硬件加速,采用專用協(xié)處理器的異構計算方式來提升計算性能。FPGA(Field Programming Gate Array,FPGA)相比于GPU(Graphics Processing Unit,GPU)具有更高的計算效率、更高的能耗比,逐漸成為異構計算中主流的協(xié)處理器。然而,受限于傳統(tǒng)I/O技術PCIe數(shù)據(jù)傳輸帶寬的局限性,基于FPGA的異構架構無法充分發(fā)揮FPGA的性能潛力。鑒于此,IBM Open POWER組織針對異構架構通信接口研發(fā)了CAPI(Coherent Accelerator Processor Interface,CAPI)技術。正是由于CAPI技術的優(yōu)勢,有效降低了異構架構通信過程中數(shù)據(jù)傳輸時延(總延遲大約是PCIe I/O模式的1/36),使基于FPGA的異構架構迅速成為新一代異構計算的亮點。本文針對新一代I/O技術CAPI展開研究,與前人只是采用基于CAPI的FPGA異構架構加速某一具體算法不同,我們設計實現(xiàn)了一個通用的基于CAPI技術下的FPGA/CPU異構算法加速框架,簡化開發(fā)人員基于CAPI技術進行算法加速時的設計復雜度,使不同的算法可以快速移植到此框架下進行加速并獲得良好的性能提升。本文主要工作包括:(1)深入研究基于CAPI技術下的FPGA/CPU異構架構,重點分析算法加速功能單元如何根據(jù)PSL(Power Service Layer,PSL)硬核提供的接口來讀寫訪問CPU端的主存。(2)在(1)的工作基礎上,設計實現(xiàn)了基于CAPI的通用數(shù)據(jù)處理和算法加速框架,重點闡述了框架的可擴展性特點。(3)選擇兩種不同特點的算法:AES(Advanced Encryption Standard)算法(算法執(zhí)行時,數(shù)據(jù)之間相互無依賴,適合于并行加速)和SHA(Secure Hash Algorithm)算法(算法執(zhí)行時,數(shù)據(jù)之間相互依賴,不適合于并行加速),分別測試框架對其加速的性能并與CPU軟件實現(xiàn)對比。實驗結果表明:相比于局限的CPU單線程環(huán)境中軟件執(zhí)行的AES算法,框架對AES算法的加速能達到大約2447倍的加速比;相比于實際的生產(chǎn)應用環(huán)境——假設AES算法經(jīng)過軟件優(yōu)化并以多線程方式運行在10核心的CPU上,框架對AES算法的加速能達到大約49倍的加速比;相比于CPU單線程環(huán)境中軟件執(zhí)行的SHA算法,框架對SHA算法的加速不夠明顯,但依然獲得大約3.3倍加速比。(4)針對(3)中AES算法加速時發(fā)現(xiàn)的問題——AES算法的吞吐率性能沒有隨AES算法核的數(shù)量增加而線性提高,我們進一步以基本內(nèi)存拷貝為例,測試了框架的吞吐率性能。實驗結果分析表明:算法加速框架處理數(shù)據(jù)輸入輸出時的吞吐率存在性能瓶頸是導致上述問題產(chǎn)生的主要原因。(5)最后,為了進一步探究算法加速框架的性能瓶頸根源,我們在基本內(nèi)存拷貝實驗基礎上設計了一組對比實驗,并對框架執(zhí)行時的波形圖進行分析,最終得出算法加速框架的性能瓶頸在于框架中I/O功能模塊讀寫訪存延遲過高,導致框架在處理數(shù)據(jù)輸入輸出時的吞吐率受限,從而影響框架對算法加速性能的進一步提升。
【圖文】：

架構圖,異構,架構

基于 CAPI 的通用數(shù)據(jù)處理技術研究2.1.1 基于 GPU 的異構架構相比于 CPU 架構而言，GPU 架構提供眾多的計算單元和大量的高速緩存，，同時采用 SIMT(Single Instruction Multiple Thread)向量化技術使各計算單元并行執(zhí)行，以此提供強大的運算性能，特別是浮點運算性能。典型的基于 GPU 的異構架構如圖 2.1 所示，其中 CPU 端負責邏輯密集型任務的執(zhí)行并將計算密集型任務分配給 GPU 端并行處理。

架構圖,異構,架構

圖 2.2 基于 FPGA 的異構架構與基于 GPU 的異構架構類似，CPU 端與 FPGA 端之間的數(shù)據(jù)通信帶寬也成為算法執(zhí)行時性能進一步提高的瓶頸。傳統(tǒng)的通信方式也采用 PCIe 技術，將FPGA 設備端地址空間映射到 CPU 端的內(nèi)存地址空間中，F(xiàn)PGA 通過 PCIe 控制器訪問相應的主機內(nèi)存空間。為了摒棄 PCIe 通信過程中地址映射機制，縮短通信上下文建立時間，近年來 IBM 公司推出 CPAI 技術。CAPI 接口技術使得 CPU端與 FPGA 端之間共享虛擬地址空間，F(xiàn)PGA 可以直接訪問 CPU 端的虛擬地址空間，從而摒棄了繁瑣的地址映射耗時，使基于 FPGA 的異構架構中 CPU 與FPGA 之間的數(shù)據(jù)訪問效率更高，總延遲是傳統(tǒng) PCIe I/O 模式的 1/36。2.1.3 FPGA vs GPU針對上述兩種不同的異構架構，要使特定應用達到高性能低功耗的目的，架構中的協(xié)處理器扮演著關鍵角色。由于 GPU 和 FPGA 具有不同的體系結構和計
【學位授予單位】：深圳大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TP332

【參考文獻】

相關期刊論文前2條

1 Bruce Wile;;OpenPOWER+CAPI實現(xiàn)第二代分布計算[J];電子產(chǎn)品世界;2015年11期

2 王濤;;“天河二號”超級計算機[J];科學;2013年04期

本文編號：2605111

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2605111.html

上一篇：個性化學習策略在《大學計算機基礎》課程中的設計與應用
下一篇：現(xiàn)場總線技術在臨床檢驗類儀器中的應用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CAPI的通用數(shù)據(jù)處理技術研究