天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于FPGA-Centric集群的加速器級并行體系結(jié)構(gòu)研究

發(fā)布時間:2021-03-10 15:49
  高性能計算已經(jīng)成為眾多科學(xué)和技術(shù)領(lǐng)域發(fā)展的主要助推力量,用于高性能計算的超級計算機也已經(jīng)成為重要的基礎(chǔ)設(shè)施。高性能計算的發(fā)展主線是發(fā)掘更多的計算并行度以加速算法的計算過程,高性能計算機的硬件技術(shù)發(fā)展也秉承著同樣的路線。最近幾十年的高性能處理器硬件技術(shù)的發(fā)展從最初的增加處理器位寬的比特級并行(Bit-Level Parallelism,BLP),到追求亂序執(zhí)行/超標(biāo)量執(zhí)行的指令級并行(Instruction-Level Parallelism,ILP),再到多核CPU和以GPU、Xeon Phi為代表的硬件加速器使用的線程級并行(Thread-Level Parallelism,TLP)和數(shù)據(jù)并行(Data-Level Parallelism,DLP)。從歷史經(jīng)驗可以看到,當(dāng)研究人員在一個粒度發(fā)掘并行度變得困難時就會轉(zhuǎn)向去尋找更粗粒度的并行度。時至今日,繼續(xù)沿著線程級并行和數(shù)據(jù)級并行的道路設(shè)計下一代高性能處理器已經(jīng)變得愈發(fā)困難,因此業(yè)界不得不在更粗的粒度上尋找并行機會。威斯康辛大學(xué)麥迪遜分校的Mark D.Hill教授和哈佛大學(xué)的Vijay Reddi教授提出了加速器級并行(Accele... 

【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】:136 頁

【學(xué)位級別】:博士

【部分圖文】:

基于FPGA-Centric集群的加速器級并行體系結(jié)構(gòu)研究


圖1.2基因匹配計算的特征適合映射到脈動陣列的架構(gòu),易于在FPGA上實現(xiàn)??4??

空間,局部性


世界的模擬仿真,故其數(shù)據(jù)分布和計算模式具??有天然的空間局部性。例如諸如計算流體力學(xué)模擬、分子動力學(xué)模擬等計算都體??現(xiàn)出明顯的空間局部性:所有的計算都只作用于很小的鄰域,體現(xiàn)為Stencil的??計算模式;所有的數(shù)據(jù)都按空間分布,可以方便地按照空間分解而不產(chǎn)生數(shù)據(jù)依??賴,計算單元頻繁訪問臨近數(shù)據(jù)且較遠(yuǎn)距離的數(shù)據(jù)很少被涉及。這樣的計算和訪??存特征和FPGA的架構(gòu)有著天然的親和性:分布式的DSP單元訪問分布式的片??上BRAM,保持?jǐn)?shù)據(jù)的空間局部性就能實現(xiàn)高效的Stenci]計算(圖1.3)。Martin??Herbordt基于FPGA實現(xiàn)了定制化的分子動力學(xué)加速器利用FPGA內(nèi)的分??布式BRAM可以高效地實現(xiàn)分子動力學(xué)模擬中短程力的計算,分布式的BRAM??為短程力計算單元提供了更多可以并發(fā)訪問的存儲器接口,而GPU固定設(shè)計的??L2-Cache實現(xiàn)類似機制要付出很大的代價。Hamada[21]基于FPGA集群實現(xiàn)了??面向N-body計算的加速器,其中FPGA的邏輯被用于搭建專用的勢能計算流水??線,而CPU端負(fù)責(zé)調(diào)用FPGA,實現(xiàn)了一定的可編程性。該方案在保證性能的??同時可供科研人員進(jìn)行N-body計算算法的二次開發(fā)。??2.用于人工智能算法領(lǐng)域的FPGA加速器??最近10年的人工智能革命極大地改變了人類的生活。諸如人臉識別、語音??助手等應(yīng)用都依賴于在線的高效的神經(jīng)網(wǎng)絡(luò)推理計算和精確離線訓(xùn)練所帶來的??網(wǎng)絡(luò)模型。人工智能算法的這兩部分計算需求也在最近10年指引著可重構(gòu)計算??領(lǐng)域的發(fā)展方向。由于人工神經(jīng)網(wǎng)絡(luò)中所有的運算的控制流簡單,可以顯式地表??示為數(shù)據(jù)流運算;且所有運算可以通用地轉(zhuǎn)化針對張量的代數(shù)運算

微軟,神經(jīng)網(wǎng)絡(luò)


?第1章緒?論???酬—??閿1.4微軟Catapult項H的FPGA集群,用于加速微軟必應(yīng)搜索w??嚴(yán)?jy^_?,4〇gi?t?4—,??pin?k?rn?cd?I?^?II?^?I??ASIC?\?\??二-二?U????wm?1?為丨.呀固&??Mill-1?畢華??圖1.5微軟Brainwave項0的FPGA集群,用于神經(jīng)網(wǎng)絡(luò)的實時推埋|in|??項目都搭建了包含fpga的大規(guī)模計算集群并在很多具體應(yīng)用上取得了顯著的??性能提升。??微軟公司的Catapult?VI項目(圖1.4)中搭建了一個包含1632個服務(wù)器節(jié)點??的集群,每個服務(wù)器上集成了一塊包含IntelStratix-V的FPGA加速卡,該加速??卡通過PCIe總線和Host?CPU相連。每48個服務(wù)器節(jié)點的FPGA器件間提供??2D?toms的直連網(wǎng)絡(luò)。Catapult?VI集群被用于加速微軟必應(yīng)搜索引擎的排序算??法,在高通量測試中,該集群較傳統(tǒng)超級計算機集群提升了?95%的處理能力。??微軟公司后續(xù)的Brainwave項目(圖1.5)中將FPGA用作智能網(wǎng)卡。Brainwave??基于傳統(tǒng)的超級計算機集群的設(shè)計,利用FPGA的高帶寬和可編程性來實時處??理網(wǎng)絡(luò)數(shù)據(jù)流。從網(wǎng)絡(luò)來的數(shù)據(jù)經(jīng)過FPGA內(nèi)的定制化硬件加速器預(yù)處理后才??被送給Host?CPU進(jìn)行進(jìn)一步的計算。利用上述設(shè)計的包含280個節(jié)點超級計算??機集群,微軟完成了一系列人工智能神經(jīng)網(wǎng)絡(luò)的實時推理,實現(xiàn)了?10-35?Tflops??的性能。??歐盟白勺?ECOSCALE(Energy-efficient?Heterogeneous?Computi


本文編號:3074897

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3074897.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶43a54***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com