基于FPGA-Centric集群的加速器級并行體系結(jié)構(gòu)研究

發(fā)布時間：2021-03-10 15:49

　　高性能計算已經(jīng)成為眾多科學(xué)和技術(shù)領(lǐng)域發(fā)展的主要助推力量,用于高性能計算的超級計算機也已經(jīng)成為重要的基礎(chǔ)設(shè)施。高性能計算的發(fā)展主線是發(fā)掘更多的計算并行度以加速算法的計算過程,高性能計算機的硬件技術(shù)發(fā)展也秉承著同樣的路線。最近幾十年的高性能處理器硬件技術(shù)的發(fā)展從最初的增加處理器位寬的比特級并行（Bit-Level Parallelism,BLP）,到追求亂序執(zhí)行/超標(biāo)量執(zhí)行的指令級并行（Instruction-Level Parallelism,ILP）,再到多核CPU和以GPU、Xeon Phi為代表的硬件加速器使用的線程級并行（Thread-Level Parallelism,TLP）和數(shù)據(jù)并行（Data-Level Parallelism,DLP）。從歷史經(jīng)驗可以看到,當(dāng)研究人員在一個粒度發(fā)掘并行度變得困難時就會轉(zhuǎn)向去尋找更粗粒度的并行度。時至今日,繼續(xù)沿著線程級并行和數(shù)據(jù)級并行的道路設(shè)計下一代高性能處理器已經(jīng)變得愈發(fā)困難,因此業(yè)界不得不在更粗的粒度上尋找并行機會。威斯康辛大學(xué)麥迪遜分校的Mark D.Hill教授和哈佛大學(xué)的Vijay Reddi教授提出了加速器級并行（Accele...

【文章來源】：中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】：136 頁

【學(xué)位級別】：博士

【部分圖文】：

圖１．２基因匹配計算的特征適合映射到脈動陣列的架構(gòu)，易于在ＦＰＧＡ上實現(xiàn)??４??

空間,局部性

世界的模擬仿真，故其數(shù)據(jù)分布和計算模式具??有天然的空間局部性。例如諸如計算流體力學(xué)模擬、分子動力學(xué)模擬等計算都體??現(xiàn)出明顯的空間局部性：所有的計算都只作用于很小的鄰域，體現(xiàn)為Ｓｔｅｎｃｉｌ的??計算模式；所有的數(shù)據(jù)都按空間分布，可以方便地按照空間分解而不產(chǎn)生數(shù)據(jù)依??賴，計算單元頻繁訪問臨近數(shù)據(jù)且較遠(yuǎn)距離的數(shù)據(jù)很少被涉及。這樣的計算和訪??存特征和ＦＰＧＡ的架構(gòu)有著天然的親和性：分布式的ＤＳＰ單元訪問分布式的片??上ＢＲＡＭ，保持?jǐn)?shù)據(jù)的空間局部性就能實現(xiàn)高效的Ｓｔｅｎｃｉ］計算（圖１．３）。Ｍａｒｔｉｎ??Ｈｅｒｂｏｒｄｔ基于ＦＰＧＡ實現(xiàn)了定制化的分子動力學(xué)加速器利用ＦＰＧＡ內(nèi)的分??布式ＢＲＡＭ可以高效地實現(xiàn)分子動力學(xué)模擬中短程力的計算，分布式的ＢＲＡＭ??為短程力計算單元提供了更多可以并發(fā)訪問的存儲器接口，而ＧＰＵ固定設(shè)計的??Ｌ２－Ｃａｃｈｅ實現(xiàn)類似機制要付出很大的代價。Ｈａｍａｄａ［２１］基于ＦＰＧＡ集群實現(xiàn)了??面向Ｎ－ｂｏｄｙ計算的加速器，其中ＦＰＧＡ的邏輯被用于搭建專用的勢能計算流水??線，而ＣＰＵ端負(fù)責(zé)調(diào)用ＦＰＧＡ，實現(xiàn)了一定的可編程性。該方案在保證性能的??同時可供科研人員進(jìn)行Ｎ－ｂｏｄｙ計算算法的二次開發(fā)。??２．用于人工智能算法領(lǐng)域的ＦＰＧＡ加速器??最近１０年的人工智能革命極大地改變了人類的生活。諸如人臉識別、語音??助手等應(yīng)用都依賴于在線的高效的神經(jīng)網(wǎng)絡(luò)推理計算和精確離線訓(xùn)練所帶來的??網(wǎng)絡(luò)模型。人工智能算法的這兩部分計算需求也在最近１０年指引著可重構(gòu)計算??領(lǐng)域的發(fā)展方向。由于人工神經(jīng)網(wǎng)絡(luò)中所有的運算的控制流簡單，可以顯式地表??示為數(shù)據(jù)流運算；且所有運算可以通用地轉(zhuǎn)化針對張量的代數(shù)運算

微軟,神經(jīng)網(wǎng)絡(luò)

?第１章緒?論???酬—??閿１．４微軟Ｃａｔａｐｕｌｔ項Ｈ的ＦＰＧＡ集群，用于加速微軟必應(yīng)搜索ｗ??嚴(yán)?ｊｙ＾＿?，４〇ｇｉ?ｔ?４—，??ｐｉｎ?ｋ?ｒｎ?ｃｄ?Ｉ?＾?ＩＩ?＾?Ｉ??ＡＳＩＣ?＼?＼??二－二?Ｕ????ｗｍ?１?為丨．呀固＆??Ｍｉｌｌ－１?畢華??圖１．５微軟Ｂｒａｉｎｗａｖｅ項０的ＦＰＧＡ集群，用于神經(jīng)網(wǎng)絡(luò)的實時推埋｜ｉｎ｜??項目都搭建了包含ｆｐｇａ的大規(guī)模計算集群并在很多具體應(yīng)用上取得了顯著的??性能提升。??微軟公司的Ｃａｔａｐｕｌｔ?ＶＩ項目（圖１．４）中搭建了一個包含１６３２個服務(wù)器節(jié)點??的集群，每個服務(wù)器上集成了一塊包含ＩｎｔｅｌＳｔｒａｔｉｘ－Ｖ的ＦＰＧＡ加速卡，該加速??卡通過ＰＣＩｅ總線和Ｈｏｓｔ?ＣＰＵ相連。每４８個服務(wù)器節(jié)點的ＦＰＧＡ器件間提供??２Ｄ?ｔｏｍｓ的直連網(wǎng)絡(luò)。Ｃａｔａｐｕｌｔ?ＶＩ集群被用于加速微軟必應(yīng)搜索引擎的排序算??法，在高通量測試中，該集群較傳統(tǒng)超級計算機集群提升了?９５％的處理能力。??微軟公司后續(xù)的Ｂｒａｉｎｗａｖｅ項目（圖１．５）中將ＦＰＧＡ用作智能網(wǎng)卡。Ｂｒａｉｎｗａｖｅ??基于傳統(tǒng)的超級計算機集群的設(shè)計，利用ＦＰＧＡ的高帶寬和可編程性來實時處??理網(wǎng)絡(luò)數(shù)據(jù)流。從網(wǎng)絡(luò)來的數(shù)據(jù)經(jīng)過ＦＰＧＡ內(nèi)的定制化硬件加速器預(yù)處理后才??被送給Ｈｏｓｔ?ＣＰＵ進(jìn)行進(jìn)一步的計算。利用上述設(shè)計的包含２８０個節(jié)點超級計算??機集群，微軟完成了一系列人工智能神經(jīng)網(wǎng)絡(luò)的實時推理，實現(xiàn)了?１０－３５?Ｔｆｌｏｐｓ??的性能。??歐盟白勺?ＥＣＯＳＣＡＬＥ（Ｅｎｅｒｇｙ－ｅｆｆｉｃｉｅｎｔ?Ｈｅｔｅｒｏｇｅｎｅｏｕｓ?Ｃｏｍｐｕｔｉ

本文編號：3074897

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3074897.html

上一篇：氧化錫基薄膜壓敏電阻的制備及其性能研究
下一篇：應(yīng)用于CMOS圖像傳感器的高性能列讀出電路關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于FPGA-Centric集群的加速器級并行體系結(jié)構(gòu)研究