基于FPGA-Centric集群的加速器級(jí)并行體系結(jié)構(gòu)研究
發(fā)布時(shí)間:2021-03-10 15:49
高性能計(jì)算已經(jīng)成為眾多科學(xué)和技術(shù)領(lǐng)域發(fā)展的主要助推力量,用于高性能計(jì)算的超級(jí)計(jì)算機(jī)也已經(jīng)成為重要的基礎(chǔ)設(shè)施。高性能計(jì)算的發(fā)展主線是發(fā)掘更多的計(jì)算并行度以加速算法的計(jì)算過(guò)程,高性能計(jì)算機(jī)的硬件技術(shù)發(fā)展也秉承著同樣的路線。最近幾十年的高性能處理器硬件技術(shù)的發(fā)展從最初的增加處理器位寬的比特級(jí)并行(Bit-Level Parallelism,BLP),到追求亂序執(zhí)行/超標(biāo)量執(zhí)行的指令級(jí)并行(Instruction-Level Parallelism,ILP),再到多核CPU和以GPU、Xeon Phi為代表的硬件加速器使用的線程級(jí)并行(Thread-Level Parallelism,TLP)和數(shù)據(jù)并行(Data-Level Parallelism,DLP)。從歷史經(jīng)驗(yàn)可以看到,當(dāng)研究人員在一個(gè)粒度發(fā)掘并行度變得困難時(shí)就會(huì)轉(zhuǎn)向去尋找更粗粒度的并行度。時(shí)至今日,繼續(xù)沿著線程級(jí)并行和數(shù)據(jù)級(jí)并行的道路設(shè)計(jì)下一代高性能處理器已經(jīng)變得愈發(fā)困難,因此業(yè)界不得不在更粗的粒度上尋找并行機(jī)會(huì)。威斯康辛大學(xué)麥迪遜分校的Mark D.Hill教授和哈佛大學(xué)的Vijay Reddi教授提出了加速器級(jí)并行(Accele...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:136 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2基因匹配計(jì)算的特征適合映射到脈動(dòng)陣列的架構(gòu),易于在FPGA上實(shí)現(xiàn)??4??
世界的模擬仿真,故其數(shù)據(jù)分布和計(jì)算模式具??有天然的空間局部性。例如諸如計(jì)算流體力學(xué)模擬、分子動(dòng)力學(xué)模擬等計(jì)算都體??現(xiàn)出明顯的空間局部性:所有的計(jì)算都只作用于很小的鄰域,體現(xiàn)為Stencil的??計(jì)算模式;所有的數(shù)據(jù)都按空間分布,可以方便地按照空間分解而不產(chǎn)生數(shù)據(jù)依??賴(lài),計(jì)算單元頻繁訪問(wèn)臨近數(shù)據(jù)且較遠(yuǎn)距離的數(shù)據(jù)很少被涉及。這樣的計(jì)算和訪??存特征和FPGA的架構(gòu)有著天然的親和性:分布式的DSP單元訪問(wèn)分布式的片??上BRAM,保持?jǐn)?shù)據(jù)的空間局部性就能實(shí)現(xiàn)高效的Stenci]計(jì)算(圖1.3)。Martin??Herbordt基于FPGA實(shí)現(xiàn)了定制化的分子動(dòng)力學(xué)加速器利用FPGA內(nèi)的分??布式BRAM可以高效地實(shí)現(xiàn)分子動(dòng)力學(xué)模擬中短程力的計(jì)算,分布式的BRAM??為短程力計(jì)算單元提供了更多可以并發(fā)訪問(wèn)的存儲(chǔ)器接口,而GPU固定設(shè)計(jì)的??L2-Cache實(shí)現(xiàn)類(lèi)似機(jī)制要付出很大的代價(jià)。Hamada[21]基于FPGA集群實(shí)現(xiàn)了??面向N-body計(jì)算的加速器,其中FPGA的邏輯被用于搭建專(zhuān)用的勢(shì)能計(jì)算流水??線,而CPU端負(fù)責(zé)調(diào)用FPGA,實(shí)現(xiàn)了一定的可編程性。該方案在保證性能的??同時(shí)可供科研人員進(jìn)行N-body計(jì)算算法的二次開(kāi)發(fā)。??2.用于人工智能算法領(lǐng)域的FPGA加速器??最近10年的人工智能革命極大地改變了人類(lèi)的生活。諸如人臉識(shí)別、語(yǔ)音??助手等應(yīng)用都依賴(lài)于在線的高效的神經(jīng)網(wǎng)絡(luò)推理計(jì)算和精確離線訓(xùn)練所帶來(lái)的??網(wǎng)絡(luò)模型。人工智能算法的這兩部分計(jì)算需求也在最近10年指引著可重構(gòu)計(jì)算??領(lǐng)域的發(fā)展方向。由于人工神經(jīng)網(wǎng)絡(luò)中所有的運(yùn)算的控制流簡(jiǎn)單,可以顯式地表??示為數(shù)據(jù)流運(yùn)算;且所有運(yùn)算可以通用地轉(zhuǎn)化針對(duì)張量的代數(shù)運(yùn)算
?第1章緒?論???酬—??閿1.4微軟Catapult項(xiàng)H的FPGA集群,用于加速微軟必應(yīng)搜索w??嚴(yán)?jy^_?,4〇gi?t?4—,??pin?k?rn?cd?I?^?II?^?I??ASIC?\?\??二-二?U????wm?1?為丨.呀固&??Mill-1?畢華??圖1.5微軟Brainwave項(xiàng)0的FPGA集群,用于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)推埋|in|??項(xiàng)目都搭建了包含fpga的大規(guī)模計(jì)算集群并在很多具體應(yīng)用上取得了顯著的??性能提升。??微軟公司的Catapult?VI項(xiàng)目(圖1.4)中搭建了一個(gè)包含1632個(gè)服務(wù)器節(jié)點(diǎn)??的集群,每個(gè)服務(wù)器上集成了一塊包含IntelStratix-V的FPGA加速卡,該加速??卡通過(guò)PCIe總線和Host?CPU相連。每48?jìng)(gè)服務(wù)器節(jié)點(diǎn)的FPGA器件間提供??2D?toms的直連網(wǎng)絡(luò)。Catapult?VI集群被用于加速微軟必應(yīng)搜索引擎的排序算??法,在高通量測(cè)試中,該集群較傳統(tǒng)超級(jí)計(jì)算機(jī)集群提升了?95%的處理能力。??微軟公司后續(xù)的Brainwave項(xiàng)目(圖1.5)中將FPGA用作智能網(wǎng)卡。Brainwave??基于傳統(tǒng)的超級(jí)計(jì)算機(jī)集群的設(shè)計(jì),利用FPGA的高帶寬和可編程性來(lái)實(shí)時(shí)處??理網(wǎng)絡(luò)數(shù)據(jù)流。從網(wǎng)絡(luò)來(lái)的數(shù)據(jù)經(jīng)過(guò)FPGA內(nèi)的定制化硬件加速器預(yù)處理后才??被送給Host?CPU進(jìn)行進(jìn)一步的計(jì)算。利用上述設(shè)計(jì)的包含280個(gè)節(jié)點(diǎn)超級(jí)計(jì)算??機(jī)集群,微軟完成了一系列人工智能神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)推理,實(shí)現(xiàn)了?10-35?Tflops??的性能。??歐盟白勺?ECOSCALE(Energy-efficient?Heterogeneous?Computi
本文編號(hào):3074897
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:136 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2基因匹配計(jì)算的特征適合映射到脈動(dòng)陣列的架構(gòu),易于在FPGA上實(shí)現(xiàn)??4??
世界的模擬仿真,故其數(shù)據(jù)分布和計(jì)算模式具??有天然的空間局部性。例如諸如計(jì)算流體力學(xué)模擬、分子動(dòng)力學(xué)模擬等計(jì)算都體??現(xiàn)出明顯的空間局部性:所有的計(jì)算都只作用于很小的鄰域,體現(xiàn)為Stencil的??計(jì)算模式;所有的數(shù)據(jù)都按空間分布,可以方便地按照空間分解而不產(chǎn)生數(shù)據(jù)依??賴(lài),計(jì)算單元頻繁訪問(wèn)臨近數(shù)據(jù)且較遠(yuǎn)距離的數(shù)據(jù)很少被涉及。這樣的計(jì)算和訪??存特征和FPGA的架構(gòu)有著天然的親和性:分布式的DSP單元訪問(wèn)分布式的片??上BRAM,保持?jǐn)?shù)據(jù)的空間局部性就能實(shí)現(xiàn)高效的Stenci]計(jì)算(圖1.3)。Martin??Herbordt基于FPGA實(shí)現(xiàn)了定制化的分子動(dòng)力學(xué)加速器利用FPGA內(nèi)的分??布式BRAM可以高效地實(shí)現(xiàn)分子動(dòng)力學(xué)模擬中短程力的計(jì)算,分布式的BRAM??為短程力計(jì)算單元提供了更多可以并發(fā)訪問(wèn)的存儲(chǔ)器接口,而GPU固定設(shè)計(jì)的??L2-Cache實(shí)現(xiàn)類(lèi)似機(jī)制要付出很大的代價(jià)。Hamada[21]基于FPGA集群實(shí)現(xiàn)了??面向N-body計(jì)算的加速器,其中FPGA的邏輯被用于搭建專(zhuān)用的勢(shì)能計(jì)算流水??線,而CPU端負(fù)責(zé)調(diào)用FPGA,實(shí)現(xiàn)了一定的可編程性。該方案在保證性能的??同時(shí)可供科研人員進(jìn)行N-body計(jì)算算法的二次開(kāi)發(fā)。??2.用于人工智能算法領(lǐng)域的FPGA加速器??最近10年的人工智能革命極大地改變了人類(lèi)的生活。諸如人臉識(shí)別、語(yǔ)音??助手等應(yīng)用都依賴(lài)于在線的高效的神經(jīng)網(wǎng)絡(luò)推理計(jì)算和精確離線訓(xùn)練所帶來(lái)的??網(wǎng)絡(luò)模型。人工智能算法的這兩部分計(jì)算需求也在最近10年指引著可重構(gòu)計(jì)算??領(lǐng)域的發(fā)展方向。由于人工神經(jīng)網(wǎng)絡(luò)中所有的運(yùn)算的控制流簡(jiǎn)單,可以顯式地表??示為數(shù)據(jù)流運(yùn)算;且所有運(yùn)算可以通用地轉(zhuǎn)化針對(duì)張量的代數(shù)運(yùn)算
?第1章緒?論???酬—??閿1.4微軟Catapult項(xiàng)H的FPGA集群,用于加速微軟必應(yīng)搜索w??嚴(yán)?jy^_?,4〇gi?t?4—,??pin?k?rn?cd?I?^?II?^?I??ASIC?\?\??二-二?U????wm?1?為丨.呀固&??Mill-1?畢華??圖1.5微軟Brainwave項(xiàng)0的FPGA集群,用于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)推埋|in|??項(xiàng)目都搭建了包含fpga的大規(guī)模計(jì)算集群并在很多具體應(yīng)用上取得了顯著的??性能提升。??微軟公司的Catapult?VI項(xiàng)目(圖1.4)中搭建了一個(gè)包含1632個(gè)服務(wù)器節(jié)點(diǎn)??的集群,每個(gè)服務(wù)器上集成了一塊包含IntelStratix-V的FPGA加速卡,該加速??卡通過(guò)PCIe總線和Host?CPU相連。每48?jìng)(gè)服務(wù)器節(jié)點(diǎn)的FPGA器件間提供??2D?toms的直連網(wǎng)絡(luò)。Catapult?VI集群被用于加速微軟必應(yīng)搜索引擎的排序算??法,在高通量測(cè)試中,該集群較傳統(tǒng)超級(jí)計(jì)算機(jī)集群提升了?95%的處理能力。??微軟公司后續(xù)的Brainwave項(xiàng)目(圖1.5)中將FPGA用作智能網(wǎng)卡。Brainwave??基于傳統(tǒng)的超級(jí)計(jì)算機(jī)集群的設(shè)計(jì),利用FPGA的高帶寬和可編程性來(lái)實(shí)時(shí)處??理網(wǎng)絡(luò)數(shù)據(jù)流。從網(wǎng)絡(luò)來(lái)的數(shù)據(jù)經(jīng)過(guò)FPGA內(nèi)的定制化硬件加速器預(yù)處理后才??被送給Host?CPU進(jìn)行進(jìn)一步的計(jì)算。利用上述設(shè)計(jì)的包含280個(gè)節(jié)點(diǎn)超級(jí)計(jì)算??機(jī)集群,微軟完成了一系列人工智能神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)推理,實(shí)現(xiàn)了?10-35?Tflops??的性能。??歐盟白勺?ECOSCALE(Energy-efficient?Heterogeneous?Computi
本文編號(hào):3074897
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3074897.html
最近更新
教材專(zhuān)著