異構(gòu)混合并行計算綜述

發(fā)布時間：2021-06-21 19:37

　　隨著人工智能和大數(shù)據(jù)等計算機應(yīng)用對算力需求的迅猛增長以及應(yīng)用場景的多樣化,異構(gòu)混合并行計算成為了研究的重點。文中介紹了當前主要的異構(gòu)計算機體系結(jié)構(gòu),包括CPU/協(xié)處理器、CPU/眾核處理器、CPU/ASCI和CPU/FPGA等;簡述了異構(gòu)混合并行編程模型隨著各類異構(gòu)混合結(jié)構(gòu)的發(fā)展而做出的改變,異構(gòu)混合并行編程模型可以是對現(xiàn)有的一種語言進行改造和重新實現(xiàn),或者是現(xiàn)有異構(gòu)編程語言的擴展,或者是使用指導(dǎo)性語句異構(gòu)編程,或者是容器模式協(xié)同編程。分析表明,異構(gòu)混合并行計算架構(gòu)會進一步加強對AI的支持,同時也會增強軟件的通用性。文中還回顧了異構(gòu)混合并行計算中的關(guān)鍵技術(shù),包括異構(gòu)處理器之間的并行任務(wù)劃分、任務(wù)映射、數(shù)據(jù)通信、數(shù)據(jù)訪問,以及異構(gòu)協(xié)同的并行同步和異構(gòu)資源的流水線并行等。根據(jù)這些關(guān)鍵技術(shù),文中指出了異構(gòu)混合并行計算面臨的挑戰(zhàn),如編程困難、移植困難、數(shù)據(jù)通信開銷大、數(shù)據(jù)訪問復(fù)雜、并行控制復(fù)雜以及資源負載不均衡等。最后分析了異構(gòu)混合并行計算面臨的挑戰(zhàn),指出目前關(guān)鍵的核心技術(shù)需要從通用與AI專用異構(gòu)計算的融合、異構(gòu)架構(gòu)的無縫移植、統(tǒng)一編程模型、存算一體化、智能化任務(wù)劃分和分配等方面進行突破。

【文章來源】：計算機科學(xué). 2020,47(08)北大核心CSCD

【文章頁數(shù)】：13 頁

【部分圖文】：

異構(gòu)混合并行計算綜述

協(xié)處理器架構(gòu)

架構(gòu)圖,處理器,架構(gòu)

ARM微處理器可支持多達16個協(xié)處理器,這些協(xié)處理器可用于各種協(xié)處理操作,在程序執(zhí)行過程中,每個協(xié)處理器只執(zhí)行針對自身的協(xié)處理指令。ARM的協(xié)處理器指令主要用于ARM處理器初始化、ARM的協(xié)處理器的數(shù)據(jù)處理操作,以及在ARM的處理器的寄存器和ARM協(xié)處理器的寄存器之間傳送數(shù)據(jù),在ARM協(xié)處理器的寄存器和存儲器之間傳送數(shù)據(jù)。ARM的協(xié)處理器架構(gòu)如圖2所示。Hinds等[4]提出了一種用于嵌入式信號處理和圖形應(yīng)用的浮點協(xié)處理器,其可以改善關(guān)鍵部分的信號處理單元上的性能。Sohn等[5]設(shè)計了一個基于ARM-10的定點多媒體協(xié)處理器,其通過采用雙操作的定點協(xié)同處理器結(jié)構(gòu),在單一硬件中實現(xiàn)了低功耗的先進三維圖形算法和各種流媒體的多媒體功能。1.2 CPU+眾核處理器

體系結(jié)構(gòu)圖,體系結(jié)構(gòu),核心,處理器

Intel公司也推出了眾核的處理器MIC芯片,其處理核心數(shù)目為50～64。第二代Intel Xeon Phi多核處理器擁有60多個核,如在Intel Xeon Phi 7250 KNL處理器中已經(jīng)有68個核心[14]。與GPGPU相比,MIC芯片的核心數(shù)目較少,但是單個核心的處理能力較強,每個核心能夠獨立調(diào)度,屬于重核心;而GPGPU的核心往往公用一些指令部件,不能獨立調(diào)度,屬于輕核心。在Xeon Phi的x86核心設(shè)計中,每個內(nèi)核可以執(zhí)行4個同步線程,但是在理想情況下,每次只能處理其中的2條線程。Xeon Phi屬于順序執(zhí)行處理器,沒有任何亂序執(zhí)行能力。Xeon Phi的x86核心內(nèi)部實際上是雙發(fā)射設(shè)計,指令經(jīng)過解碼單元解碼后會進入0號管線或者1號管線,然后會被送入其所需要的單元進行處理。Xeon Phi的VPU中包含的矢量ALU可以高效率地執(zhí)行16 wide×32 bit的數(shù)據(jù)或者8 wide×64 bit的數(shù)據(jù)。除了VPU單元外,Intel還特別加入了x87浮點單元來對一些特殊的浮點數(shù)據(jù)進行處理;為每個x86核心配備了32 kB的L1數(shù)據(jù)緩存和32 kB的L1指令緩存,并有一個512 bit矢量單元以及2個超標量單元;為了提高Xeon Phi的計算能力,將L2緩存增大到了512 kB[15]。Xeon Phi的體系結(jié)構(gòu)如圖4所示。1.3 CPU+ASIC

【參考文獻】：
期刊論文
[1]C++AMP視角下的計算機圖像視頻處理研究[J]. 劉小豫,趙薔,聶維.  信息與電腦(理論版). 2018(21)
[2]跨媒體分析與推理:研究進展與發(fā)展方向（英文）[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO.  Frontiers of Information Technology & Electronic Engineering. 2017(01)
[3]異構(gòu)并行編程模型研究與進展[J]. 劉穎,呂方,王蕾,陳莉,崔慧敏,馮曉兵.  軟件學(xué)報. 2014(07)

本文編號：3241283

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3241283.html

上一篇：對象存儲設(shè)備性能改進方法的研究
下一篇：對象存儲系統(tǒng)的I/O處理與緩存研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構(gòu)混合并行計算綜述