通用多核集群上的并行調(diào)優(yōu)策略研究
發(fā)布時(shí)間:2022-01-02 03:48
隨著高性能計(jì)算進(jìn)入多核時(shí)代,通用多核集群已逐步成為當(dāng)前大規(guī)模并行計(jì)算的主流平臺(tái)。這類集群系統(tǒng)以多路通用多核服務(wù)器(Multi-Socket Multicore Server)為基本計(jì)算節(jié)點(diǎn),節(jié)點(diǎn)間采用Infiniband等高速網(wǎng)絡(luò)互聯(lián)。通用多核集群的興起帶來了并行調(diào)優(yōu)方面的深刻轉(zhuǎn)變和挑戰(zhàn),主要表現(xiàn)為這類集群上的并行編程和調(diào)優(yōu)環(huán)境還不成熟,與硬件之間存在巨大鴻溝,目前這類系統(tǒng)上的并行程序調(diào)優(yōu)工作主要依靠程序員手工完成。一個(gè)極具現(xiàn)實(shí)意義的問題是,給定一個(gè)應(yīng)用程序和目標(biāo)集群,應(yīng)遵循怎樣的流程來優(yōu)化并行程序以盡量發(fā)揮系統(tǒng)性能?解決這一問題的技術(shù)統(tǒng)稱為并行調(diào)優(yōu)策略,該技術(shù)定義了一套系統(tǒng)化的分析、理解和優(yōu)化并行程序的方法。目前,面向應(yīng)用的以大規(guī)模通用多核集群為目標(biāo)平臺(tái)的并行調(diào)優(yōu)策略的研究剛剛起步,本文即是這個(gè)方向的一次嘗試。本文針對(duì)當(dāng)前主流并行調(diào)優(yōu)技術(shù)的不足,以科學(xué)計(jì)算中最常見的FMM和Stencil計(jì)算為目標(biāo),提出一種能夠用于指導(dǎo)在通用多核集群上對(duì)應(yīng)用程序進(jìn)行并行調(diào)優(yōu)的新策略。該策略首先將影響程序性能的主要因素分為計(jì)算、訪存、通訊和負(fù)載均衡(分別簡(jiǎn)稱為P、M、C、B)四個(gè)主要類別,不同程序的PM...
【文章來源】:復(fù)旦大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:110 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.1:兩路Harpertown結(jié)構(gòu)示意圖
圖2.1:兩路Harpertown結(jié)構(gòu)示意圖 2.1。 2Nehalem一Infiniband/DDRNehalem一Infiniband/DDR平臺(tái)中的處理器具體型號(hào)為 IntelXeol:E5560,圖2.2為 IntelNehaleln的結(jié)構(gòu)示意圖。該類型處理器包含4個(gè)核,每個(gè)核的主頻為2.80GHz,每個(gè)處理器核每個(gè)時(shí)鐘周期可以完成1條SIMD雙精度加法和1條SIMD雙精度乘法,SIMD寄存器寬度為128比特,因此 XeonE5560單處理器核的雙精度峰值為 1l.ZGFlops,Nehalem一In行niband/oDR平臺(tái)的每個(gè)計(jì)算節(jié)點(diǎn)采用雙路處理器,故單個(gè)計(jì)算節(jié)點(diǎn)的雙精度峰值為89.6GFloPs。當(dāng)前存儲(chǔ)墻的問題隨著系統(tǒng)峰值的增加越來越成為性能瓶頸,為了獲得足夠的訪存帶寬Nehalel二處理器集成了內(nèi)存控制器
圖2.2:兩路Nehalem結(jié)構(gòu)示意圖 2.1.3Bareelona一Quadries/Elan4Barcelona一Qt,adries/Elan4平臺(tái)中的處理器具體型號(hào)為 Opteron2354,圖2.3為Bareelona的結(jié)構(gòu)示意圖。 Opteron2354處理器包含4個(gè)核,每個(gè)核的主頻為2.2GHz,每個(gè)處理器核每個(gè)時(shí)鐘周期可以完成1條SIMD雙精度加法和1條SIMD雙精度乘法,slMo寄存器寬度為125比特,因此 Opteron2354單處理器核的雙精度峰值為8.soFlopS,Bareelona一Quadries/Elan4平臺(tái)的每個(gè)計(jì)算節(jié)點(diǎn)采用雙路處理器,故單個(gè)計(jì)算節(jié)點(diǎn)的雙精度峰值為70.4GFloPs。在存儲(chǔ)構(gòu)架方面OPtel·。 n2354有如下主要特點(diǎn):每個(gè)處理器核有獨(dú)立的一級(jí)和二級(jí)高速緩存,單個(gè)處理器中的4個(gè)核共享ZMIB三級(jí)Vi。 timCaehe
【參考文獻(xiàn)】:
期刊論文
[1]程序自動(dòng)并行化系統(tǒng)[J]. 朱傳琪,臧斌宇,陳彤. 軟件學(xué)報(bào). 1996(03)
本文編號(hào):3563410
【文章來源】:復(fù)旦大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:110 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.1:兩路Harpertown結(jié)構(gòu)示意圖
圖2.1:兩路Harpertown結(jié)構(gòu)示意圖 2.1。 2Nehalem一Infiniband/DDRNehalem一Infiniband/DDR平臺(tái)中的處理器具體型號(hào)為 IntelXeol:E5560,圖2.2為 IntelNehaleln的結(jié)構(gòu)示意圖。該類型處理器包含4個(gè)核,每個(gè)核的主頻為2.80GHz,每個(gè)處理器核每個(gè)時(shí)鐘周期可以完成1條SIMD雙精度加法和1條SIMD雙精度乘法,SIMD寄存器寬度為128比特,因此 XeonE5560單處理器核的雙精度峰值為 1l.ZGFlops,Nehalem一In行niband/oDR平臺(tái)的每個(gè)計(jì)算節(jié)點(diǎn)采用雙路處理器,故單個(gè)計(jì)算節(jié)點(diǎn)的雙精度峰值為89.6GFloPs。當(dāng)前存儲(chǔ)墻的問題隨著系統(tǒng)峰值的增加越來越成為性能瓶頸,為了獲得足夠的訪存帶寬Nehalel二處理器集成了內(nèi)存控制器
圖2.2:兩路Nehalem結(jié)構(gòu)示意圖 2.1.3Bareelona一Quadries/Elan4Barcelona一Qt,adries/Elan4平臺(tái)中的處理器具體型號(hào)為 Opteron2354,圖2.3為Bareelona的結(jié)構(gòu)示意圖。 Opteron2354處理器包含4個(gè)核,每個(gè)核的主頻為2.2GHz,每個(gè)處理器核每個(gè)時(shí)鐘周期可以完成1條SIMD雙精度加法和1條SIMD雙精度乘法,slMo寄存器寬度為125比特,因此 Opteron2354單處理器核的雙精度峰值為8.soFlopS,Bareelona一Quadries/Elan4平臺(tái)的每個(gè)計(jì)算節(jié)點(diǎn)采用雙路處理器,故單個(gè)計(jì)算節(jié)點(diǎn)的雙精度峰值為70.4GFloPs。在存儲(chǔ)構(gòu)架方面OPtel·。 n2354有如下主要特點(diǎn):每個(gè)處理器核有獨(dú)立的一級(jí)和二級(jí)高速緩存,單個(gè)處理器中的4個(gè)核共享ZMIB三級(jí)Vi。 timCaehe
【參考文獻(xiàn)】:
期刊論文
[1]程序自動(dòng)并行化系統(tǒng)[J]. 朱傳琪,臧斌宇,陳彤. 軟件學(xué)報(bào). 1996(03)
本文編號(hào):3563410
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3563410.html
最近更新
教材專著