基于多核平臺SpMV并行技術(shù)研究
發(fā)布時間:2020-07-14 16:43
【摘要】: 目前各個領(lǐng)域都有大量的多核體系結(jié)構(gòu)處理器投入使用,從手機芯片到超級計算機,多核體系結(jié)構(gòu)都占據(jù)著越來越重要的地位。多核已經(jīng)成為了當(dāng)今處理器體系結(jié)構(gòu)發(fā)展的主流和趨勢。在高性能計算領(lǐng)域,多核處理器平臺的潛力并未充分發(fā)掘出來。為了使得具有更高并行度需求的應(yīng)用能充分利用多核處理器提供的強大計算能力,非常有必要對不同應(yīng)用中的各類算法針對多核結(jié)構(gòu)進行研究。稀疏矩陣向量乘(Sparse Matrix-Vector Multiplication, SpMV)作為多類科學(xué)計算過程不可缺少的一部分,其計算效率對科學(xué)計算程序的最終性能有著重要的影響。 本文以SpMV為例,研究數(shù)值算法在多核平臺上的性能優(yōu)化過程,主要的工作如下: 1、研究了現(xiàn)有的SpMV優(yōu)化的方法,分析了各種方法的特點及適用范圍,重點關(guān)注了數(shù)據(jù)存儲結(jié)構(gòu)和線程優(yōu)化兩方面; 2、研究了多核處理器的體系結(jié)構(gòu),分析體系結(jié)構(gòu)中對并行計算性能的重要影響因素,尤其是存儲結(jié)構(gòu)對并行計算性能的影響; 3、設(shè)計了一種線程與處理器內(nèi)核問的綁定方案,詳細闡述了具體的方法及該方案的實際意義; 4、提出了一種線程劃分方案:該方案可增強線程間的數(shù)據(jù)共享關(guān)系,同時結(jié)合線程綁定技術(shù),可提高SpMV的二級緩存命中率,進而提高SpMV的計算效率; 以國際上公認的矩陣測試集為基準程序,同時利用PAPI工具訪問硬件性能計數(shù)器,獲取程序的二級緩存失效等性能數(shù)據(jù),對本文提出的方案進行了實驗驗證;數(shù)值試驗表明,合理的線程綁定可以提升程序執(zhí)行的性能;而本文提出的線程劃分方案,也提高了SpMV計算性能。
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP332
【圖文】:
目目6核 /999核 核 核圖1一 12009年11月Top500中各類處理器數(shù)量及比例多核處理器經(jīng)歷了十幾年的發(fā)展中經(jīng)歷了自19%年的首個多核結(jié)構(gòu)原型,到2001年IBM推出第一個商用多核處理器POWER4,再到2005年Intel和AMD多核處理器的大規(guī)模應(yīng)用,最后成為了現(xiàn)在多核成為市場主流。在這個過程中,多核處理器的應(yīng)用范圍已覆蓋了多媒體計算、嵌入式設(shè)備、個人計算機、商用服務(wù)器和高性能計算機等眾多領(lǐng)域。由此我們可以很清楚地看到,無論是應(yīng)用領(lǐng)域,還是科研領(lǐng)域,我們已經(jīng)完全地走進了多核時代。第4頁
二止一一二丁二二---一m+l門d:r.mPI圖2一 1CSR存儲格式示意圖圖中每一行中的非零元素用一種陰影表示。矩陣A中的所有非零元素按行依次排列壓縮為一個稠密向量val,再由一個與val相對應(yīng)的整數(shù)向量ind與之對應(yīng),ind中與val對應(yīng)位置存放val中元素屬于A的哪一列。另外,附加ptr向量,分別指出A的每一行元素在向量val中的起始位置。這樣,由于在稀疏矩陣A中非零元素相對較少,所以相對于原始的矩陣A,用于存放矩陣的向量val
二幾幾幾幾幾二_______l吶OOCr圖2一 2BCSR存儲格式示意圖圖中每個3x2的矩形塊對應(yīng)同一個行、列坐標,即BCSR存儲時的最小單元。圖中黑點表示非零元素,val中存儲的是每個小矩形塊中元素的數(shù)值,col中對應(yīng)存儲了每個小矩形塊的列坐標,row則存儲了以矩形塊為最小單位的每行中第一個矩形塊對應(yīng)col數(shù)組中的位置?梢钥闯觯承┚匦螇K中包含部分零元素,這就是BCSR格式引入的新的開銷,即為了使得某些相對較為分散的非零元素湊足一個矩形塊,需要引入部分零元素。在決定作為最小單位的矩形塊大小時
本文編號:2755224
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP332
【圖文】:
目目6核 /999核 核 核圖1一 12009年11月Top500中各類處理器數(shù)量及比例多核處理器經(jīng)歷了十幾年的發(fā)展中經(jīng)歷了自19%年的首個多核結(jié)構(gòu)原型,到2001年IBM推出第一個商用多核處理器POWER4,再到2005年Intel和AMD多核處理器的大規(guī)模應(yīng)用,最后成為了現(xiàn)在多核成為市場主流。在這個過程中,多核處理器的應(yīng)用范圍已覆蓋了多媒體計算、嵌入式設(shè)備、個人計算機、商用服務(wù)器和高性能計算機等眾多領(lǐng)域。由此我們可以很清楚地看到,無論是應(yīng)用領(lǐng)域,還是科研領(lǐng)域,我們已經(jīng)完全地走進了多核時代。第4頁
二止一一二丁二二---一m+l門d:r.mPI圖2一 1CSR存儲格式示意圖圖中每一行中的非零元素用一種陰影表示。矩陣A中的所有非零元素按行依次排列壓縮為一個稠密向量val,再由一個與val相對應(yīng)的整數(shù)向量ind與之對應(yīng),ind中與val對應(yīng)位置存放val中元素屬于A的哪一列。另外,附加ptr向量,分別指出A的每一行元素在向量val中的起始位置。這樣,由于在稀疏矩陣A中非零元素相對較少,所以相對于原始的矩陣A,用于存放矩陣的向量val
二幾幾幾幾幾二_______l吶OOCr圖2一 2BCSR存儲格式示意圖圖中每個3x2的矩形塊對應(yīng)同一個行、列坐標,即BCSR存儲時的最小單元。圖中黑點表示非零元素,val中存儲的是每個小矩形塊中元素的數(shù)值,col中對應(yīng)存儲了每個小矩形塊的列坐標,row則存儲了以矩形塊為最小單位的每行中第一個矩形塊對應(yīng)col數(shù)組中的位置?梢钥闯觯承┚匦螇K中包含部分零元素,這就是BCSR格式引入的新的開銷,即為了使得某些相對較為分散的非零元素湊足一個矩形塊,需要引入部分零元素。在決定作為最小單位的矩形塊大小時
【共引文獻】
相關(guān)期刊論文 前1條
1 白洪濤;歐陽丹彤;李熙銘;李亭;何麗莉;;基于GPU的稀疏矩陣向量乘優(yōu)化[J];計算機科學(xué);2010年08期
相關(guān)博士學(xué)位論文 前1條
1 白洪濤;基于GPU的高性能并行算法研究[D];吉林大學(xué);2010年
本文編號:2755224
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2755224.html
最近更新
教材專著