當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)論文 >

面向高密度計(jì)算的多核處理器結(jié)構(gòu)研究

發(fā)布時(shí)間：2020-09-27 15:58

　　人類對(duì)計(jì)算能力的需求不但推動(dòng)著高性能計(jì)算技術(shù)的不斷發(fā)展,還推動(dòng)著微處理器技術(shù)的發(fā)展。當(dāng)前的超級(jí)計(jì)算機(jī)中普遍使用了高性能的微處理器,因此微處理器的性能對(duì)超級(jí)計(jì)算機(jī)和高性能計(jì)算有著至關(guān)重要的作用。在高性能計(jì)算中有一大類應(yīng)用是計(jì)算和訪存密集型的應(yīng)用,如科學(xué)和工程計(jì)算,數(shù)值模擬和信號(hào)處理等。如何對(duì)多核處理器上此類應(yīng)用程序進(jìn)行性能分析和結(jié)構(gòu)優(yōu)化,一直是眾多科研工作者的研究重點(diǎn)。依托國(guó)產(chǎn)高性能多核通用處理器研制項(xiàng)目,本文面向高密度計(jì)算類應(yīng)用,對(duì)通用處理器性能分析方法、結(jié)構(gòu)優(yōu)化以及高密度計(jì)算性能優(yōu)化等問(wèn)題進(jìn)行了深入的探討和研究。本文的主要工作和創(chuàng)新如下： 1.一種用于指導(dǎo)處理器結(jié)構(gòu)優(yōu)化的性能建模及分析方法現(xiàn)有的性能分析通�；诜抡鏀M合或宏觀建模的方法,難以具體地刻畫結(jié)構(gòu)參數(shù)對(duì)性能的影響,對(duì)處理器結(jié)構(gòu)優(yōu)化的指導(dǎo)作用有限。為了深刻地揭示處理器結(jié)構(gòu)參數(shù)與矩陣乘法性能的關(guān)系,本文通過(guò)分析矩陣乘法計(jì)算／訪存行為,結(jié)合處理器結(jié)構(gòu)特點(diǎn),建立了單核和多核通用處理器上的矩陣乘法性能模型。在此基礎(chǔ)上,給出了矩陣乘法最優(yōu)性能下處理器結(jié)構(gòu)參數(shù)應(yīng)滿足的必要條件,包括寄存器個(gè)數(shù)和訪存帶寬的理論下界。以Intel Core i7和Godson-3A兩種典型的通用處理器為驗(yàn)證平臺(tái)對(duì)性能模型進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,在四核矩陣乘法中,該模型的準(zhǔn)確度分別達(dá)到90%和86%以上。本文提出的性能模型,可用于分析處理器在計(jì)算和訪存中的瓶頸,并可用于指導(dǎo)處理器的優(yōu)化設(shè)計(jì)。 2.一種乘加shuffle融合的浮點(diǎn)向量指令根據(jù)本文提出的性能模型,對(duì)基于向量擴(kuò)展處理器的應(yīng)用程序進(jìn)行了性能分析。分析表明,在設(shè)計(jì)基于向量擴(kuò)展處理器的應(yīng)用程序時(shí),需要大量的數(shù)據(jù)shuffle指令來(lái)配合向量運(yùn)算指令,嚴(yán)重地影響了程序性能。為此,本文提出一種新的向量指令,具有向量乘加指令和shuffle指令的功能,使用該指令可以完全消除shuffle指令,減少33%以上的程序長(zhǎng)度,與使用shuffle指令的普通向量擴(kuò)展處理器相比,核心程序性能提高33%以上,并且降低了功耗開銷。 3.一種新的計(jì)算／訪存分離的處理器結(jié)構(gòu) 為了滿足高密度計(jì)算應(yīng)用的要求,本文基于性能模型,針對(duì)訪存瓶頸提出了一種新的計(jì)算／訪存分離的處理器結(jié)構(gòu)。本文借鑒了傳統(tǒng)計(jì)算／訪存分離結(jié)構(gòu)的思想,在多核通用處理器存儲(chǔ)結(jié)構(gòu)的基礎(chǔ)上,增加了一個(gè)訪存協(xié)處理器。當(dāng)進(jìn)行高密度計(jì)算時(shí),由訪存協(xié)處理器負(fù)責(zé)在寄存器和L2 cache/內(nèi)存之間、L2 cache和內(nèi)存之間傳輸數(shù)據(jù),或?qū)?shù)據(jù)進(jìn)行預(yù)取。訪存協(xié)處理器的使用能夠有效隱藏訪存延遲,提高訪存帶寬,與Godson-3A相比,訪存帶寬提高了一倍。 4.基于Godson-3B處理器結(jié)構(gòu)實(shí)現(xiàn)了高效的矩陣乘法在優(yōu)化的龍芯處理器結(jié)構(gòu)上,為了獲得高效的矩陣乘法,本文針對(duì)矩陣乘法中A、B和C三個(gè)矩陣各自的訪存特點(diǎn),采用不同的方法對(duì)其訪存行為進(jìn)行優(yōu)化,并使用訪存協(xié)處理器對(duì)數(shù)據(jù)進(jìn)行預(yù)取,隱藏訪存時(shí)間。優(yōu)化后的矩陣乘法性能比Godson-3A提高了10倍以上,達(dá)到119.0Gflops,效率為93.0%；性能／功耗比為2.98Gflops/W,優(yōu)于當(dāng)前主流處理器。
【學(xué)位單位】：中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位年份】：2011
【中圖分類】：TP332
【文章目錄】：
摘要
ABSTRACT
目錄
圖目錄
表目錄
第1章緒論
    1.1 研究背景
        1.1.1 微處理器在高性能計(jì)算中的應(yīng)用
        1.1.2 微處理器發(fā)展現(xiàn)狀
    1.2 本文研究的問(wèn)題及意義
    1.3 國(guó)內(nèi)外研究現(xiàn)狀
    1.4 本文研究?jī)?nèi)容及論文組織
第2章面向高密度計(jì)算的相關(guān)研究工作
    2.1 幾種面向高密度計(jì)算的處理器結(jié)構(gòu)
        2.1.1 Cell處理器
        2.1.2 TRIPS處理器
        2.1.3 Intel core i7處理器
        2.1.4 GPU處理器結(jié)構(gòu)
        2.1.5 Godson-3號(hào)處理器
        2.1.6 計(jì)算/訪存分離的處理器結(jié)構(gòu)模型
    2.2 性能分析相關(guān)研究
        2.2.1 現(xiàn)有的性能分析方法
        2.2.2 稀疏矩陣向量乘法性能模型
        2.2.3 矩陣乘法性能模型
    2.3 矩陣乘法的相關(guān)研究工作
        2.3.1 單核矩陣乘法相關(guān)工作
        2.3.2 多核矩陣乘法相關(guān)工作
    2.4 小結(jié)
第3章矩陣乘法性能模型
    3.1 矩陣乘法劃分方法
    3.2 單核性能模型
        3.2.1 單核性能模型的建立
        3.2.2 處理器結(jié)構(gòu)參數(shù)優(yōu)化分析
    3.3 多核性能模型
    3.4 性能模型的驗(yàn)證
        3.4.1 Intel core i7上的性能模型驗(yàn)證
        3.4.2 Godson-3A上的性能模型驗(yàn)證
    3.5 小結(jié)
    3.6 附錄
        3.6.1 引理3.1的證明
        3.6.2 定理3.1的證明
        3.6.3 定理3.2的證明
        3.6.4 定理3.3的證明
第4章多核處理器結(jié)構(gòu)優(yōu)化
    4.1 一種乘加-shuffle融合的浮點(diǎn)向量指令
    4.2 一種計(jì)算/訪存分離的處理器結(jié)構(gòu)
        4.2.1 新的計(jì)算/訪存分離的處理器結(jié)構(gòu)介紹
        4.2.2 訪存協(xié)處理器
        4.2.3 訪存協(xié)處理器的帶寬測(cè)試
    4.3 基于性能模型對(duì)Godson-3B進(jìn)行評(píng)估
    4.4 小結(jié)
第5章 Godson-3B上的矩陣乘法
    5.1 高效的單核矩陣乘法
        5.1.1 GEBP核心循環(huán)實(shí)現(xiàn)方法
        5.1.2 寄存器層的訪存優(yōu)化
        5.1.3 L2 cache層的訪存優(yōu)化
    5.2 多核矩陣乘法
    5.3 實(shí)驗(yàn)結(jié)果和分析
        5.3.1 實(shí)驗(yàn)平臺(tái)介紹
        5.3.2 不同寄存器分組下的核心性能測(cè)試
        5.3.3 與性能模型預(yù)測(cè)值的對(duì)比
        5.3.4 GEBP核心循環(huán)中時(shí)間開銷分布統(tǒng)計(jì)
        5.3.5 與其它處理器的比較
    5.4 小結(jié)
第6章結(jié)論
    6.1 本文工作總結(jié)
    6.2 進(jìn)一步工作
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
在讀期間參與的科研項(xiàng)目

【參考文獻(xiàn)】

相關(guān)期刊論文前7條

1 李忠澤,陳瑾,龍翔,李未;基于 Pentium Pro 的高性能 BLAS 的設(shè)計(jì)與實(shí)現(xiàn)[J];北京航空航天大學(xué)學(xué)報(bào);1998年04期

2 蔣孟奇;張?jiān)迫?宋剛;李玉成;;GOTOBLAS一般矩陣乘法高效實(shí)現(xiàn)機(jī)制的研究[J];計(jì)算機(jī)工程;2008年07期

3 喬香珍;Cache性能與程序優(yōu)化[J];計(jì)算機(jī)學(xué)報(bào);1996年11期

4 高翔;陳云霽;王煥東;唐丹;胡偉武;;System Architecture of Godson-3 Multi-Core Processors[J];Journal of Computer Science & Technology;2010年02期

5 江建慧;嵌入式系統(tǒng)性能評(píng)估的基準(zhǔn)程序方法[J];機(jī)械與電子;2002年04期

6 夏培肅,胡偉武;高性能計(jì)算技術(shù)展望[J];中國(guó)科學(xué)院院刊;1998年05期

7 李玉成,朱鵬;BLAS的加速方法與實(shí)現(xiàn)技術(shù)[J];數(shù)值計(jì)算與計(jì)算機(jī)應(yīng)用;1998年03期

相關(guān)博士學(xué)位論文前4條

1 張福新;微處理器性能分析與優(yōu)化[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2005年

2 馬可;微處理器性能分析模型的建立和研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年

3 高翔;多核處理器的訪存模擬與優(yōu)化技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年

4 徐光;分片式流處理器體系結(jié)構(gòu)[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

相關(guān)碩士學(xué)位論文前3條

1 梅小露;高性能通用處理器中浮點(diǎn)乘加部件的設(shè)計(jì)[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2005年

2 譚彩鳳;基于計(jì)算智能應(yīng)用映射的GPU體系結(jié)構(gòu)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

3 梁娟娟;基于GPU的BLAS庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

本文編號(hào)：2828081

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2828081.html

上一篇：基于FPGA的固態(tài)硬盤控制器設(shè)計(jì)
下一篇：上海通用Telematics系統(tǒng)優(yōu)化方案研究與設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向高密度計(jì)算的多核處理器結(jié)構(gòu)研究