天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

高效能GPU微體系結(jié)構(gòu)關(guān)鍵技術(shù)研究

發(fā)布時間:2024-02-14 10:57
  擁有強(qiáng)大運(yùn)算能力和高能效的多核/眾核處理器是提升高性能計算機(jī)系統(tǒng)性能的關(guān)鍵。本文探索一種新型眾核處理器體系結(jié)構(gòu),使得其能夠滿足未來高性能的需求并兼顧高能效,從而能夠應(yīng)用于下一代E級超級計算機(jī)系統(tǒng)中。本文對眾核處理器中一個最常用的處理器GPU進(jìn)行了深入研究,取得的研究成果主要包括以下幾個方面:1.提出了基于局部性保護(hù)和延遲隱藏的線程束調(diào)度方法。本章在現(xiàn)有的線程調(diào)度器基礎(chǔ)之上,設(shè)計和實(shí)現(xiàn)了一個性能更優(yōu)的調(diào)度器,它能夠更好地維持?jǐn)?shù)據(jù)局部性和隱藏長訪存延遲。此方法在不同測試程序中能獲得相對基準(zhǔn)方法平均2.2%的性能提升,而總的硬件開銷可以忽略。2.提出了一種基于指令PC(Program Counter)的cache內(nèi)的數(shù)據(jù)局部性保護(hù)方法,用來保持?jǐn)?shù)據(jù)局部性。本章對傳統(tǒng)的LRU替換策略進(jìn)行了改進(jìn),設(shè)計了一種基于PC信息的局部信息收集器。此外,還設(shè)計了一個與改進(jìn)后的LRU單元協(xié)同的cache分配單元,來更好的分配cache塊中的優(yōu)先級,優(yōu)化逐出策略。它可以在低硬件開銷下得到超過基準(zhǔn)方法平均5.0%的性能改善。3.本文提出了一種協(xié)同的cache管理和線程束調(diào)度方法。它利用cache收集的局部性信息來...

【文章頁數(shù)】:115 頁

【學(xué)位級別】:博士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究動機(jī)
    1.2 本文的主要工作和創(chuàng)新點(diǎn)
    1.3 論文結(jié)構(gòu)
第二章 課題背景及意義
    2.1 單核到多核的轉(zhuǎn)變
    2.2 存儲墻與功耗墻的限制
    2.3 眾核加速器和異構(gòu)系統(tǒng)
    2.4 GPU結(jié)構(gòu)
    2.5 并行編程與CUDA編程模型
    2.6 GPU的主要性能瓶頸
    2.7 高性能GPU優(yōu)化方法
    2.8 課題研究意義
    2.9 本章小結(jié)
第三章 相關(guān)工作
    3.1 GPU中調(diào)度方法的優(yōu)化
    3.2 GPU中 cache的優(yōu)化
    3.3 協(xié)同的cache管理和線程束調(diào)度
    3.4 其它提升眾核處理器性能的重要技術(shù)
    3.5 本章小結(jié)
第四章 基于局部性和延遲隱藏的warp調(diào)度方法
    4.1 引言
    4.2 研究動機(jī)
    4.3 基準(zhǔn)的線程調(diào)度方法
    4.4 調(diào)度對局部性和延遲的影響
    4.5 存儲分離
    4.6 warp間和warp內(nèi)的局部性
    4.7 基于局部性和延遲隱藏的warp調(diào)度
        4.7.1 LPI的組成與結(jié)構(gòu)
        4.7.2 LPI的工作過程和原理
    4.8 實(shí)驗(yàn)環(huán)境和結(jié)果
        4.8.1 實(shí)驗(yàn)環(huán)境及測試程序
        4.8.2 實(shí)驗(yàn)結(jié)果
        4.8.3 硬件開銷分析
    4.9 本章小結(jié)
第五章 GPU上局部性保護(hù)的低開銷cache分配策略
    5.1 引言
    5.2 研究動機(jī)
    5.3 GPU中 cache的結(jié)構(gòu)
    5.4 GPU程序中的數(shù)據(jù)局部性
    5.5 分支分離和存儲分離
    5.6 兩種重用性收集方法
    5.7 基于PC信息的局部性保護(hù)的cache管理方法
        5.7.1 局部性檢測器的結(jié)構(gòu)
        5.7.2 局部性檢測的過程
        5.7.3 帶有重用信息和時間戳信息的cache分配單元
        5.7.4 硬件開銷和復(fù)雜度
    5.8 實(shí)驗(yàn)評估
        5.8.1 實(shí)驗(yàn)環(huán)境的建立
        5.8.2 實(shí)驗(yàn)結(jié)果和分析
    5.9 本章小結(jié)
第六章 協(xié)同的cache管理和warp調(diào)度方法
    6.1 非規(guī)則程序的影響
    6.2 單獨(dú)cache優(yōu)化和單獨(dú)調(diào)度優(yōu)化的局限性
        6.2.1 單獨(dú)調(diào)度優(yōu)化的局限性
        6.2.2 單獨(dú)cache優(yōu)化的局限性
    6.3 基于反饋信息進(jìn)行協(xié)同優(yōu)化的優(yōu)勢
    6.4 協(xié)同的cache管理和warp重排序方法
        6.4.1 CWLP的組成和結(jié)構(gòu)
        6.4.2 CWLP工作原理和過程
        6.4.3 CWLP的有效性
        6.4.4 硬件開銷分析
    6.5 協(xié)同的cache管理和warp限流方法
        6.5.1 CTLP結(jié)構(gòu)
        6.5.2 CTLP工作原理和過程
        6.5.3 CTLP的有效性
        6.5.4 硬件開銷分析
    6.6 實(shí)驗(yàn)環(huán)境及結(jié)果
        6.6.1 實(shí)驗(yàn)環(huán)境及測試程序
        6.6.2 實(shí)驗(yàn)結(jié)果
    6.7 本章小結(jié)
第七章 結(jié)束語
    7.1 本文工作總結(jié)
    7.2 未來研究方向
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果



本文編號:3897984

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3897984.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶942f6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
99久久国产亚洲综合精品| 欧美日韩乱码一区二区三区| 欧美av人人妻av人人爽蜜桃| 久久国产亚洲精品赲碰热| 国产熟女高清一区二区| 国产三级黄片在线免费看| 国产精品激情在线观看| 国产欧美日韩在线一区二区| 欧美二区视频在线观看| 国产成人精品午夜福利av免费| 国产欧美日产久久婷婷| 国产一区二区三区四区中文| 日本成人三级在线播放| 亚洲av日韩一区二区三区四区| 国产福利一区二区三区四区| 久久本道综合色狠狠五月| 欧美一区二区不卡专区| 国产精品一区欧美二区| 中文字幕日韩欧美一区| 精品一区二区三区中文字幕| 国产精品欧美激情在线播放| 亚洲熟妇熟女久久精品| 国产又爽又猛又粗又色对黄| 久草国产精品一区二区| 欧美加勒比一区二区三区| 91精品视频全国免费| 精品亚洲香蕉久久综合网| 国产一区一一一区麻豆| 字幕日本欧美一区二区| 亚洲香艳网久久五月婷婷| 亚洲超碰成人天堂涩涩| 国产成人精品在线播放| 亚洲欧美日韩在线中文字幕| 亚洲精品欧美精品日韩精品| 亚洲男女性生活免费视频| 天堂网中文字幕在线视频| 欧美国产日本免费不卡| 国产超碰在线观看免费| 国产一区二区三区不卡| 国产一区二区三区草莓av| 日韩综合国产欧美一区|