三維多核處理器存儲關(guān)鍵技術(shù)研究
發(fā)布時間:2017-05-31 15:00
本文關(guān)鍵詞:三維多核處理器存儲關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著芯片集成度的提高,數(shù)字集成電路出現(xiàn)了兩個重要的發(fā)展趨勢:由利用指令級并行的單核處理器向利用線程級和數(shù)據(jù)級并行的多核處理器發(fā)展,由傳統(tǒng)2D集成電路向多層堆疊的3D集成電路發(fā)展。存儲子系統(tǒng)是片上多核處理器的最重要組成部分之一。片上存儲器不但占用了大量的芯片面積和功耗開銷,而且影響著多核處理器的性能。隨著芯片上集成核數(shù)的增多,處理器核處理能力的提高,對并行數(shù)據(jù)訪問的需求也將不斷增大。傳統(tǒng)單核處理器系統(tǒng)中的“存儲墻”問題在多核處理器領(lǐng)域仍然存在,并且有進(jìn)一步加劇的趨勢。將片上多核處理器與3D集成電路技術(shù)相融合,通過堆疊高速緩存和主存到處理器層之上,并利用大量的層間垂直互連以增大存儲帶寬,可以減少存儲器的訪存延時,提高多核處理器的性能。3D集成技術(shù)有希望解決多核處理器“存儲墻”問題。本文就是圍繞著3D多核處理器存儲系統(tǒng)設(shè)計問題,從該領(lǐng)域的若干關(guān)鍵問題入手,研究了兩種有代表性的3D多核處理器:3D通用多(大核)處理器(Three Dimensional Chip Multi-Processor,3D CMP)和3D通用(眾核)圖形處理器(Three Dimensiona General Purpose Graphics Processing Unit,3D GPGPU)的存儲架構(gòu)及控制策略。試圖找出3D多核系統(tǒng)的瓶頸,并改進(jìn)其整體性能。論文主要包括以下幾部分:本文研究了堆疊最后級緩存和主存對3D CMP性能的影響。針對網(wǎng)格(mesh)結(jié)構(gòu)的3D多核片上網(wǎng)絡(luò)(Multi-core Network on Chip,McNoC),提出了一種緊密集成的非均勻緩存架構(gòu)(Tightly Mixed Non-Uniform Cache Architecture, TM-NUCA)。相比直接堆疊NUCA的3D CMP,采用TM-NUCA結(jié)構(gòu)的3D CMP能最大提升31.71%的系統(tǒng)性能,并可最多減少15.74%的網(wǎng)絡(luò)通信功耗。集成主存的3D CMP可采用非均勻存儲訪問(Non-Unform Memory Access, NUMA)架構(gòu)。本文面向3D CMP,設(shè)計了一種可擴(kuò)展的NUMA結(jié)構(gòu),片上主存被分為私有、共享及特殊目的存儲器,并分布于多個處理器節(jié)點上。其中私有存儲器訪問延時不隨處理器數(shù)量的增加而增加,對共享主存的訪問延時取決于處理器與數(shù)據(jù)的相對距離。為了實現(xiàn)多處理器對共享存儲器的協(xié)同并行訪問,討論了同步和存儲器同一性的實現(xiàn)。通過實驗驗證,該分布式NUMA結(jié)構(gòu)可有效支持3D多處理器對存儲器的并行訪問,并提供高效的系統(tǒng)加速比。高速緩存利用了數(shù)據(jù)的空間局部性和時間局部性,減少處理器對慢速存儲器的訪問,降低平均訪存延時。當(dāng)多處理器的緩存保持共享數(shù)據(jù)時,會帶來緩存不一致的問題。因此緩存一致性是多處理器存儲系統(tǒng)的重要研究課題。本文實現(xiàn)了一種基于微代碼的軟硬件結(jié)合的緩存一致性方案。并進(jìn)一步提出了面向大規(guī)模3D CMP的基于簇的層次化一致性協(xié)議。通過分析,該協(xié)議相比扁平目錄的一致性,具有更小的通信和目錄存儲開銷。GPGPU是目前及未來有前途的眾核處理器。本文分析了訪存延時對GPGPU應(yīng)用的影響,進(jìn)而提出了堆疊主存的3D GPGPU架構(gòu)設(shè)計。實驗表明,相比2DGPGPU,堆疊主存的3D GPGPU可最大提升124.1%,平均提升55.8%的系統(tǒng)性能。通過功耗分析,堆疊主存的3D GPGPU比2D GPGPU有更好的存儲系統(tǒng)功耗效率。通過熱量分析,3D GPGPU的運行溫度介于60到85攝氏度之間,屬于3D集成電路可接受的溫度范圍。據(jù)我們所知,這是第一個從性能、功耗和溫度方面研究堆疊主存的3D GPGPU架構(gòu)設(shè)計。不同GPGPU應(yīng)用對本地存儲器(包括寄存器、共享存儲器、1級高速緩存)有不同的需求。本文面向3D GPGPU提出了一種可重構(gòu)的本地存儲器系統(tǒng)。以GPGPU應(yīng)用的內(nèi)核為粒度,動態(tài)的將重構(gòu)存儲器配置成寄存器、共享存儲器或1級數(shù)據(jù)緩存。通過實驗驗證,采用可重構(gòu)存儲器的3D GPGPU可有效的提升系統(tǒng)性能,相比未采用重構(gòu)存儲器的參考3D GPGPU'性能最大提升52.22%,平均提高15.87%。隨著3D GPGPU本地存儲空間的增大,部分應(yīng)用分配到不同流處理器上的負(fù)載會變得不均衡。為了解決這個問題,本文進(jìn)一步提出了一種Greedy-Lazy混合線程塊調(diào)度策略。該調(diào)度策略分為Greedy和Lazy兩個模式,在Greedy模式下可充分利用本地資源以提高系統(tǒng)性能,而當(dāng)任務(wù)分配可能出現(xiàn)不均衡時,切換到]-azy模式以降低潛在的任務(wù)調(diào)度不均衡性。通過實驗,Greedy-Lazy混合任務(wù)調(diào)度策略可以有效的降低任務(wù)分配的不均衡性,提升3D GPGPU的整體性能。
【關(guān)鍵詞】:三維集成電路 通用多(大核)處理器 三維堆疊高速緩存 非均勻高速緩存架構(gòu) 三維堆疊主存架構(gòu) 非均勻主存訪問 緩存一致性 片上網(wǎng)絡(luò) 通用圖形處理器 可重構(gòu)存儲架構(gòu) 線程塊調(diào)度策略
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP332;TP333
【目錄】:
- 摘要16-19
- Abstract19-23
- 第一章 緒論23-45
- 1.1 數(shù)字集成電路發(fā)展趨勢概述23-27
- 1.2 并行計算概述27-29
- 1.3 面向并行計算的片上多核處理器29-34
- 1.3.1 (通用)片上多處理器(CMP)30-31
- 1.3.2 眾核通用圖形處理器(GPGPU)31-34
- 1.4 3D集成電路技術(shù)34-38
- 1.4.1 2.5D集成電路34-35
- 1.4.2 3D集成電路35-37
- 1.4.3 垂直硅通孔技術(shù)37-38
- 1.5 3D片上存儲技術(shù)38-41
- 1.5.1 SRAM和DRAM及其微結(jié)構(gòu)38-39
- 1.5.2 面向3D集成電路的非揮發(fā)性存儲器39-41
- 1.6 多核處理器存儲子系統(tǒng)41-42
- 1.7 論文結(jié)構(gòu)及主要研究內(nèi)容42-44
- 1.8 課題來源44-45
- 第二章 3D CMP存儲架構(gòu)研究45-63
- 引論45
- 2.1 研究背景及意義45-47
- 2.1.1 存儲墻問題45
- 2.1.2 3D存儲堆疊技術(shù)背景45-47
- 2.2 堆疊高速緩存及主存的3D CMP設(shè)計47-54
- 2.2.1 研究現(xiàn)狀47-49
- 2.2.2 集成多層2級緩存的3D CMP架構(gòu)49-52
- 2.2.3 堆疊主存的3D CMP架構(gòu)探索52-54
- 2.3 緊密集成SRAM非均勻緩存的3D CMP設(shè)計54-60
- 2.3.1 相關(guān)研究工作54-56
- 2.3.2 面向3D CMP的緊密集成SRAM非均勻緩存架構(gòu)56-59
- 2.3.3 實驗及結(jié)果分析59-60
- 2.4 本章小結(jié)60-63
- 第三章 面向3D CMP的分布式存儲系統(tǒng)及緩存一致性研究63-95
- 引論63
- 3.1 面向3D CMP的可擴(kuò)展分布式主存架構(gòu)63-72
- 3.1.1 背景介紹及研究進(jìn)展63-64
- 3.1.2 面向3D CMP的分布式存儲系統(tǒng)64-66
- 3.1.3 多處理器核間通信策略66-69
- 3.1.4 實驗及分析69-72
- 3.2 面向3D CMP的緩存一致性72-82
- 3.2.1 背景介紹及研究進(jìn)展72-74
- 3.2.2 基于微代碼的多核片上網(wǎng)絡(luò)緩存一致性74-82
- 3.3 面向大規(guī)模3D CMP的基于簇的層次化緩存一致性協(xié)議82-92
- 3.4 本章小結(jié)92-95
- 第四章 3D GPGPU存儲架構(gòu)研究95-127
- 引論95
- 4.1 3D堆疊主存的GPGPU設(shè)計95-110
- 4.1.1 背景介紹及研究進(jìn)展95-98
- 4.1.2 GPGPU應(yīng)用的訪存特性分析98-100
- 4.1.3 堆疊主存的3D GPGPU設(shè)計100-105
- 4.1.4 實驗結(jié)果及分析105-110
- 4.2 面向3D GPGPU的可重構(gòu)本地存儲器設(shè)計110-125
- 4.2.1 背景介紹及相關(guān)工作110-112
- 4.2.2 3D GPGPU本地存儲器需求分析112-114
- 4.2.3 3D GPGPU可重構(gòu)本地存儲器(3D RLM-GPGPU)設(shè)計114-118
- 4.2.4 3D RLM-GPGPU實驗結(jié)果及分析118-122
- 4.2.5 Greedy-Lazy混合CTA調(diào)度(GLaD)策略122-124
- 4.2.6 GLaD實驗結(jié)果及分析124-125
- 4.3 本章小結(jié)125-127
- 第五章 總結(jié)及展望127-133
- 5.1 總結(jié)127-129
- 5.2 展望129-133
- 參考文獻(xiàn)133-149
- 攻讀博士學(xué)位期間發(fā)表論文和取得的成果149-153
- 攻讀博士學(xué)位期間參加的科研項目153-155
- 致謝155-157
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 楊盛光;李麗;張宇昂;王佳文;董嵐;高明倫;;多處理器NoC仿真平臺[J];系統(tǒng)仿真學(xué)報;2009年19期
本文關(guān)鍵詞:三維多核處理器存儲關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:409782
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/409782.html
最近更新
教材專著