以數(shù)據(jù)為中心的多核處理器軟硬件協(xié)同優(yōu)化關(guān)鍵技術(shù)研究
本文選題:片上多核處理器 + 以數(shù)據(jù)為中心。 參考:《清華大學(xué)》2016年博士論文
【摘要】:未來(lái)的超大規(guī)模計(jì)算系統(tǒng)設(shè)計(jì)面臨著兩個(gè)很重要的挑戰(zhàn):能效性和以數(shù)據(jù)為中心的應(yīng)用負(fù)載。片上多核處理器作為構(gòu)成未來(lái)超大規(guī)模計(jì)算系統(tǒng)的基礎(chǔ)之一,其設(shè)計(jì)和應(yīng)用也需要向“低功耗高能效”和“以數(shù)據(jù)為中心“的需求轉(zhuǎn)變。本文采用”以數(shù)據(jù)為中心“的設(shè)計(jì)思想,從片上多核處理器設(shè)計(jì)和應(yīng)用的多個(gè)層面出發(fā),使用軟硬件協(xié)同優(yōu)化設(shè)計(jì)的方法,以應(yīng)用驅(qū)動(dòng)設(shè)計(jì),來(lái)提高片上多核處理器的能效性、并行擴(kuò)展性和對(duì)不同應(yīng)用的適應(yīng)性。具體而言,在處理器內(nèi)核層面,針對(duì)目標(biāo)應(yīng)用從計(jì)算和數(shù)據(jù)兩個(gè)方面進(jìn)行定制化設(shè)計(jì)和軟硬件協(xié)同優(yōu)化;在片上多核處理器多核互連層面,實(shí)現(xiàn)了硬件支持的片上消息傳遞機(jī)制;在片上多核處理器并行編程模式層面,針對(duì)不規(guī)則應(yīng)用提出一種“計(jì)算趨近數(shù)據(jù)”的計(jì)算模式,提高了不規(guī)則應(yīng)用在片上多核處理器上的計(jì)算性能和并行擴(kuò)展性,并降低了功耗;最后,在多線程調(diào)度層面,提出了“以數(shù)據(jù)為中心”的推測(cè)多線程調(diào)度機(jī)制。本文的主要?jiǎng)?chuàng)新點(diǎn)包括:1.針對(duì)Stencil計(jì)算,采用將常規(guī)的軟硬件優(yōu)化手段跟基于目標(biāo)應(yīng)用定制設(shè)計(jì)相結(jié)合的思路,從一個(gè)簡(jiǎn)單可定制核開(kāi)始,構(gòu)建了一個(gè)低功耗高能效的處理內(nèi)核。設(shè)計(jì)中使用了一系列軟硬件結(jié)合的優(yōu)化方法,提高了計(jì)算并行性和數(shù)據(jù)傳輸效率,減少了數(shù)據(jù)傳輸。2.針對(duì)片上多核處理器的片上消息傳輸機(jī)制設(shè)計(jì)了專門(mén)的消息引擎負(fù)責(zé)片上消息傳遞,并完成了消息引擎RTL級(jí)的實(shí)現(xiàn)。本文從減少數(shù)據(jù)無(wú)效復(fù)制、提高大消息傳輸效率、降低復(fù)雜通信開(kāi)銷三個(gè)方面對(duì)片上多核處理器的片上消息傳輸機(jī)制進(jìn)行了優(yōu)化。3.針對(duì)不規(guī)則應(yīng)用在片上多核處理器上的執(zhí)行瓶頸和挑戰(zhàn),提出In Place計(jì)算模式,實(shí)現(xiàn)計(jì)算向數(shù)據(jù)的趨近。通過(guò)減少數(shù)據(jù)在片上的移動(dòng),提高了處理器的執(zhí)行效率;通過(guò)“劃分”和“代理”機(jī)制避免了對(duì)不規(guī)則數(shù)據(jù)的競(jìng)爭(zhēng)訪問(wèn);通過(guò)構(gòu)建“核間流水”提高了并行度和對(duì)帶寬的利用。對(duì)于典型不規(guī)則應(yīng)用在片上多核處理器上的執(zhí)行,In Place模式提高了性能和并行擴(kuò)展性,并降低了功耗。4.針對(duì)片上多核處理器單線程性能弱的問(wèn)題,在片上多核處理器上實(shí)現(xiàn)了“兼容性”的推測(cè)多線程機(jī)制,能夠利用片上空閑資源提升單線程能力。針對(duì)線程數(shù)據(jù)在片上多核處理器片上的不均勻分布,提出了“以數(shù)據(jù)為中心”的推測(cè)多線程調(diào)度機(jī)制,有效地提升了推測(cè)多線程機(jī)制在片上多核處理器上的執(zhí)行效能。
[Abstract]:There are two important challenges to the design of large scale computing systems in the future: energy efficiency and data-centric application load. As one of the foundations of the future large scale computing system, the design and application of on-chip multi-core processors need to be changed to the requirements of "low power, high energy efficiency" and "data-centric". In this paper, we adopt the idea of "data as the center", proceed from the multi-level design and application of multi-core processors on a chip, use the method of hardware and software co-optimization design to improve the energy efficiency of multi-core processors on a chip by using the application-driven design. Parallel expansibility and adaptability to different applications. Specifically, at the processor kernel level, customization design and hardware / software co-optimization are carried out for the target application from two aspects of calculation and data. The mechanism of on-chip messaging supported by hardware is implemented, and a computing mode of "computing approaching data" is proposed for irregular applications at the level of parallel programming mode of multi-core processors on a chip. The computing performance and parallel expansibility of irregular applications on multi-core processors are improved, and the power consumption is reduced. Finally, at the multi-thread scheduling level, a "data-centric" speculated multithread scheduling mechanism is proposed. The main innovations of this paper include: 1. For Stencil computing, a low power and high energy efficient processing kernel is constructed by combining conventional software and hardware optimization methods with object-based application customization design, starting with a simple customizable kernel. In the design, a series of optimization methods combining software and hardware are used to improve the computing parallelism and data transmission efficiency, and reduce the data transmission. 2. A special message engine is designed to deliver message on a chip for the message transfer mechanism of multi-core processor on a chip, and the RTL level of message engine is implemented. This paper optimizes the on-chip message transmission mechanism of multi-core processors on a chip from three aspects: reducing invalid data replication, improving the efficiency of large message transmission, and reducing the complexity of communication overhead. Aiming at the bottleneck and challenge of irregular application in multi-core processor, in Place computing mode is proposed to realize the convergence of computing to data. By reducing the movement of data on the chip, the processor's execution efficiency is improved; the competing access to irregular data is avoided through "partitioning" and "proxy" mechanisms; and the parallelism and bandwidth utilization are improved by constructing "inter-core pipelining". For typical irregular applications in Place mode, the performance and parallelism are improved, and the power consumption is reduced. In order to solve the problem of low performance of single thread in multi-core processor on a chip, the "compatibility" mechanism of multi-thread is implemented on the chip, which can enhance the single-thread capability by using the free resources on the chip. Aiming at the uneven distribution of thread data on the multi-core processor chip, a data-centric scheduling mechanism is proposed, which effectively improves the performance of the speculated multi-thread mechanism on the multi-core processor.
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許珊琳;;多核處理器——計(jì)算領(lǐng)域的又一次革命[J];中國(guó)集成電路;2006年05期
2 張洋;;虞志益:引領(lǐng)多核處理器創(chuàng)新之路[J];中國(guó)發(fā)明與專利;2013年01期
3 羽路;;多核處理器悄然崛起[J];集成電路應(yīng)用;2005年05期
4 ;多核處理器強(qiáng)調(diào)多任務(wù)并行處理[J];每周電腦報(bào);2006年35期
5 馮磊;;多核處理器的數(shù)量裸奔[J];信息系統(tǒng)工程;2006年11期
6 張浩;蘭峰;;多核處理器基本原理及其在汽車(chē)領(lǐng)域中應(yīng)用的展望[J];汽車(chē)科技;2007年03期
7 何軍;王飆;;多核處理器的結(jié)構(gòu)設(shè)計(jì)研究[J];計(jì)算機(jī)工程;2007年16期
8 肖紅;;基于多核處理器系統(tǒng)開(kāi)發(fā)中的幾個(gè)問(wèn)題[J];廣東廣播電視大學(xué)學(xué)報(bào);2007年04期
9 張健浪;;三大于二,多核CPU之田忌賽馬[J];新電腦;2008年06期
10 都思丹;;前言:嵌入式多核處理器系統(tǒng)及視頻信號(hào)處理技術(shù)研究進(jìn)展[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
相關(guān)會(huì)議論文 前10條
1 郭建軍;戴葵;王志英;;一種多核處理器存儲(chǔ)層次性能評(píng)估模型[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
2 彭林;張小強(qiáng);劉德峰;謝倫國(guó);田祖?zhèn)?;一種挖掘多核處理器存儲(chǔ)級(jí)并行的算法[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
3 劉杰;馬彥;葉維;高劍剛;;多核處理器存儲(chǔ)體系分析[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
4 潘送軍;胡瑜;李曉維;;多核處理器瞬態(tài)故障敏感性分析[A];第五屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2008年
5 萬(wàn)志濤;章恒;張若淵;;基于多核處理器的深度包檢測(cè)的實(shí)現(xiàn)和性能評(píng)估[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2009年年會(huì)論文集(上冊(cè))[C];2009年
6 方娟;張紅波;;多核處理器預(yù)取策略的研究[A];2010年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
7 何軍;王飆;;通用多核處理器發(fā)展現(xiàn)狀和趨勢(shì)研究[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
8 桂亞?wèn)|;;高效能計(jì)算機(jī)技術(shù)展望[A];慶祝中國(guó)力學(xué)學(xué)會(huì)成立50周年暨中國(guó)力學(xué)學(xué)會(huì)學(xué)術(shù)大會(huì)’2007論文摘要集(下)[C];2007年
9 萬(wàn)志濤;;基于多核處理器的面向時(shí)延敏感服務(wù)的云基礎(chǔ)架構(gòu)[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年
10 陳遠(yuǎn)知;;多核處理器的里程碑——TILE64[A];全國(guó)第三屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)交流會(huì)?痆C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 記者 曹繼軍 顏維琦;我國(guó)多核處理器研究實(shí)現(xiàn)新突破[N];光明日?qǐng)?bào);2012年
2 慶廣;多核處理器助力無(wú)線多媒體業(yè)務(wù)拓展[N];中國(guó)電子報(bào);2009年
3 北京大學(xué)計(jì)算語(yǔ)言所副所長(zhǎng) 詹衛(wèi)東;多核服務(wù)器:計(jì)算優(yōu)勢(shì)更上層樓[N];計(jì)算機(jī)世界;2005年
4 北京大學(xué)計(jì)算語(yǔ)言所副所長(zhǎng) 詹衛(wèi)東;雙/多核服務(wù)器 計(jì)算優(yōu)勢(shì)更上層樓[N];網(wǎng)絡(luò)世界;2005年
5 江南計(jì)算技術(shù)研究所 何正未;軟件滯后制約多核應(yīng)用[N];計(jì)算機(jī)世界;2006年
6 李梅 編譯;多核處理器新年井噴[N];計(jì)算機(jī)世界;2007年
7 英特爾產(chǎn)品與平臺(tái)市場(chǎng)部門(mén)數(shù)字家庭市場(chǎng)經(jīng)理 莊淳杰;多核將大行其道[N];計(jì)算機(jī)世界;2007年
8 本報(bào)記者 陳斌;多核處理器的未來(lái)路徑[N];計(jì)算機(jī)世界;2008年
9 王悅承;Oracle改變多核定價(jià)模式[N];中國(guó)計(jì)算機(jī)報(bào);2006年
10 ;多核:技術(shù)無(wú)懸念應(yīng)用待拓展[N];計(jì)算機(jī)世界;2008年
相關(guān)博士學(xué)位論文 前10條
1 柴松;片上多核處理器的調(diào)度算法研究[D];電子科技大學(xué);2014年
2 付桂濤;面向多核處理器的令牌一致性協(xié)議優(yōu)化技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
3 易娟;面向多核處理器系統(tǒng)的可靠性與能耗優(yōu)化調(diào)度研究[D];重慶大學(xué);2016年
4 吳瓊;多核平臺(tái)軟件算法優(yōu)化的研究[D];吉林大學(xué);2017年
5 李艷華;以數(shù)據(jù)為中心的多核處理器軟硬件協(xié)同優(yōu)化關(guān)鍵技術(shù)研究[D];清華大學(xué);2016年
6 王淼;面向多核處理器的并行編譯及優(yōu)化關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
7 王樹(shù)朋;基于仿真的多核處理器功能驗(yàn)證技術(shù)研究[D];浙江大學(xué);2017年
8 魏海濤;面向多核處理器的數(shù)據(jù)流程序編譯關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
9 呂海;多核處理器芯片計(jì)算平臺(tái)中并行程序性能優(yōu)化的研究[D];北京工業(yè)大學(xué);2012年
10 李建華;片上多核處理器緩存子系統(tǒng)優(yōu)化的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 秦培斌;基于多核路由器的加密卡驅(qū)動(dòng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
2 張請(qǐng);多核處理器關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
3 陳帥軍;基于國(guó)產(chǎn)多核處理器核級(jí)冗余靜態(tài)綁定和動(dòng)態(tài)綁定機(jī)制的研究[D];哈爾濱工業(yè)大學(xué);2015年
4 羅成;基于多核處理器的高速數(shù)碼印花機(jī)數(shù)據(jù)傳輸處理系統(tǒng)硬件設(shè)計(jì)[D];浙江大學(xué);2015年
5 宦維祥;基于眾核的多租戶網(wǎng)絡(luò)出訪問(wèn)控制的研究[D];復(fù)旦大學(xué);2013年
6 楊杭軍;基于多核處理器的視頻編解碼并行算法研究[D];南京大學(xué);2013年
7 吳熙;JPEG壓縮編碼在嵌入式多核處理器上的優(yōu)化技術(shù)研究[D];武漢紡織大學(xué);2015年
8 王宗炎;基于OVP的多核處理器系統(tǒng)級(jí)建模與評(píng)估[D];復(fù)旦大學(xué);2014年
9 范少華;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
10 裘凱;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
,本文編號(hào):1899226
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1899226.html