基于多核處理器并行加速EDA算法研究
發(fā)布時(shí)間:2020-06-02 04:27
【摘要】:隨著集成電路工藝以及計(jì)算機(jī)體系結(jié)構(gòu)的深入發(fā)展,受到功耗和散熱的限制,單核處理器在工作頻率上已達(dá)到極限,因此處理器逐漸向多核的方向發(fā)展。多核處理器是指在一枚處理器中集成多個(gè)完整的計(jì)算核心。典型的多核處理器有通用多核CPU、通用多核GPU和Cell BE等。不同類(lèi)型的多核處理器由于各自不同的特點(diǎn)在不同領(lǐng)域得到了廣泛的應(yīng)用,通用CPU由于其獨(dú)立的多個(gè)核心,在系統(tǒng)任務(wù)調(diào)度和復(fù)雜指令多線(xiàn)程方面得到了應(yīng)用,通用GPU由于其針對(duì)圖像處理優(yōu)化的浮點(diǎn)運(yùn)算和大規(guī)模并行核心,在數(shù)據(jù)密集型科學(xué)計(jì)算方面得到了應(yīng)用,而Cell BE由于其異構(gòu)架構(gòu)在集群服務(wù)器上得到了應(yīng)用。 同時(shí),與集成電路設(shè)計(jì)密切相關(guān)的EDA技術(shù)也在不斷發(fā)展,.而EDA算法中存在大量的數(shù)據(jù)密集型計(jì)算,這些計(jì)算導(dǎo)致了EDA工具運(yùn)行時(shí)間過(guò)長(zhǎng),對(duì)設(shè)計(jì)者的快速設(shè)計(jì)造成了不便;趩魏颂幚砥鞯腅DA算法受到單核處理器的工作頻率限制,無(wú)法在運(yùn)行速度上得到改善,因而迫切需要一種基于多核處理器的并行加速方法對(duì)EDA算法進(jìn)行改進(jìn),以適應(yīng)越來(lái)越廣泛的多核處理器架構(gòu),在運(yùn)行速度上得到提高。 本文圍繞面向數(shù)據(jù)密集型科學(xué)計(jì)算的多核處理器的體系結(jié)構(gòu)及編程模型,提出通用CPU和通用GPU的異構(gòu)串并行協(xié)同架構(gòu),針對(duì)數(shù)據(jù)密集型的EDA算法提出“熱點(diǎn)”概念,尋找EDA算法中的“熱點(diǎn)”,在CPU-GPU串并行架構(gòu)上對(duì)“熱點(diǎn)”進(jìn)行并行化以對(duì)整個(gè)EDA算法進(jìn)行加速。 統(tǒng)計(jì)靜態(tài)時(shí)序分析(SSTA)算法是一種典型的數(shù)據(jù)密集型計(jì)算EDA算法,傳統(tǒng)的基于蒙特卡羅方法的SSTA由于隨機(jī)配置數(shù)目過(guò)大,運(yùn)行時(shí)間隨分析電路規(guī)模的增大而快速增大,而本文基于稀疏網(wǎng)格法產(chǎn)生隨機(jī)配置,減少了分析時(shí)的配置個(gè)數(shù),并在此基礎(chǔ)上基于GPU進(jìn)行并行加速,與基于CPU的蒙特卡羅方法SSTA相比,獲得了平均為320倍的加速比。 針對(duì)硬件實(shí)現(xiàn)線(xiàn)性變換中存在的常數(shù)乘法器問(wèn)題,本文設(shè)計(jì)并實(shí)現(xiàn)了一種可重配置多常數(shù)乘法器生成算法,可以在不同配置下實(shí)現(xiàn)不同組多常數(shù)乘法的輸出。與已有的多常數(shù)乘法器和可重配置單常數(shù)乘法器相比,在面積上具有明顯優(yōu)勢(shì),在0.13μm工藝下,面積節(jié)省10%以上 本文通過(guò)對(duì)可重配置多常數(shù)乘法器生成算法中數(shù)據(jù)密集計(jì)算部分的分析,基于GPU進(jìn)行并行加速,獲得了一定的加速比。
【圖文】:
上也不需要付出太大代價(jià)。由于圖形渲染的高度并行性,使得GPU可以通過(guò)增加并行處理單元和存儲(chǔ)器控制單元的方式提高處理能力和存儲(chǔ)器帶寬。GPU設(shè)計(jì)者將更多的晶體管用作執(zhí)行單元,而不是像CPU那樣用作復(fù)雜的控制單元和緩存并以此來(lái)提高少量執(zhí)行單元的執(zhí)行效率。GPU和CPU體系結(jié)構(gòu)上的差異如圖2.2所示。
第3章基于GPU勺日速的EDA算法設(shè)討了多處理器擁有的內(nèi)置存儲(chǔ)器之外,還有全局存儲(chǔ)器。全局存儲(chǔ)器是的,,但不被緩存。向全局存儲(chǔ)器讀寫(xiě)一個(gè)單精度浮點(diǎn)數(shù)而產(chǎn)生的訪問(wèn)到400到600個(gè)時(shí)鐘周期。如果在等待訪問(wèn)全局存儲(chǔ)器操作完成時(shí),術(shù)運(yùn)算指令發(fā)射入運(yùn)算單元,則可遮蔽掉大部分的全局存儲(chǔ)器訪問(wèn)延局存儲(chǔ)器是不被緩存的,那么在等待全局存儲(chǔ)器訪問(wèn)完成時(shí)所耗費(fèi)的以通過(guò)改變?cè)L問(wèn)模式而極大地改變,因此對(duì)咒一bit、64一bit、128一bit單元進(jìn)行合并訪問(wèn)(也就是對(duì)齊訪問(wèn)),可以增加吞吐量和最大化總用率。理緩存對(duì)于空間局部性進(jìn)行過(guò)優(yōu)化。一個(gè)紋理讀取操作,在發(fā)生了緩情況下需要消耗一個(gè)存儲(chǔ)器讀的時(shí)間來(lái)從設(shè)備存儲(chǔ)器中讀取數(shù)據(jù),否個(gè)時(shí)鐘周期來(lái)從紋理緩存中讀取數(shù)據(jù)。PU的存儲(chǔ)器模型層次描述如圖3.1所示。Thread
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:TP332;TN402
本文編號(hào):2692608
【圖文】:
上也不需要付出太大代價(jià)。由于圖形渲染的高度并行性,使得GPU可以通過(guò)增加并行處理單元和存儲(chǔ)器控制單元的方式提高處理能力和存儲(chǔ)器帶寬。GPU設(shè)計(jì)者將更多的晶體管用作執(zhí)行單元,而不是像CPU那樣用作復(fù)雜的控制單元和緩存并以此來(lái)提高少量執(zhí)行單元的執(zhí)行效率。GPU和CPU體系結(jié)構(gòu)上的差異如圖2.2所示。
第3章基于GPU勺日速的EDA算法設(shè)討了多處理器擁有的內(nèi)置存儲(chǔ)器之外,還有全局存儲(chǔ)器。全局存儲(chǔ)器是的,,但不被緩存。向全局存儲(chǔ)器讀寫(xiě)一個(gè)單精度浮點(diǎn)數(shù)而產(chǎn)生的訪問(wèn)到400到600個(gè)時(shí)鐘周期。如果在等待訪問(wèn)全局存儲(chǔ)器操作完成時(shí),術(shù)運(yùn)算指令發(fā)射入運(yùn)算單元,則可遮蔽掉大部分的全局存儲(chǔ)器訪問(wèn)延局存儲(chǔ)器是不被緩存的,那么在等待全局存儲(chǔ)器訪問(wèn)完成時(shí)所耗費(fèi)的以通過(guò)改變?cè)L問(wèn)模式而極大地改變,因此對(duì)咒一bit、64一bit、128一bit單元進(jìn)行合并訪問(wèn)(也就是對(duì)齊訪問(wèn)),可以增加吞吐量和最大化總用率。理緩存對(duì)于空間局部性進(jìn)行過(guò)優(yōu)化。一個(gè)紋理讀取操作,在發(fā)生了緩情況下需要消耗一個(gè)存儲(chǔ)器讀的時(shí)間來(lái)從設(shè)備存儲(chǔ)器中讀取數(shù)據(jù),否個(gè)時(shí)鐘周期來(lái)從紋理緩存中讀取數(shù)據(jù)。PU的存儲(chǔ)器模型層次描述如圖3.1所示。Thread
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:TP332;TN402
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前3條
1 師攀攀;基于多核的AES算法的并行優(yōu)化與實(shí)現(xiàn)[D];鄭州大學(xué);2012年
2 王杰;基于多核機(jī)群環(huán)境的并行程序設(shè)計(jì)方法研究[D];中原工學(xué)院;2012年
3 田陽(yáng)光;基于多核的Loeffler算法的并行優(yōu)化與實(shí)現(xiàn)[D];鄭州大學(xué);2013年
本文編號(hào):2692608
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2692608.html
最近更新
教材專(zhuān)著