龍芯UNCACHE加速原理及其在系統(tǒng)圖形性能優(yōu)化中的應(yīng)用
【圖文】:
逡逑芯3A邋+2H平臺(tái)的圖形驅(qū)動(dòng)和圖像接口優(yōu)化也取得邐性能改進(jìn)。逡逑了顯著的性能提升。逡逑本文對(duì)如下內(nèi)容進(jìn)行了描述和分析:龍芯邐1邋龍芯GS464處理器核UA機(jī)制逡逑GS464處理器核心UA硬件的實(shí)現(xiàn)機(jī)制;UA的加速逡逑機(jī)制,以及UA和uncache兩種機(jī)制下GPU存儲(chǔ)寫邐龍芯GS464處理器核心實(shí)現(xiàn)了類似于MIPS逡逑入速度差異的量化方式對(duì)比;對(duì)龍芯平臺(tái)Linux核邋R10000處理器的UA機(jī)制,該機(jī)制的邏輯結(jié)構(gòu)如逡逑的存儲(chǔ)映射(memory邋map,邋MMAP)系統(tǒng)的調(diào)用及邋圖1所示。GS464處理器核實(shí)現(xiàn)了兩個(gè)與MIPS逡逑UA功能擴(kuò)展;實(shí)驗(yàn)用龍芯3A+2H互聯(lián)平臺(tái);采用邐R10000相同的32字節(jié)的UA緩沖器人口(imcache逡逑UA邋擴(kuò)展的邋MMAP邋系統(tǒng)調(diào)用后龍芯,,3A邋+邋2H邋平臺(tái)邋accelerate邋Wffer邋entry,UABE),與邋MIPS邋R10000邋處逡逑GPU存儲(chǔ)空間寫入與uncache方式的性能差異;3A邐理器4項(xiàng)FIFO等待隊(duì)列不同,GS464處理器核實(shí)現(xiàn)逡逑+邋2H平臺(tái)GPU驅(qū)動(dòng)進(jìn)行UA改造前后的圖形應(yīng)用邐了邋8項(xiàng)FIFO等待隊(duì)列。逡逑程序編程接口(API)性能提升;采用UA擴(kuò)展的逡逑小十邋>i<邐邋大.]■邋邐'逡逑?邋5cycle邋]邐200cycle邐|逡逑f邐[邐邐r邐邐邐;邐I逡逑|邐|邐邐邋;邐?逡逑GS464邐j邐UA邐|邐;逡逑i邐Buffer邐==1邋1邐!邐J逡逑!邐i邐Entry邋0邐j__邐邋:邐i逡逑111邋邐逡逑指令提交隊(duì)列邋邐邋j邐GPU存儲(chǔ)單元逡逑I邐1邐Lv曰邋/A邋丁寫完■成邋一"一邋
個(gè)簡(jiǎn)單的軟件同步就可以對(duì)原有接邐成,其中一級(jí)交叉總線AXI連接了邋4個(gè)作為主設(shè)備逡逑口進(jìn)行UA優(yōu)化。邐的GS464處理器核,作為主從設(shè)備的HT控制器以逡逑及4個(gè)作為從設(shè)備的二級(jí)CACHE模塊,二級(jí)交叉逡逑4邋UA與uncache對(duì)比實(shí)驗(yàn)平臺(tái)邐開關(guān)則主要連接了作為主設(shè)備的4個(gè)二級(jí)CACHE逡逑模塊與作為從設(shè)備的內(nèi)存控制器(memorY邋control_逡逑本文的UA性能優(yōu)化實(shí)驗(yàn)采用了龍芯3A邋+邋2H邐1?,MC)模塊。龍芯3A的HT控制器通過板級(jí)總逡逑開發(fā)平臺(tái),該平臺(tái)的邏輯結(jié)構(gòu)如圖4所示。其中龍邐線與龍芯2H的HT控制器連接形成數(shù)據(jù)通路。逡逑邐龍芯3A邐逡逑P0邐PI邐P2邐P3邐邐龍芯、2H邐逡逑V,邐/邋V邐V邋v邐v邐J邐,邐,邋_邐_邐I,逡逑n;邐山邐n}邐U/邐(邐\(邐\(邐\逡逑r-*邐^f—1邐——邋GS邋GPU邋PCIE逡逑AXI邐^[ht[:P==Z=2[邋HT邋464邋DC邋4X逡逑#0邐#1邐#2邐#3邐[邐 ̄逡逑L^L^JL^JL^J邐——^——逡逑X2邐 ̄1 ̄邋邐邋邐)( ̄邋 ̄逡逑邐^邐邋屮—邐MC邋AXI.MUX邋j[其他逡逑MC邐其他邐逡逑丨邋i邐-_」■邐+邐…-一逡逑'邐^邐GPU及DC顯示內(nèi)存逡逑系統(tǒng)主內(nèi)存邐■.邐邐邐邐逡逑圖4龍芯3A+2HUA優(yōu)化對(duì)比實(shí)驗(yàn)平臺(tái)逡逑龍芯2H芯片內(nèi)部包含了一個(gè)VIVANTE邐銷遠(yuǎn)大于本地存儲(chǔ)空間訪問的開銷。逡逑GC1000邋GPU模塊,下文所描述的GPU驅(qū)動(dòng)即表示逡逑該GPU的驅(qū)動(dòng)程序。該GPU與HT控制器以及顯邋5邋GPU存
【作者單位】: 計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室中國(guó)科學(xué)院計(jì)算技術(shù)研究所;中國(guó)科學(xué)院計(jì)算技術(shù)研究所;中國(guó)科學(xué)院大學(xué);龍芯中科技術(shù)有限公司;
【基金】:國(guó)家“核高基”科技重大專項(xiàng)課題(2009ZX01028-002-003,2009ZX01029-001-003,2012ZX01029-001-002-002,2014ZX01020201) 國(guó)家自然科學(xué)基金(61221062,61232009,61222204,61432016)資助項(xiàng)目
【分類號(hào)】:TP332
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 ;MPtostream:an OpenMP compiler for CPU-GPU heterogeneous parallel systems[J];Science China(Information Sciences);2012年09期
2 伍鳴;張福新;林偉;許先超;袁楠;王劍;;龍芯2號(hào)處理器系統(tǒng)優(yōu)化關(guān)鍵技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2006年06期
相關(guān)碩士學(xué)位論文 前1條
1 林偉;Linux內(nèi)存管理子系統(tǒng)在龍芯2號(hào)上的優(yōu)化[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
【共引文獻(xiàn)】
相關(guān)期刊論文 前4條
1 張爽爽;孟小甫;汪文祥;高翔;;龍芯UNCACHE加速原理及其在系統(tǒng)圖形性能優(yōu)化中的應(yīng)用[J];高技術(shù)通訊;2015年04期
2 Xiangke LIAO;Liquan XIAO;Canqun YANG;Yutong LU;;MilkyWay-2 supercomputer: system and application[J];Frontiers of Computer Science;2014年03期
3 孟小甫;高翔;從明;張爽爽;;龍芯3A多核處理器系統(tǒng)級(jí)性能優(yōu)化與分析[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
4 張曉輝;程歸鵬;從明;;龍芯處理器上的TLB性能優(yōu)化技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2011年S1期
相關(guān)碩士學(xué)位論文 前5條
1 姜力波;Linux內(nèi)存管理分析與研究[D];電子科技大學(xué);2011年
2 李婷;基于“龍芯”的衛(wèi)星數(shù)字電視接收系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)石油大學(xué);2010年
3 李愷;Glibc庫(kù)在龍芯2F上的優(yōu)化[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
4 劉波;基于龍芯SIMD技術(shù)的RealVideo解碼優(yōu)化[D];中國(guó)石油大學(xué);2008年
5 張榮亮;Linux操作系統(tǒng)內(nèi)核分析與研究[D];江西師范大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)會(huì)議論文 前2條
1 郭續(xù)勝;;白細(xì)胞精子癥不育患者精漿UA、Zn的檢測(cè)及意義[A];中華醫(yī)學(xué)會(huì)第七次全國(guó)檢驗(yàn)醫(yī)學(xué)學(xué)術(shù)會(huì)議資料匯編[C];2008年
2 賀巖;李富榮;杜宗孝;樸文花;;血清BNP、hs-CRP、cTnI及UA聯(lián)合檢測(cè)對(duì)心力衰竭的臨床價(jià)值[A];中華醫(yī)學(xué)會(huì)第九次全國(guó)檢驗(yàn)醫(yī)學(xué)學(xué)術(shù)會(huì)議暨中國(guó)醫(yī)院協(xié)會(huì)臨床檢驗(yàn)管理專業(yè)委員會(huì)第六屆全國(guó)臨床檢驗(yàn)實(shí)驗(yàn)室管理學(xué)術(shù)會(huì)議論文匯編[C];2011年
本文編號(hào):2525409
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2525409.html