天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

龍芯UNCACHE加速原理及其在系統(tǒng)圖形性能優(yōu)化中的應用

發(fā)布時間:2019-08-11 16:45
【摘要】:針對當前采用獨立顯卡的桌面計算機系統(tǒng)架構(gòu)普遍存在的CPU(中心處理單元)訪問GPU(圖形處理單元)存儲空間數(shù)據(jù)傳輸延遲較大的瓶頸,采用了龍芯GS464處理器核心實現(xiàn)的UA(uncache acceleration)機制對GPU驅(qū)動程序中的GPU存儲空間訪問接口進行優(yōu)化,極大地提高了處理器向GPU等IO存儲空間連續(xù)數(shù)據(jù)寫入的速度。詳細分析了龍芯處理器UA機制的原理及其相對于uncache方式IO寫所能帶來的性能提升。通過UA機制優(yōu)化了龍芯3A+2H平臺的GPU驅(qū)動性能,x11perf測試結(jié)果顯示,采用UA優(yōu)化GPU驅(qū)動后,Xserver的一些接口性能提升達5%~230%。將龍芯處理器的UA機制封裝到了標準MMAP系統(tǒng)調(diào)用,并通過該擴展后的系統(tǒng)調(diào)用優(yōu)化了Xserver的Xvideo擴展接口,實驗結(jié)果顯示,播放常見較高分辨率視頻時該接口性能能夠有6~12倍的性能提升。
【圖文】:

處理器,平臺,訪問方式,邏輯結(jié)構(gòu)


逡逑芯3A邋+2H平臺的圖形驅(qū)動和圖像接口優(yōu)化也取得邐性能改進。逡逑了顯著的性能提升。逡逑本文對如下內(nèi)容進行了描述和分析:龍芯邐1邋龍芯GS464處理器核UA機制逡逑GS464處理器核心UA硬件的實現(xiàn)機制;UA的加速逡逑機制,以及UA和uncache兩種機制下GPU存儲寫邐龍芯GS464處理器核心實現(xiàn)了類似于MIPS逡逑入速度差異的量化方式對比;對龍芯平臺Linux核邋R10000處理器的UA機制,該機制的邏輯結(jié)構(gòu)如逡逑的存儲映射(memory邋map,邋MMAP)系統(tǒng)的調(diào)用及邋圖1所示。GS464處理器核實現(xiàn)了兩個與MIPS逡逑UA功能擴展;實驗用龍芯3A+2H互聯(lián)平臺;采用邐R10000相同的32字節(jié)的UA緩沖器人口(imcache逡逑UA邋擴展的邋MMAP邋系統(tǒng)調(diào)用后龍芯,,3A邋+邋2H邋平臺邋accelerate邋Wffer邋entry,UABE),與邋MIPS邋R10000邋處逡逑GPU存儲空間寫入與uncache方式的性能差異;3A邐理器4項FIFO等待隊列不同,GS464處理器核實現(xiàn)逡逑+邋2H平臺GPU驅(qū)動進行UA改造前后的圖形應用邐了邋8項FIFO等待隊列。逡逑程序編程接口(API)性能提升;采用UA擴展的逡逑小十邋>i<邐邋大.]■邋邐'逡逑?邋5cycle邋]邐200cycle邐|逡逑f邐[邐邐r邐邐邐;邐I逡逑|邐|邐邐邋;邐?逡逑GS464邐j邐UA邐|邐;逡逑i邐Buffer邐==1邋1邐!邐J逡逑!邐i邐Entry邋0邐j__邐邋:邐i逡逑111邋邐逡逑指令提交隊列邋邐邋j邐GPU存儲單元逡逑I邐1邐Lv曰邋/A邋丁寫完■成邋一"一邋

優(yōu)化對比,實驗平臺,空間,控制器


個簡單的軟件同步就可以對原有接邐成,其中一級交叉總線AXI連接了邋4個作為主設備逡逑口進行UA優(yōu)化。邐的GS464處理器核,作為主從設備的HT控制器以逡逑及4個作為從設備的二級CACHE模塊,二級交叉逡逑4邋UA與uncache對比實驗平臺邐開關(guān)則主要連接了作為主設備的4個二級CACHE逡逑模塊與作為從設備的內(nèi)存控制器(memorY邋control_逡逑本文的UA性能優(yōu)化實驗采用了龍芯3A邋+邋2H邐1?,MC)模塊。龍芯3A的HT控制器通過板級總逡逑開發(fā)平臺,該平臺的邏輯結(jié)構(gòu)如圖4所示。其中龍邐線與龍芯2H的HT控制器連接形成數(shù)據(jù)通路。逡逑邐龍芯3A邐逡逑P0邐PI邐P2邐P3邐邐龍芯、2H邐逡逑V,邐/邋V邐V邋v邐v邐J邐,邐,邋_邐_邐I,逡逑n;邐山邐n}邐U/邐(邐\(邐\(邐\逡逑r-*邐^f—1邐——邋GS邋GPU邋PCIE逡逑AXI邐^[ht[:P==Z=2[邋HT邋464邋DC邋4X逡逑#0邐#1邐#2邐#3邐[邐 ̄逡逑L^L^JL^JL^J邐——^——逡逑X2邐 ̄1 ̄邋邐邋邐)( ̄邋 ̄逡逑邐^邐邋屮—邐MC邋AXI.MUX邋j[其他逡逑MC邐其他邐逡逑丨邋i邐-_」■邐+邐…-一逡逑'邐^邐GPU及DC顯示內(nèi)存逡逑系統(tǒng)主內(nèi)存邐■.邐邐邐邐逡逑圖4龍芯3A+2HUA優(yōu)化對比實驗平臺逡逑龍芯2H芯片內(nèi)部包含了一個VIVANTE邐銷遠大于本地存儲空間訪問的開銷。逡逑GC1000邋GPU模塊,下文所描述的GPU驅(qū)動即表示逡逑該GPU的驅(qū)動程序。該GPU與HT控制器以及顯邋5邋GPU存
【作者單位】: 計算機體系結(jié)構(gòu)國家重點實驗室中國科學院計算技術(shù)研究所;中國科學院計算技術(shù)研究所;中國科學院大學;龍芯中科技術(shù)有限公司;
【基金】:國家“核高基”科技重大專項課題(2009ZX01028-002-003,2009ZX01029-001-003,2012ZX01029-001-002-002,2014ZX01020201) 國家自然科學基金(61221062,61232009,61222204,61432016)資助項目
【分類號】:TP332

【參考文獻】

相關(guān)期刊論文 前2條

1 ;MPtostream:an OpenMP compiler for CPU-GPU heterogeneous parallel systems[J];Science China(Information Sciences);2012年09期

2 伍鳴;張福新;林偉;許先超;袁楠;王劍;;龍芯2號處理器系統(tǒng)優(yōu)化關(guān)鍵技術(shù)[J];計算機研究與發(fā)展;2006年06期

相關(guān)碩士學位論文 前1條

1 林偉;Linux內(nèi)存管理子系統(tǒng)在龍芯2號上的優(yōu)化[D];中國科學院研究生院(計算技術(shù)研究所);2005年

【共引文獻】

相關(guān)期刊論文 前4條

1 張爽爽;孟小甫;汪文祥;高翔;;龍芯UNCACHE加速原理及其在系統(tǒng)圖形性能優(yōu)化中的應用[J];高技術(shù)通訊;2015年04期

2 Xiangke LIAO;Liquan XIAO;Canqun YANG;Yutong LU;;MilkyWay-2 supercomputer: system and application[J];Frontiers of Computer Science;2014年03期

3 孟小甫;高翔;從明;張爽爽;;龍芯3A多核處理器系統(tǒng)級性能優(yōu)化與分析[J];計算機研究與發(fā)展;2012年S1期

4 張曉輝;程歸鵬;從明;;龍芯處理器上的TLB性能優(yōu)化技術(shù)[J];計算機研究與發(fā)展;2011年S1期

相關(guān)碩士學位論文 前5條

1 姜力波;Linux內(nèi)存管理分析與研究[D];電子科技大學;2011年

2 李婷;基于“龍芯”的衛(wèi)星數(shù)字電視接收系統(tǒng)的研究與實現(xiàn)[D];中國石油大學;2010年

3 李愷;Glibc庫在龍芯2F上的優(yōu)化[D];中國科學技術(shù)大學;2010年

4 劉波;基于龍芯SIMD技術(shù)的RealVideo解碼優(yōu)化[D];中國石油大學;2008年

5 張榮亮;Linux操作系統(tǒng)內(nèi)核分析與研究[D];江西師范大學;2007年

【相似文獻】

相關(guān)會議論文 前2條

1 郭續(xù)勝;;白細胞精子癥不育患者精漿UA、Zn的檢測及意義[A];中華醫(yī)學會第七次全國檢驗醫(yī)學學術(shù)會議資料匯編[C];2008年

2 賀巖;李富榮;杜宗孝;樸文花;;血清BNP、hs-CRP、cTnI及UA聯(lián)合檢測對心力衰竭的臨床價值[A];中華醫(yī)學會第九次全國檢驗醫(yī)學學術(shù)會議暨中國醫(yī)院協(xié)會臨床檢驗管理專業(yè)委員會第六屆全國臨床檢驗實驗室管理學術(shù)會議論文匯編[C];2011年



本文編號:2525409

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2525409.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7af0a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com