天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

深度學(xué)習(xí)加速器中存儲和計算優(yōu)化技術(shù)研究

發(fā)布時間:2021-03-03 09:11
  深度卷積神經(jīng)網(wǎng)絡(luò)(DNNs)實現(xiàn)了高精度預(yù)測判定,在諸如語音識別、圖像識別和自然語言處理等方面得到了廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)存在計算密集和存儲密集的特點。雖然高度并行的設(shè)備有效地滿足了計算的需求,但能效仍然是一個需要解決的問題。在基礎(chǔ)工作階段,我們首先完成了一個包含三級存儲層次(網(wǎng)絡(luò)、片上緩存、片外存儲)的模擬框架,可以對多種加速器結(jié)構(gòu)進行模擬,并評估比較不同網(wǎng)絡(luò)中對計算序列和數(shù)據(jù)布局的各種組合所產(chǎn)生性能功耗差異。之后,我們實現(xiàn)了一個脈動陣列結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)加速器,平衡I/O與計算速度,對卷積操作進行并行計算。并對不同規(guī)模下的脈動陣列進行了性能與功耗評估,對脈動陣列的可擴展性進行了分析。在此基礎(chǔ)上對加速器進行了存儲以及計算上的優(yōu)化。在計算優(yōu)化方面,我們設(shè)計優(yōu)化PE結(jié)構(gòu)以實現(xiàn)權(quán)值重復(fù)優(yōu)化,并設(shè)計兩階段陣列流動,用來完成先累加后相乘的步驟。過程中減少乘法操作,降低了片上的計算功耗。同時,利用量化后的權(quán)值索引進行流動,降低帶寬需求。在存儲優(yōu)化方面,我們提出兩個新的卷積計算模式:NHWCfine和NHWCcoarse。基于權(quán)值可緩存于片上這一事實,... 

【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

深度學(xué)習(xí)加速器中存儲和計算優(yōu)化技術(shù)研究


深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]

對比圖,主流,能效


國防科技大學(xué)研究生院碩士學(xué)位論文第3頁及通用性帶來的限制,更多的人希望提供專用的深度神經(jīng)網(wǎng)絡(luò)計算加速。ASIC按照用戶要求或特定系統(tǒng)的需求而設(shè)計、制造的集成電路。ASIC具有面積孝能效高等優(yōu)勢。其總體上優(yōu)于其他三種硬件方案,但是其開發(fā)周期長,初始成本高昂等特點提高了進行ASIC芯片開發(fā)的門檻。本課題中我們更加關(guān)注具有靈活架構(gòu)的FPGA。與GPU相比,基于FPGA的深度學(xué)習(xí)加速器由于其可編程專用性和出色的能效而受到越來越多的關(guān)注。GPU加速器的性能根據(jù)數(shù)據(jù)批量大小而不同,而FPGA加速器的性能對批量大小不敏感。研究表明,F(xiàn)PGA能效是GPU的10倍以上。此外,對于大多數(shù)情況,F(xiàn)PGA在滑動窗口應(yīng)用程序的基準(zhǔn)測試中提供比GPU更快的性能和更高的能效[49]。1.2研究意義1.2.1理論意義隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,高精度預(yù)測伴隨的是迅速增大的網(wǎng)絡(luò)規(guī)模以及數(shù)據(jù)量,片上存儲不足以存放計算數(shù)據(jù)。如圖1.1所示,左圖為各型號主流FPGA的片上BRAM總存儲量,右圖為深度神經(jīng)網(wǎng)絡(luò)VGG對于存儲的需求。通過對比可以看出目前FPGA的片上存儲量不足以將需要計算的網(wǎng)絡(luò)數(shù)據(jù)存放于片上,需使用片下的存儲。這其中引入了對于片外存儲的訪問這一過程。圖1.1主流FPGA片上存儲量與深度神經(jīng)網(wǎng)絡(luò)(VGG[28])存儲需求的對比圖1.2深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]

人工智能


國防科技大學(xué)研究生院碩士學(xué)位論文第7頁第二章基礎(chǔ)知識及相關(guān)工作深度學(xué)習(xí)不斷完善,在現(xiàn)實中的應(yīng)用更加普遍,人們對其的性能要求越來越高。隨著深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)朝著更深更大的趨勢發(fā)展,其運算量與存儲量也隨之變大,對其提高能效比,合理利用存儲資源已成為設(shè)計實現(xiàn)加速器中必須關(guān)注與解決的問題。目前國際上的研究也是多方面的?偲饋碇v,減少存儲需求、提高計算能效的技術(shù)主要有以下幾點:(1)權(quán)值壓縮,包含權(quán)值修剪、量化、權(quán)值共享等技術(shù);(2)跳零計算,有節(jié)制地跳過或去除對計算沒有意義的零值;(3)權(quán)值重復(fù),基于權(quán)值量化共享,同組特征值累加后再與權(quán)值相乘,減少乘法操作;(4)數(shù)據(jù)流設(shè)計,最大化利用片上存儲級,讀取頻率較高的數(shù)據(jù)會存至離計算單元越近的存儲級,包含層內(nèi)與層間的數(shù)據(jù)流設(shè)計;(5)數(shù)據(jù)排布,通過改變多維度數(shù)據(jù)的存儲方式,提升局部性,利用訪存合并,減少存儲器的訪問量;(6)分塊技術(shù),充分發(fā)揮并行性,提高對資源的利用效率。下面將對這幾個方面進行詳細(xì)介紹。除上述課題相關(guān)的工作之外,為方便理解,本章也會對課題的基礎(chǔ)進行介紹,包括卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與計算特點、脈動陣列以及一種低精度的LeNet加速器。2.1深度學(xué)習(xí)概念及相關(guān)知識2.1.1深度學(xué)習(xí)概念圖2.1人工智能下的深度學(xué)習(xí)[34]深度學(xué)習(xí)是人工智能廣泛領(lǐng)域的一部分。人工智能是創(chuàng)造智能機器的科學(xué)和


本文編號:3061010

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3061010.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶097f7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com