深度學(xué)習(xí)加速器中存儲和計算優(yōu)化技術(shù)研究

發(fā)布時間：2021-03-03 09:11

　　深度卷積神經(jīng)網(wǎng)絡(luò)（DNNs）實現(xiàn)了高精度預(yù)測判定,在諸如語音識別、圖像識別和自然語言處理等方面得到了廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)存在計算密集和存儲密集的特點。雖然高度并行的設(shè)備有效地滿足了計算的需求,但能效仍然是一個需要解決的問題。在基礎(chǔ)工作階段,我們首先完成了一個包含三級存儲層次（網(wǎng)絡(luò)、片上緩存、片外存儲）的模擬框架,可以對多種加速器結(jié)構(gòu)進(jìn)行模擬,并評估比較不同網(wǎng)絡(luò)中對計算序列和數(shù)據(jù)布局的各種組合所產(chǎn)生性能功耗差異。之后,我們實現(xiàn)了一個脈動陣列結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)加速器,平衡I/O與計算速度,對卷積操作進(jìn)行并行計算。并對不同規(guī)模下的脈動陣列進(jìn)行了性能與功耗評估,對脈動陣列的可擴(kuò)展性進(jìn)行了分析。在此基礎(chǔ)上對加速器進(jìn)行了存儲以及計算上的優(yōu)化。在計算優(yōu)化方面,我們設(shè)計優(yōu)化PE結(jié)構(gòu)以實現(xiàn)權(quán)值重復(fù)優(yōu)化,并設(shè)計兩階段陣列流動,用來完成先累加后相乘的步驟。過程中減少乘法操作,降低了片上的計算功耗。同時,利用量化后的權(quán)值索引進(jìn)行流動,降低帶寬需求。在存儲優(yōu)化方面,我們提出兩個新的卷積計算模式:NHWC_fine和NHWC_coarse�；跈�(quán)值可緩存于片上這一事實,...

【文章來源】：國防科技大學(xué)湖南省 211工程院校 985工程院校

【文章頁數(shù)】：67 頁

【學(xué)位級別】：碩士

【部分圖文】：

深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]

對比圖,主流,能效

國防科技大學(xué)研究生院碩士學(xué)位論文第3頁及通用性帶來的限制，更多的人希望提供專用的深度神經(jīng)網(wǎng)絡(luò)計算加速。ASIC按照用戶要求或特定系統(tǒng)的需求而設(shè)計、制造的集成電路。ASIC具有面積孝能效高等優(yōu)勢。其總體上優(yōu)于其他三種硬件方案，但是其開發(fā)周期長，初始成本高昂等特點提高了進(jìn)行ASIC芯片開發(fā)的門檻。本課題中我們更加關(guān)注具有靈活架構(gòu)的FPGA。與GPU相比，基于FPGA的深度學(xué)習(xí)加速器由于其可編程專用性和出色的能效而受到越來越多的關(guān)注。GPU加速器的性能根據(jù)數(shù)據(jù)批量大小而不同，而FPGA加速器的性能對批量大小不敏感。研究表明，F(xiàn)PGA能效是GPU的10倍以上。此外，對于大多數(shù)情況，F(xiàn)PGA在滑動窗口應(yīng)用程序的基準(zhǔn)測試中提供比GPU更快的性能和更高的能效[49]。1.2研究意義1.2.1理論意義隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展，高精度預(yù)測伴隨的是迅速增大的網(wǎng)絡(luò)規(guī)模以及數(shù)據(jù)量，片上存儲不足以存放計算數(shù)據(jù)。如圖1.1所示，左圖為各型號主流FPGA的片上BRAM總存儲量，右圖為深度神經(jīng)網(wǎng)絡(luò)VGG對于存儲的需求。通過對比可以看出目前FPGA的片上存儲量不足以將需要計算的網(wǎng)絡(luò)數(shù)據(jù)存放于片上，需使用片下的存儲。這其中引入了對于片外存儲的訪問這一過程。圖1.1主流FPGA片上存儲量與深度神經(jīng)網(wǎng)絡(luò)（VGG[28]）存儲需求的對比圖1.2深度學(xué)習(xí)相關(guān)操作的能耗成本比較[29]

人工智能

國防科技大學(xué)研究生院碩士學(xué)位論文第7頁第二章基礎(chǔ)知識及相關(guān)工作深度學(xué)習(xí)不斷完善，在現(xiàn)實中的應(yīng)用更加普遍，人們對其的性能要求越來越高。隨著深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)朝著更深更大的趨勢發(fā)展，其運(yùn)算量與存儲量也隨之變大，對其提高能效比，合理利用存儲資源已成為設(shè)計實現(xiàn)加速器中必須關(guān)注與解決的問題。目前國際上的研究也是多方面的�？偲饋碇v，減少存儲需求、提高計算能效的技術(shù)主要有以下幾點：（1）權(quán)值壓縮，包含權(quán)值修剪、量化、權(quán)值共享等技術(shù)；（2）跳零計算，有節(jié)制地跳過或去除對計算沒有意義的零值；（3）權(quán)值重復(fù)，基于權(quán)值量化共享，同組特征值累加后再與權(quán)值相乘，減少乘法操作；（4）數(shù)據(jù)流設(shè)計，最大化利用片上存儲級，讀取頻率較高的數(shù)據(jù)會存至離計算單元越近的存儲級，包含層內(nèi)與層間的數(shù)據(jù)流設(shè)計；（5）數(shù)據(jù)排布，通過改變多維度數(shù)據(jù)的存儲方式，提升局部性，利用訪存合并，減少存儲器的訪問量；（6）分塊技術(shù)，充分發(fā)揮并行性，提高對資源的利用效率。下面將對這幾個方面進(jìn)行詳細(xì)介紹。除上述課題相關(guān)的工作之外，為方便理解，本章也會對課題的基礎(chǔ)進(jìn)行介紹，包括卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與計算特點、脈動陣列以及一種低精度的LeNet加速器。2.1深度學(xué)習(xí)概念及相關(guān)知識2.1.1深度學(xué)習(xí)概念圖2.1人工智能下的深度學(xué)習(xí)[34]深度學(xué)習(xí)是人工智能廣泛領(lǐng)域的一部分。人工智能是創(chuàng)造智能機(jī)器的科學(xué)和

本文編號：3061010

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3061010.html

上一篇：基于手機(jī)傳感器的群組識別及監(jiān)測方法研究
下一篇：3D打印機(jī)索驅(qū)動支撐系統(tǒng)的可重構(gòu)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度學(xué)習(xí)加速器中存儲和計算優(yōu)化技術(shù)研究