基于多機(jī)多卡的卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)化
本文關(guān)鍵詞:基于多機(jī)多卡的卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域的普及,神經(jīng)網(wǎng)絡(luò)參數(shù)的規(guī)模越來越大,訓(xùn)練的周期也越來越長,多GPU加速成了必然的硬件解決方案。為了最大化多GPU的硬件利用率,本文研究和實(shí)現(xiàn)了深度學(xué)習(xí)的GPU優(yōu)化策略,包括單機(jī)單卡和多機(jī)多卡方案。本文在單機(jī)單卡方面的主要工作與貢獻(xiàn)包括:單機(jī)單卡方面,本文詳細(xì)地介紹了神經(jīng)網(wǎng)絡(luò)常用結(jié)構(gòu)以及加速細(xì)節(jié),維護(hù)了名為"CUDA-CNN"的開源項(xiàng)目。該項(xiàng)目已經(jīng)支持包括卷積層,池化層,Softmax層,分支層,合并層,NIN層,Inception層以及多種數(shù)據(jù)擴(kuò)展方法等。此外,該項(xiàng)目在MNIST數(shù)據(jù)集上取得公開結(jié)果中最高的準(zhǔn)確率99.81%。本文在多機(jī)多卡方面的主要工作與貢獻(xiàn)包括:首先,主要研究如何提高系統(tǒng)的負(fù)載均衡能力以及減少并行開銷。通過實(shí)驗(yàn)證明,在單位時(shí)間內(nèi),每個(gè)GPU分別迭代fetchi次后,再將殘差和匯總到參數(shù)服務(wù)器,這種方法除了減少通信頻率之外,又能夠根據(jù)GPU的計(jì)算能力分配不同的規(guī)模的任務(wù),提高了系統(tǒng)的負(fù)載均衡能力。此外,本文引入了熱啟動(dòng)技術(shù),通過動(dòng)態(tài)的修改參數(shù)同步頻率,有效地提高了訓(xùn)練前期的收斂速度。其次,詳細(xì)設(shè)計(jì)了多機(jī)卡的任務(wù)調(diào)度器。首先,為了避免人為分析程序并行性所帶來的遺漏或者錯(cuò)誤風(fēng)險(xiǎn),本文沿用Purine中的二分圖技術(shù)。由于二分圖中包含了所有操作之間的數(shù)據(jù)依賴關(guān)系信息,調(diào)度器可以自動(dòng)分析任務(wù)的并行性,最大化異步操作:其次,為了減少并行開銷,本文在調(diào)度器中引入線程池和任務(wù)隊(duì)列,將使用同類型硬件的計(jì)算任務(wù)放在同一個(gè)線程池或者任務(wù)隊(duì)列中,有效地減少了線程的創(chuàng)建和銷毀頻率,減少由資源競爭引起的并行開銷。最后,通過引入CUDA的事件機(jī)制來支持調(diào)度器的同步操作。最后,實(shí)驗(yàn)表明,在單機(jī)多卡環(huán)境中, Npruine性能比Purine提高了23.7%,與此同時(shí),兩個(gè)計(jì)算能力不相同的GPU利用率都達(dá)到96%左右。此外,Purine在使用四個(gè)節(jié)點(diǎn)的集群上,性能不但沒有增加,反而僅是單個(gè)節(jié)點(diǎn)性能表現(xiàn)的47%。經(jīng)過優(yōu)化和改進(jìn),新架構(gòu)Npurine能夠在廉價(jià)網(wǎng)絡(luò)連接的集群上運(yùn)行,其性能是Purine的12.34倍。
【關(guān)鍵詞】:Purine 多機(jī)多卡 深度學(xué)習(xí) 負(fù)載均衡
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP183
【目錄】:
- 摘要5-6
- ABSTRACT6-14
- 第1章 緒論14-20
- 1.1 論文研究的背景和意義14-15
- 1.2 國內(nèi)外研究現(xiàn)狀15-17
- 1.3 本文研究內(nèi)容17
- 1.4 論文的組織結(jié)構(gòu)17-20
- 第2章 卷積神經(jīng)網(wǎng)絡(luò)20-34
- 2.1 神經(jīng)網(wǎng)絡(luò)構(gòu)成要素20-22
- 2.1.1 激活函數(shù)20-21
- 2.1.2 代價(jià)函數(shù)21-22
- 2.1.3 神經(jīng)元連接方式22
- 2.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)22-30
- 2.2.1 卷積層22-23
- 2.2.2 池化層23-24
- 2.2.3 Softmax回歸層24-25
- 2.2.4 NIN層25-26
- 2.2.5 Dropout層26-27
- 2.2.6 Inception層27-29
- 2.2.7 批量歸一化層29-30
- 2.3 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練30-33
- 2.3.1 逐層反向傳導(dǎo)30-31
- 2.3.2 動(dòng)量31-32
- 2.3.3 圖像數(shù)據(jù)擴(kuò)展32-33
- 2.4 本章小結(jié)33-34
- 第3章 GPU體系結(jié)構(gòu)及編程34-42
- 3.1 GPU體系結(jié)構(gòu)和CUDA程序設(shè)計(jì)34-37
- 3.1.1 NVIDIA GPU架構(gòu)綜述34
- 3.1.2 線程調(diào)度34-35
- 3.1.3 CUDA內(nèi)存存儲(chǔ)結(jié)構(gòu)35-37
- 3.2 流與事件37-39
- 3.3 GPGPU的編程原則39
- 3.4 輔助分析工具39-41
- 3.5 英偉達(dá)cuDNN深度學(xué)習(xí)庫41
- 3.6 本章小結(jié)41-42
- 第4章 單機(jī)單卡性能優(yōu)化42-58
- 4.1 數(shù)據(jù)集擴(kuò)展優(yōu)化42-45
- 4.2 卷積層性能優(yōu)化45-48
- 4.2.1 將卷積運(yùn)算轉(zhuǎn)化成矩陣乘法運(yùn)算45-46
- 4.2.2 轉(zhuǎn)化成快速傅里葉變換46-47
- 4.2.3 使用cudnn進(jìn)行優(yōu)化47-48
- 4.3 池化層優(yōu)化48
- 4.4 Softmax層優(yōu)化48-50
- 4.5 分支與合并層50-51
- 4.6 激活函數(shù)51-52
- 4.7 代價(jià)函數(shù)52
- 4.8 實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)52-56
- 4.8.1 識別準(zhǔn)確率53-55
- 4.8.2 性能分析55-56
- 4.9 本章小結(jié)56-58
- 第5章 多機(jī)多卡性能優(yōu)化58-76
- 5.1 依賴庫58
- 5.2 并行方案58-59
- 5.3 數(shù)據(jù)并行方案分析與設(shè)計(jì)59-65
- 5.3.1 Purine數(shù)據(jù)并行架構(gòu)簡介59-60
- 5.3.2 減少參數(shù)同步的頻率60-63
- 5.3.3 負(fù)載均衡63-64
- 5.3.4 熱啟動(dòng)訓(xùn)練方法64-65
- 5.4 任務(wù)調(diào)度器模塊65-71
- 5.4.1 二分圖抽象65-67
- 5.4.2 自動(dòng)并行性分析67-68
- 5.4.3 減少并行開銷68-70
- 5.4.4 任務(wù)同步機(jī)制70-71
- 5.5 迭代訓(xùn)練71-72
- 5.6 實(shí)驗(yàn)與驗(yàn)證72-75
- 5.6.1 單機(jī)多卡73-75
- 5.6.2 多機(jī)多卡75
- 5.7 本章小結(jié)75-76
- 第6章 總結(jié)與展望76-78
- 6.1 論文工作總結(jié)76-77
- 6.2 論文工作展望77-78
- 參考文獻(xiàn)78-84
- 致謝84-86
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果86
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 云中客;新的神經(jīng)網(wǎng)絡(luò)來自于仿生學(xué)[J];物理;2001年10期
2 唐春明,高協(xié)平;進(jìn)化神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J];系統(tǒng)工程與電子技術(shù);2001年10期
3 李智;一種基于神經(jīng)網(wǎng)絡(luò)的煤炭調(diào)運(yùn)優(yōu)化方法[J];長沙鐵道學(xué)院學(xué)報(bào);2003年02期
4 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期
5 王凡,孟立凡;關(guān)于使用神經(jīng)網(wǎng)絡(luò)推定操作者疲勞的研究[J];人類工效學(xué);2004年03期
6 周麗暉;從統(tǒng)計(jì)角度看神經(jīng)網(wǎng)絡(luò)[J];統(tǒng)計(jì)教育;2005年06期
7 趙奇 ,劉開第 ,龐彥軍;灰色補(bǔ)償神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];微計(jì)算機(jī)信息;2005年14期
8 袁婷;;神經(jīng)網(wǎng)絡(luò)在股票市場預(yù)測中的應(yīng)用[J];軟件導(dǎo)刊;2006年05期
9 尚晉;楊有;;從神經(jīng)網(wǎng)絡(luò)的過去談科學(xué)發(fā)展觀[J];重慶三峽學(xué)院學(xué)報(bào);2006年03期
10 楊鐘瑾;;神經(jīng)網(wǎng)絡(luò)的過去、現(xiàn)在和將來[J];青年探索;2006年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年
2 周樹德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡(luò)[A];2003年中國智能自動(dòng)化會(huì)議論文集(上冊)[C];2003年
3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡(luò)和簡單規(guī)劃的識別融合算法[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年
4 郭愛克;馬盡文;丁康;;序言(二)[A];1999年中國神經(jīng)網(wǎng)絡(luò)與信號處理學(xué)術(shù)會(huì)議論文集[C];1999年
5 鐘義信;;知識論:神經(jīng)網(wǎng)絡(luò)的新機(jī)遇——紀(jì)念中國神經(jīng)網(wǎng)絡(luò)10周年[A];1999年中國神經(jīng)網(wǎng)絡(luò)與信號處理學(xué)術(shù)會(huì)議論文集[C];1999年
6 許進(jìn);保錚;;神經(jīng)網(wǎng)絡(luò)與圖論[A];1999年中國神經(jīng)網(wǎng)絡(luò)與信號處理學(xué)術(shù)會(huì)議論文集[C];1999年
7 金龍;朱詩武;趙成志;陳寧;;數(shù)值預(yù)報(bào)產(chǎn)品的神經(jīng)網(wǎng)絡(luò)釋用預(yù)報(bào)應(yīng)用[A];1999年中國神經(jīng)網(wǎng)絡(luò)與信號處理學(xué)術(shù)會(huì)議論文集[C];1999年
8 田金亭;;神經(jīng)網(wǎng)絡(luò)在中學(xué)生創(chuàng)造力評估中的應(yīng)用[A];第十二屆全國心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2009年
9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡(luò)的混沌特性研究[A];2009年中國智能自動(dòng)化會(huì)議論文集(第七分冊)[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年
10 張廣遠(yuǎn);萬強(qiáng);曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷方法研究[A];第十二屆全國設(shè)備故障診斷學(xué)術(shù)會(huì)議論文集[C];2010年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 美國明尼蘇達(dá)大學(xué)社會(huì)學(xué)博士 密西西比州立大學(xué)國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護(hù)好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國教師報(bào);2014年
2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計(jì)算機(jī)世界;2001年
3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國紡織報(bào);2003年
4 中國科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年
5 記者 孫剛;“神經(jīng)網(wǎng)絡(luò)”:打開復(fù)雜工藝“黑箱”[N];解放日報(bào);2007年
6 本報(bào)記者 劉霞;美用DNA制造出首個(gè)人造神經(jīng)網(wǎng)絡(luò)[N];科技日報(bào);2011年
7 健康時(shí)報(bào)特約記者 張獻(xiàn)懷;干細(xì)胞移植:修復(fù)受損的神經(jīng)網(wǎng)絡(luò)[N];健康時(shí)報(bào);2006年
8 劉力;我半導(dǎo)體神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用研究達(dá)國際先進(jìn)水平[N];中國電子報(bào);2001年
9 ;神經(jīng)網(wǎng)絡(luò)和模糊邏輯[N];世界金屬導(dǎo)報(bào);2002年
10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡(luò)應(yīng)用研究通過鑒定[N];中國船舶報(bào);2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊旭華;神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用研究[D];浙江大學(xué);2004年
2 李素芳;基于神經(jīng)網(wǎng)絡(luò)的無線通信算法研究[D];山東大學(xué);2015年
3 石艷超;憶阻神經(jīng)網(wǎng)絡(luò)的混沌性及幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)的同步研究[D];電子科技大學(xué);2014年
4 王新迎;基于隨機(jī)映射神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測方法研究[D];大連理工大學(xué);2015年
5 付愛民;極速學(xué)習(xí)機(jī)的訓(xùn)練殘差、穩(wěn)定性及泛化能力研究[D];中國農(nóng)業(yè)大學(xué);2015年
6 李輝;基于粒計(jì)算的神經(jīng)網(wǎng)絡(luò)及集成方法研究[D];中國礦業(yè)大學(xué);2015年
7 王衛(wèi)蘋;復(fù)雜網(wǎng)絡(luò)幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學(xué);2015年
8 張海軍;基于云計(jì)算的神經(jīng)網(wǎng)絡(luò)并行實(shí)現(xiàn)及其學(xué)習(xí)方法研究[D];華南理工大學(xué);2015年
9 李艷晴;風(fēng)速時(shí)間序列預(yù)測算法研究[D];北京科技大學(xué);2016年
10 陳輝;多維超精密定位系統(tǒng)建模與控制關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡(luò)與高校效益預(yù)測的研究[D];華南理工大學(xué);2015年
2 賈文靜;基于改進(jìn)型神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電系統(tǒng)預(yù)測及控制研究[D];燕山大學(xué);2015年
3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學(xué);2015年
4 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年
5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡(luò)研究[D];西南大學(xué);2015年
6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[D];昆明理工大學(xué);2015年
7 李志杰;基于神經(jīng)網(wǎng)絡(luò)的上證指數(shù)預(yù)測研究[D];華南理工大學(xué);2015年
8 陳少吉;基于神經(jīng)網(wǎng)絡(luò)血壓預(yù)測研究與系統(tǒng)實(shí)現(xiàn)[D];華南理工大學(xué);2015年
9 張韜;幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];渤海大學(xué);2015年
10 邵雪瑩;幾類時(shí)滯不確定神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[D];渤海大學(xué);2015年
本文關(guān)鍵詞:基于多機(jī)多卡的卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號:450653
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/450653.html