天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

深度學(xué)習(xí)中深度問(wèn)題與大模型問(wèn)題的研究

發(fā)布時(shí)間:2020-10-02 06:41
   近些年來(lái),特別是2006年之后,深度神經(jīng)網(wǎng)絡(luò)(又被稱(chēng)為深度學(xué)習(xí))迅速發(fā)展,在各個(gè)應(yīng)用領(lǐng)域都取得了巨大的成功。從根本上講,神經(jīng)網(wǎng)絡(luò)其實(shí)并不是一個(gè)全新的技術(shù),它的很多模型和訓(xùn)練方法在20世紀(jì)90年代已經(jīng)成型。但是,在當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)并沒(méi)有像如今一樣被廣泛且成功地應(yīng)用。究其本質(zhì)原因,2006年之后的深度神經(jīng)網(wǎng)絡(luò)取得的巨大成功離不開(kāi)越來(lái)越多的層數(shù)(即深度)和越來(lái)越大的參數(shù)規(guī)模(即大模型)。為了有效地增加層數(shù),諸如自動(dòng)編碼、批歸一化、殘差網(wǎng)絡(luò)等技術(shù)被提出;為了高效地訓(xùn)練大模型,諸如數(shù)據(jù)并行、模型并行等并行訓(xùn)練框架被引入。盡管關(guān)于深度學(xué)習(xí)的研究十分繁榮,但是下述關(guān)于深度和大模型并行訓(xùn)練的問(wèn)題還需進(jìn)一步探索。第一,在深度方面,盡管有多種技術(shù)可以有效地增加神經(jīng)網(wǎng)絡(luò)的層數(shù),然而一個(gè)重要的問(wèn)題是如何從理論層面理解深度對(duì)于深度神經(jīng)網(wǎng)絡(luò)的利弊。第二,在大模型的訓(xùn)練方面,大多數(shù)并行算法都是從凸模型繼承而來(lái)的。然而,深度神經(jīng)網(wǎng)絡(luò)是一個(gè)高度非凸模型。如何解決并行訓(xùn)練時(shí)模型非凸性帶來(lái)的問(wèn)題是一個(gè)重要的挑戰(zhàn)。第三,與淺層模型相比,深度神經(jīng)網(wǎng)絡(luò)中的冗余參數(shù)非常多,這會(huì)導(dǎo)致并行訓(xùn)練時(shí)的傳輸代價(jià)非常高。因此,如何解決并行訓(xùn)練時(shí)參數(shù)冗余性帶來(lái)的問(wèn)題也是一個(gè)重要的挑戰(zhàn)。為了解決上述問(wèn)題,本文進(jìn)行了如下幾個(gè)方面的探索。第一,給出了深度神經(jīng)網(wǎng)絡(luò)模型空間容量和表達(dá)能力的通用上界,并基于這兩個(gè)上界分析了深度對(duì)于神經(jīng)網(wǎng)絡(luò)的利弊,進(jìn)而提出最大化間隔的方法來(lái)進(jìn)一步提升深度神經(jīng)網(wǎng)絡(luò)的性能。第二,指出了非凸性會(huì)影響并行訓(xùn)練時(shí)模型整合步驟的性能,并提出了使用模型集成作為新的模型整合方式,進(jìn)而設(shè)計(jì)了基于模型集成的并行訓(xùn)練框架來(lái)提高并行訓(xùn)練的性能。第三,提出了將基于輕量級(jí)傳輸?shù)牟⑿杏?xùn)練定義為一個(gè)多智能體系統(tǒng),并給出了對(duì)于行為、環(huán)境及效用的具體定義;谶@個(gè)多智能體系統(tǒng),設(shè)計(jì)了僅傳輸非冗余參數(shù)(或梯度)的策略來(lái)減小交互代價(jià),從而達(dá)到了加速并行訓(xùn)練的目的。
【學(xué)位單位】:南開(kāi)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類(lèi)】:TP18
【文章目錄】:
摘要
abstract
第一章 緒論
    第一節(jié) 研究背景與挑戰(zhàn)
    第二節(jié) 研究?jī)?nèi)容與創(chuàng)新點(diǎn)
    第三節(jié) 文章組織結(jié)構(gòu)
第二章 背景知識(shí)
    第一節(jié) 深度學(xué)習(xí)簡(jiǎn)介
        2.1.1 深度神經(jīng)網(wǎng)絡(luò)模型
        2.1.2 優(yōu)化方法
    第二節(jié) 深度學(xué)習(xí)的泛化理論
        2.2.1 基本定義
        2.2.2 研究方向簡(jiǎn)介
        2.2.3 與深度學(xué)習(xí)其他理論性質(zhì)的關(guān)系
    第三節(jié) 深度學(xué)習(xí)的并行機(jī)制
        2.3.1 數(shù)據(jù)并行
        2.3.2 模型并行
    第四節(jié) 本章小結(jié)
第三章 深度神經(jīng)網(wǎng)絡(luò)中深度問(wèn)題的思辨
    第一節(jié) 研究必要性與本章貢獻(xiàn)
    第二節(jié) 相關(guān)工作
        3.2.1 模型空間容量的度量
        3.2.2 經(jīng)驗(yàn)誤差的度量
        3.2.3 與本章工作的關(guān)系
    第三節(jié) 深度神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表示
    第四節(jié) 深度對(duì)于深度神經(jīng)網(wǎng)絡(luò)的意義
        3.4.1 基于間隔的泛化誤差上界
        3.4.2 深度和模型空間容量的關(guān)系
        3.4.3 深度和基于間隔的經(jīng)驗(yàn)誤差的關(guān)系
        3.4.4 深度和泛化誤差的關(guān)系
    第五節(jié) 基于間隔最大化的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
        3.5.1 算法描述
        3.5.2 實(shí)驗(yàn)設(shè)置
        3.5.3 實(shí)驗(yàn)結(jié)果
    第六節(jié) 本章小結(jié)
第四章 基于模型集成的大模型訓(xùn)練
    第一節(jié) 研究必要性與本章貢獻(xiàn)
    第二節(jié) 相關(guān)工作
        4.2.1 模型整合方法的改進(jìn)
        4.2.2 模型壓縮方法
        4.2.3 與本章工作的關(guān)系
    第三節(jié) 模型整合
        4.3.1 參數(shù)平均
        4.3.2 模型集成
    第四節(jié) EC-DNN的基本算法
        4.4.1 算法框架描述
        4.4.2 與傳統(tǒng)模型集成方法的關(guān)系
    第五節(jié) EC-DNN的具體實(shí)現(xiàn)
        4.5.1 模型多樣化驅(qū)動(dòng)的局部模型訓(xùn)練
        4.5.2 加速化的基于模仿機(jī)制的模型壓縮
        4.5.3 時(shí)間復(fù)雜度分析
    第六節(jié) 實(shí)驗(yàn)設(shè)置
        4.6.1 平臺(tái)、數(shù)據(jù)、模型及超參數(shù)設(shè)置
        4.6.2 待比較的相關(guān)方法
    第七節(jié) 實(shí)驗(yàn)結(jié)果
        4.7.1 模型整合的效果
        4.7.2 模型壓縮的效果
        4.7.3 EC-DNN和MA-DNN的比較
        4.7.4 EC-DNN和E-DNN的比較
        4.7.5 在超大規(guī)模數(shù)據(jù)集上的結(jié)果
        4.7.6 關(guān)于EC-DNN的更多討論
    第八節(jié) 本章小結(jié)
第五章 基于輕量級(jí)傳輸?shù)拇竽P陀?xùn)練
    第一節(jié) 研究必要性與本章貢獻(xiàn)
    第二節(jié) 相關(guān)工作
        5.2.1 減少交互代價(jià)的方法
        5.2.2 多智能體系統(tǒng)簡(jiǎn)介
        5.2.3 與本章工作的關(guān)系
    第三節(jié) 輕量級(jí)傳輸?shù)牟⑿袡C(jī)制與多智能體系統(tǒng)
        5.3.1 行為、環(huán)境及效用的定義
        5.3.2 最適反應(yīng)策略
    第四節(jié) Slim-DP的基本算法
        5.4.1 算法描述
        5.4.2 交互效率
        5.4.3 時(shí)間復(fù)雜度
        5.4.4 關(guān)于Slim-DP的更多討論
    第五節(jié) 實(shí)驗(yàn)設(shè)置
        5.5.1 平臺(tái)、數(shù)據(jù)、模型及超參數(shù)設(shè)置
        5.5.2 待比較的相關(guān)方法
    第六節(jié) 實(shí)驗(yàn)結(jié)果
        5.6.1 交互代價(jià)
        5.6.2 速度
        5.6.3 準(zhǔn)確率
        5.6.4 探索和開(kāi)發(fā)的權(quán)衡
        5.6.5 準(zhǔn)確率和速度的權(quán)衡
    第七節(jié) 本章小結(jié)
第六章 總結(jié)及展望
    第一節(jié) 本文工作總結(jié)
    第二節(jié) 未來(lái)工作展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡悅;;金融市場(chǎng)中的神經(jīng)網(wǎng)絡(luò)拐點(diǎn)預(yù)測(cè)法[J];金融經(jīng)濟(jì);2017年18期

2 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會(huì)述評(píng)[J];國(guó)際學(xué)術(shù)動(dòng)態(tài);1996年01期

3 王方;苗放;陳墾;;基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的地質(zhì)災(zāi)害監(jiān)測(cè)預(yù)警仿真[J];計(jì)算機(jī)仿真;2019年11期

4 馬猛;王明紅;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的304不銹鋼車(chē)削加工表面粗糙度預(yù)測(cè)[J];輕工機(jī)械;2019年06期

5 莊連生;呂揚(yáng);楊健;李厚強(qiáng);;時(shí)頻聯(lián)合長(zhǎng)時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)[J];計(jì)算機(jī)研究與發(fā)展;2019年12期

6 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識(shí)別[J];通訊世界;2018年12期

7 林嘉應(yīng);鄭柏倫;劉捷;;基于卷積神經(jīng)網(wǎng)絡(luò)的船舶分類(lèi)模型[J];信息技術(shù)與信息化;2019年02期

8 俞頌華;;卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展與應(yīng)用綜述[J];信息通信;2019年02期

9 韓真;凱文·哈特尼特;;為神經(jīng)網(wǎng)絡(luò)的通用理論建造基石[J];世界科學(xué);2019年04期

10 鮑偉強(qiáng);陳娟;熊濤;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的短期電力負(fù)荷預(yù)測(cè)研究[J];電工技術(shù);2019年11期

相關(guān)會(huì)議論文 前10條

1 孫軍田;張U

本文編號(hào):2832059


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2832059.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)e15f3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com