深度學(xué)習(xí)中深度問(wèn)題與大模型問(wèn)題的研究
【學(xué)位單位】:南開(kāi)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類(lèi)】:TP18
【文章目錄】:
摘要
abstract
第一章 緒論
第一節(jié) 研究背景與挑戰(zhàn)
第二節(jié) 研究?jī)?nèi)容與創(chuàng)新點(diǎn)
第三節(jié) 文章組織結(jié)構(gòu)
第二章 背景知識(shí)
第一節(jié) 深度學(xué)習(xí)簡(jiǎn)介
2.1.1 深度神經(jīng)網(wǎng)絡(luò)模型
2.1.2 優(yōu)化方法
第二節(jié) 深度學(xué)習(xí)的泛化理論
2.2.1 基本定義
2.2.2 研究方向簡(jiǎn)介
2.2.3 與深度學(xué)習(xí)其他理論性質(zhì)的關(guān)系
第三節(jié) 深度學(xué)習(xí)的并行機(jī)制
2.3.1 數(shù)據(jù)并行
2.3.2 模型并行
第四節(jié) 本章小結(jié)
第三章 深度神經(jīng)網(wǎng)絡(luò)中深度問(wèn)題的思辨
第一節(jié) 研究必要性與本章貢獻(xiàn)
第二節(jié) 相關(guān)工作
3.2.1 模型空間容量的度量
3.2.2 經(jīng)驗(yàn)誤差的度量
3.2.3 與本章工作的關(guān)系
第三節(jié) 深度神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表示
第四節(jié) 深度對(duì)于深度神經(jīng)網(wǎng)絡(luò)的意義
3.4.1 基于間隔的泛化誤差上界
3.4.2 深度和模型空間容量的關(guān)系
3.4.3 深度和基于間隔的經(jīng)驗(yàn)誤差的關(guān)系
3.4.4 深度和泛化誤差的關(guān)系
第五節(jié) 基于間隔最大化的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
3.5.1 算法描述
3.5.2 實(shí)驗(yàn)設(shè)置
3.5.3 實(shí)驗(yàn)結(jié)果
第六節(jié) 本章小結(jié)
第四章 基于模型集成的大模型訓(xùn)練
第一節(jié) 研究必要性與本章貢獻(xiàn)
第二節(jié) 相關(guān)工作
4.2.1 模型整合方法的改進(jìn)
4.2.2 模型壓縮方法
4.2.3 與本章工作的關(guān)系
第三節(jié) 模型整合
4.3.1 參數(shù)平均
4.3.2 模型集成
第四節(jié) EC-DNN的基本算法
4.4.1 算法框架描述
4.4.2 與傳統(tǒng)模型集成方法的關(guān)系
第五節(jié) EC-DNN的具體實(shí)現(xiàn)
4.5.1 模型多樣化驅(qū)動(dòng)的局部模型訓(xùn)練
4.5.2 加速化的基于模仿機(jī)制的模型壓縮
4.5.3 時(shí)間復(fù)雜度分析
第六節(jié) 實(shí)驗(yàn)設(shè)置
4.6.1 平臺(tái)、數(shù)據(jù)、模型及超參數(shù)設(shè)置
4.6.2 待比較的相關(guān)方法
第七節(jié) 實(shí)驗(yàn)結(jié)果
4.7.1 模型整合的效果
4.7.2 模型壓縮的效果
4.7.3 EC-DNN和MA-DNN的比較
4.7.4 EC-DNN和E-DNN的比較
4.7.5 在超大規(guī)模數(shù)據(jù)集上的結(jié)果
4.7.6 關(guān)于EC-DNN的更多討論
第八節(jié) 本章小結(jié)
第五章 基于輕量級(jí)傳輸?shù)拇竽P陀?xùn)練
第一節(jié) 研究必要性與本章貢獻(xiàn)
第二節(jié) 相關(guān)工作
5.2.1 減少交互代價(jià)的方法
5.2.2 多智能體系統(tǒng)簡(jiǎn)介
5.2.3 與本章工作的關(guān)系
第三節(jié) 輕量級(jí)傳輸?shù)牟⑿袡C(jī)制與多智能體系統(tǒng)
5.3.1 行為、環(huán)境及效用的定義
5.3.2 最適反應(yīng)策略
第四節(jié) Slim-DP的基本算法
5.4.1 算法描述
5.4.2 交互效率
5.4.3 時(shí)間復(fù)雜度
5.4.4 關(guān)于Slim-DP的更多討論
第五節(jié) 實(shí)驗(yàn)設(shè)置
5.5.1 平臺(tái)、數(shù)據(jù)、模型及超參數(shù)設(shè)置
5.5.2 待比較的相關(guān)方法
第六節(jié) 實(shí)驗(yàn)結(jié)果
5.6.1 交互代價(jià)
5.6.2 速度
5.6.3 準(zhǔn)確率
5.6.4 探索和開(kāi)發(fā)的權(quán)衡
5.6.5 準(zhǔn)確率和速度的權(quán)衡
第七節(jié) 本章小結(jié)
第六章 總結(jié)及展望
第一節(jié) 本文工作總結(jié)
第二節(jié) 未來(lái)工作展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡悅;;金融市場(chǎng)中的神經(jīng)網(wǎng)絡(luò)拐點(diǎn)預(yù)測(cè)法[J];金融經(jīng)濟(jì);2017年18期
2 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會(huì)述評(píng)[J];國(guó)際學(xué)術(shù)動(dòng)態(tài);1996年01期
3 王方;苗放;陳墾;;基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的地質(zhì)災(zāi)害監(jiān)測(cè)預(yù)警仿真[J];計(jì)算機(jī)仿真;2019年11期
4 馬猛;王明紅;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的304不銹鋼車(chē)削加工表面粗糙度預(yù)測(cè)[J];輕工機(jī)械;2019年06期
5 莊連生;呂揚(yáng);楊健;李厚強(qiáng);;時(shí)頻聯(lián)合長(zhǎng)時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)[J];計(jì)算機(jī)研究與發(fā)展;2019年12期
6 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識(shí)別[J];通訊世界;2018年12期
7 林嘉應(yīng);鄭柏倫;劉捷;;基于卷積神經(jīng)網(wǎng)絡(luò)的船舶分類(lèi)模型[J];信息技術(shù)與信息化;2019年02期
8 俞頌華;;卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展與應(yīng)用綜述[J];信息通信;2019年02期
9 韓真;凱文·哈特尼特;;為神經(jīng)網(wǎng)絡(luò)的通用理論建造基石[J];世界科學(xué);2019年04期
10 鮑偉強(qiáng);陳娟;熊濤;;基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的短期電力負(fù)荷預(yù)測(cè)研究[J];電工技術(shù);2019年11期
相關(guān)會(huì)議論文 前10條
1 孫軍田;張U
本文編號(hào):2832059
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2832059.html