動量梯度下降法的收斂性
發(fā)布時間:2021-09-25 03:28
從1943年神經(jīng)元模型的提出到如今深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)已經(jīng)經(jīng)過了 70余年的發(fā)展,而神經(jīng)網(wǎng)絡(luò)也開始對人類生活產(chǎn)生越來越重要的影響,目前神經(jīng)網(wǎng)絡(luò)技術(shù)已被用于各種領(lǐng)域,比如計算機(jī)視覺、自然語言處理、語音識別、生物醫(yī)學(xué)以及機(jī)器人控制等等,并且在各領(lǐng)域內(nèi)也取得了一定的成功,然而目前關(guān)于神經(jīng)網(wǎng)絡(luò)的理論分析卻并不多,本文基于此對用于神經(jīng)網(wǎng)絡(luò)的帶動量項的反向傳播算法的收斂性進(jìn)行了理論分析,本文中所考慮的是一個三層的前饋神經(jīng)網(wǎng)絡(luò)模型,在該模型中,它的學(xué)習(xí)率是被設(shè)置為一個常數(shù),而動量系數(shù)則被設(shè)置為一個適應(yīng)性的變量,用來加速及穩(wěn)定網(wǎng)絡(luò)參數(shù)的訓(xùn)練過程,本文給出了其相應(yīng)的收斂性結(jié)果,并且對給出的結(jié)論進(jìn)行了詳細(xì)地證明,此外,本文還做了兩個實驗,實驗結(jié)果進(jìn)一步地驗證了本文結(jié)果的正確性;相比于目前已有的結(jié)果,本文的結(jié)論更具一般性,因為本文所考慮的網(wǎng)絡(luò)輸出層可以具有任意個數(shù)的神經(jīng)元并且偏置項也被考慮在內(nèi)。
【文章來源】:華東理工大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1神經(jīng)元模型??Fig.2.1?Neuron?model??
第8頁?華東理工大學(xué)碩士學(xué)位論文??f(x)?=?max{?.x;0)?-h?l?x?mni(?x,0)?jf??z??z?'??-i???-0.5-?■*??-1--??圖2.6又=1/3的LeakyReLu函數(shù)圖像??Fig.2.6?Image?of?LeakeReLu?function?which?A?=?1/3??2.1.2感知機(jī)??感知機(jī)是使最早的一種監(jiān)督式學(xué)習(xí)算法模型,是用于進(jìn)行線性分類的一種模型,它??是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基矗如圖3.1所示,感知機(jī)只有兩層神經(jīng)元,一層是輸入層,??用于接收外界的信號輸入,一層為輸出層,輸入層的輸入與連接權(quán)重進(jìn)行線性組合后再??加上閾值所得到的值會由激活函數(shù)進(jìn)行處理,輸出層就輸出處理過后的值,利用感知機(jī)??我們可以十分輕松地實現(xiàn)一些邏輯運算,比如與、或、非邏輯運算,假設(shè)激活函數(shù)/為??如圖3.2所不的符號函數(shù),貝。剩??(1):實現(xiàn)“與”邏輯運算(x,?ax2?):令%?=?w2?=?0.5,=?1,那么輸出層的輸??出為少=3811(0.5.11+0.5.12-1),很容易驗證當(dāng)且僅當(dāng);(:1=12=1時,}?=?1;??(2):實現(xiàn)“或”邏輯運算(AV&):令%?=w2?=0.5,?0?=?0.5,那么輸出層的??輸出為^sgnCO.S.A+O.S.x〗—0.5),很容易驗證當(dāng)且僅當(dāng)々=々=0時,少=0;??(3)???實現(xiàn)“非”邏輯運算(飛):令%=0.5,w2=0,沒=1,那么輸出層的輸??出為1),很容易驗證當(dāng)x,?=1時,少=0,而當(dāng)々=0時,少=1;??這三種情況都只是比較簡單的邏輯運算,而對于更為一般的問題來說,假設(shè)給定的??訓(xùn)練數(shù)據(jù)集為
第10頁?華東理工大學(xué)碩士學(xué)位論文??暑暴??(a)單隱層前饋網(wǎng)絡(luò)?(b)雙隱層前饋網(wǎng)絡(luò)??圖2.8多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??Fig.2.8?Multi-layer?feedforward?neural?network?structure?diagram??2.2反向傳播算法??由2.1節(jié)可知,由于單層感知機(jī)的解決問題的局限性,我們需要考慮使用多層網(wǎng)絡(luò),??然而多層網(wǎng)絡(luò)尤其是深層網(wǎng)絡(luò),它們的學(xué)習(xí)能力雖然很強,但是如何來對對層網(wǎng)絡(luò)進(jìn)行??有效地訓(xùn)練則是一個非常重要的問題,學(xué)習(xí)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)需要強大的算法,反向傳??播算法(Error?Back-propagation?Algorithm,簡稱BP算法)可以說是目前應(yīng)用最多最為??成功的神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)算法,它主要是建立在梯度下降法的基礎(chǔ)上的,它的主要工作??步驟如下:??1):首先神經(jīng)網(wǎng)絡(luò)的前向傳播過程,即把訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,然??后再傳入到隱藏層,之后再一層一層往后傳直至到網(wǎng)絡(luò)的輸出層得到網(wǎng)絡(luò)的輸出;??2):在得到神經(jīng)網(wǎng)絡(luò)的輸出后,我們可以將其與訓(xùn)練數(shù)據(jù)集中的真實結(jié)果進(jìn)行比較,??計算出網(wǎng)絡(luò)輸出值與實際值之間的誤差,然后將誤差從輸出層開始不斷往前傳播,直至??傳播得到輸出層,得到每一層的誤差;??3):在第二步中,將誤差不斷往前傳播的同時根據(jù)誤差計算出損失函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)??重參數(shù)以及閾值的梯度,并根據(jù)梯度下降法對網(wǎng)絡(luò)的權(quán)重參數(shù)以及閾值進(jìn)行更新;??4):不斷地重復(fù)前面的三個步驟來對網(wǎng)絡(luò)中的權(quán)重參數(shù)以及閾值進(jìn)行更新,直至參??數(shù)收斂;??由上可知,反向傳播算法的主要思想其實并不復(fù)雜,在下面,本文將對反向傳播進(jìn)??行公式推導(dǎo),給出權(quán)重參數(shù)以及閾
本文編號:3408998
【文章來源】:華東理工大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1神經(jīng)元模型??Fig.2.1?Neuron?model??
第8頁?華東理工大學(xué)碩士學(xué)位論文??f(x)?=?max{?.x;0)?-h?l?x?mni(?x,0)?jf??z??z?'??-i???-0.5-?■*??-1--??圖2.6又=1/3的LeakyReLu函數(shù)圖像??Fig.2.6?Image?of?LeakeReLu?function?which?A?=?1/3??2.1.2感知機(jī)??感知機(jī)是使最早的一種監(jiān)督式學(xué)習(xí)算法模型,是用于進(jìn)行線性分類的一種模型,它??是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基矗如圖3.1所示,感知機(jī)只有兩層神經(jīng)元,一層是輸入層,??用于接收外界的信號輸入,一層為輸出層,輸入層的輸入與連接權(quán)重進(jìn)行線性組合后再??加上閾值所得到的值會由激活函數(shù)進(jìn)行處理,輸出層就輸出處理過后的值,利用感知機(jī)??我們可以十分輕松地實現(xiàn)一些邏輯運算,比如與、或、非邏輯運算,假設(shè)激活函數(shù)/為??如圖3.2所不的符號函數(shù),貝。剩??(1):實現(xiàn)“與”邏輯運算(x,?ax2?):令%?=?w2?=?0.5,=?1,那么輸出層的輸??出為少=3811(0.5.11+0.5.12-1),很容易驗證當(dāng)且僅當(dāng);(:1=12=1時,}?=?1;??(2):實現(xiàn)“或”邏輯運算(AV&):令%?=w2?=0.5,?0?=?0.5,那么輸出層的??輸出為^sgnCO.S.A+O.S.x〗—0.5),很容易驗證當(dāng)且僅當(dāng)々=々=0時,少=0;??(3)???實現(xiàn)“非”邏輯運算(飛):令%=0.5,w2=0,沒=1,那么輸出層的輸??出為1),很容易驗證當(dāng)x,?=1時,少=0,而當(dāng)々=0時,少=1;??這三種情況都只是比較簡單的邏輯運算,而對于更為一般的問題來說,假設(shè)給定的??訓(xùn)練數(shù)據(jù)集為
第10頁?華東理工大學(xué)碩士學(xué)位論文??暑暴??(a)單隱層前饋網(wǎng)絡(luò)?(b)雙隱層前饋網(wǎng)絡(luò)??圖2.8多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??Fig.2.8?Multi-layer?feedforward?neural?network?structure?diagram??2.2反向傳播算法??由2.1節(jié)可知,由于單層感知機(jī)的解決問題的局限性,我們需要考慮使用多層網(wǎng)絡(luò),??然而多層網(wǎng)絡(luò)尤其是深層網(wǎng)絡(luò),它們的學(xué)習(xí)能力雖然很強,但是如何來對對層網(wǎng)絡(luò)進(jìn)行??有效地訓(xùn)練則是一個非常重要的問題,學(xué)習(xí)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)需要強大的算法,反向傳??播算法(Error?Back-propagation?Algorithm,簡稱BP算法)可以說是目前應(yīng)用最多最為??成功的神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)算法,它主要是建立在梯度下降法的基礎(chǔ)上的,它的主要工作??步驟如下:??1):首先神經(jīng)網(wǎng)絡(luò)的前向傳播過程,即把訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,然??后再傳入到隱藏層,之后再一層一層往后傳直至到網(wǎng)絡(luò)的輸出層得到網(wǎng)絡(luò)的輸出;??2):在得到神經(jīng)網(wǎng)絡(luò)的輸出后,我們可以將其與訓(xùn)練數(shù)據(jù)集中的真實結(jié)果進(jìn)行比較,??計算出網(wǎng)絡(luò)輸出值與實際值之間的誤差,然后將誤差從輸出層開始不斷往前傳播,直至??傳播得到輸出層,得到每一層的誤差;??3):在第二步中,將誤差不斷往前傳播的同時根據(jù)誤差計算出損失函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)??重參數(shù)以及閾值的梯度,并根據(jù)梯度下降法對網(wǎng)絡(luò)的權(quán)重參數(shù)以及閾值進(jìn)行更新;??4):不斷地重復(fù)前面的三個步驟來對網(wǎng)絡(luò)中的權(quán)重參數(shù)以及閾值進(jìn)行更新,直至參??數(shù)收斂;??由上可知,反向傳播算法的主要思想其實并不復(fù)雜,在下面,本文將對反向傳播進(jìn)??行公式推導(dǎo),給出權(quán)重參數(shù)以及閾
本文編號:3408998
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3408998.html
最近更新
教材專著