動(dòng)量梯度下降法的收斂性
發(fā)布時(shí)間:2021-09-25 03:28
從1943年神經(jīng)元模型的提出到如今深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)已經(jīng)經(jīng)過(guò)了 70余年的發(fā)展,而神經(jīng)網(wǎng)絡(luò)也開(kāi)始對(duì)人類生活產(chǎn)生越來(lái)越重要的影響,目前神經(jīng)網(wǎng)絡(luò)技術(shù)已被用于各種領(lǐng)域,比如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別、生物醫(yī)學(xué)以及機(jī)器人控制等等,并且在各領(lǐng)域內(nèi)也取得了一定的成功,然而目前關(guān)于神經(jīng)網(wǎng)絡(luò)的理論分析卻并不多,本文基于此對(duì)用于神經(jīng)網(wǎng)絡(luò)的帶動(dòng)量項(xiàng)的反向傳播算法的收斂性進(jìn)行了理論分析,本文中所考慮的是一個(gè)三層的前饋神經(jīng)網(wǎng)絡(luò)模型,在該模型中,它的學(xué)習(xí)率是被設(shè)置為一個(gè)常數(shù),而動(dòng)量系數(shù)則被設(shè)置為一個(gè)適應(yīng)性的變量,用來(lái)加速及穩(wěn)定網(wǎng)絡(luò)參數(shù)的訓(xùn)練過(guò)程,本文給出了其相應(yīng)的收斂性結(jié)果,并且對(duì)給出的結(jié)論進(jìn)行了詳細(xì)地證明,此外,本文還做了兩個(gè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果進(jìn)一步地驗(yàn)證了本文結(jié)果的正確性;相比于目前已有的結(jié)果,本文的結(jié)論更具一般性,因?yàn)楸疚乃紤]的網(wǎng)絡(luò)輸出層可以具有任意個(gè)數(shù)的神經(jīng)元并且偏置項(xiàng)也被考慮在內(nèi)。
【文章來(lái)源】:華東理工大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1神經(jīng)元模型??Fig.2.1?Neuron?model??
第8頁(yè)?華東理工大學(xué)碩士學(xué)位論文??f(x)?=?max{?.x;0)?-h?l?x?mni(?x,0)?jf??z??z?'??-i???-0.5-?■*??-1--??圖2.6又=1/3的LeakyReLu函數(shù)圖像??Fig.2.6?Image?of?LeakeReLu?function?which?A?=?1/3??2.1.2感知機(jī)??感知機(jī)是使最早的一種監(jiān)督式學(xué)習(xí)算法模型,是用于進(jìn)行線性分類的一種模型,它??是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基矗如圖3.1所示,感知機(jī)只有兩層神經(jīng)元,一層是輸入層,??用于接收外界的信號(hào)輸入,一層為輸出層,輸入層的輸入與連接權(quán)重進(jìn)行線性組合后再??加上閾值所得到的值會(huì)由激活函數(shù)進(jìn)行處理,輸出層就輸出處理過(guò)后的值,利用感知機(jī)??我們可以十分輕松地實(shí)現(xiàn)一些邏輯運(yùn)算,比如與、或、非邏輯運(yùn)算,假設(shè)激活函數(shù)/為??如圖3.2所不的符號(hào)函數(shù),貝。剩??(1):實(shí)現(xiàn)“與”邏輯運(yùn)算(x,?ax2?):令%?=?w2?=?0.5,=?1,那么輸出層的輸??出為少=3811(0.5.11+0.5.12-1),很容易驗(yàn)證當(dāng)且僅當(dāng);(:1=12=1時(shí),}?=?1;??(2):實(shí)現(xiàn)“或”邏輯運(yùn)算(AV&):令%?=w2?=0.5,?0?=?0.5,那么輸出層的??輸出為^sgnCO.S.A+O.S.x〗—0.5),很容易驗(yàn)證當(dāng)且僅當(dāng)々=々=0時(shí),少=0;??(3)???實(shí)現(xiàn)“非”邏輯運(yùn)算(飛):令%=0.5,w2=0,沒(méi)=1,那么輸出層的輸??出為1),很容易驗(yàn)證當(dāng)x,?=1時(shí),少=0,而當(dāng)々=0時(shí),少=1;??這三種情況都只是比較簡(jiǎn)單的邏輯運(yùn)算,而對(duì)于更為一般的問(wèn)題來(lái)說(shuō),假設(shè)給定的??訓(xùn)練數(shù)據(jù)集為
第10頁(yè)?華東理工大學(xué)碩士學(xué)位論文??暑暴??(a)單隱層前饋網(wǎng)絡(luò)?(b)雙隱層前饋網(wǎng)絡(luò)??圖2.8多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??Fig.2.8?Multi-layer?feedforward?neural?network?structure?diagram??2.2反向傳播算法??由2.1節(jié)可知,由于單層感知機(jī)的解決問(wèn)題的局限性,我們需要考慮使用多層網(wǎng)絡(luò),??然而多層網(wǎng)絡(luò)尤其是深層網(wǎng)絡(luò),它們的學(xué)習(xí)能力雖然很強(qiáng),但是如何來(lái)對(duì)對(duì)層網(wǎng)絡(luò)進(jìn)行??有效地訓(xùn)練則是一個(gè)非常重要的問(wèn)題,學(xué)習(xí)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)需要強(qiáng)大的算法,反向傳??播算法(Error?Back-propagation?Algorithm,簡(jiǎn)稱BP算法)可以說(shuō)是目前應(yīng)用最多最為??成功的神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)算法,它主要是建立在梯度下降法的基礎(chǔ)上的,它的主要工作??步驟如下:??1):首先神經(jīng)網(wǎng)絡(luò)的前向傳播過(guò)程,即把訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,然??后再傳入到隱藏層,之后再一層一層往后傳直至到網(wǎng)絡(luò)的輸出層得到網(wǎng)絡(luò)的輸出;??2):在得到神經(jīng)網(wǎng)絡(luò)的輸出后,我們可以將其與訓(xùn)練數(shù)據(jù)集中的真實(shí)結(jié)果進(jìn)行比較,??計(jì)算出網(wǎng)絡(luò)輸出值與實(shí)際值之間的誤差,然后將誤差從輸出層開(kāi)始不斷往前傳播,直至??傳播得到輸出層,得到每一層的誤差;??3):在第二步中,將誤差不斷往前傳播的同時(shí)根據(jù)誤差計(jì)算出損失函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)??重參數(shù)以及閾值的梯度,并根據(jù)梯度下降法對(duì)網(wǎng)絡(luò)的權(quán)重參數(shù)以及閾值進(jìn)行更新;??4):不斷地重復(fù)前面的三個(gè)步驟來(lái)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)以及閾值進(jìn)行更新,直至參??數(shù)收斂;??由上可知,反向傳播算法的主要思想其實(shí)并不復(fù)雜,在下面,本文將對(duì)反向傳播進(jìn)??行公式推導(dǎo),給出權(quán)重參數(shù)以及閾
本文編號(hào):3408998
【文章來(lái)源】:華東理工大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:47 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1神經(jīng)元模型??Fig.2.1?Neuron?model??
第8頁(yè)?華東理工大學(xué)碩士學(xué)位論文??f(x)?=?max{?.x;0)?-h?l?x?mni(?x,0)?jf??z??z?'??-i???-0.5-?■*??-1--??圖2.6又=1/3的LeakyReLu函數(shù)圖像??Fig.2.6?Image?of?LeakeReLu?function?which?A?=?1/3??2.1.2感知機(jī)??感知機(jī)是使最早的一種監(jiān)督式學(xué)習(xí)算法模型,是用于進(jìn)行線性分類的一種模型,它??是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基矗如圖3.1所示,感知機(jī)只有兩層神經(jīng)元,一層是輸入層,??用于接收外界的信號(hào)輸入,一層為輸出層,輸入層的輸入與連接權(quán)重進(jìn)行線性組合后再??加上閾值所得到的值會(huì)由激活函數(shù)進(jìn)行處理,輸出層就輸出處理過(guò)后的值,利用感知機(jī)??我們可以十分輕松地實(shí)現(xiàn)一些邏輯運(yùn)算,比如與、或、非邏輯運(yùn)算,假設(shè)激活函數(shù)/為??如圖3.2所不的符號(hào)函數(shù),貝。剩??(1):實(shí)現(xiàn)“與”邏輯運(yùn)算(x,?ax2?):令%?=?w2?=?0.5,=?1,那么輸出層的輸??出為少=3811(0.5.11+0.5.12-1),很容易驗(yàn)證當(dāng)且僅當(dāng);(:1=12=1時(shí),}?=?1;??(2):實(shí)現(xiàn)“或”邏輯運(yùn)算(AV&):令%?=w2?=0.5,?0?=?0.5,那么輸出層的??輸出為^sgnCO.S.A+O.S.x〗—0.5),很容易驗(yàn)證當(dāng)且僅當(dāng)々=々=0時(shí),少=0;??(3)???實(shí)現(xiàn)“非”邏輯運(yùn)算(飛):令%=0.5,w2=0,沒(méi)=1,那么輸出層的輸??出為1),很容易驗(yàn)證當(dāng)x,?=1時(shí),少=0,而當(dāng)々=0時(shí),少=1;??這三種情況都只是比較簡(jiǎn)單的邏輯運(yùn)算,而對(duì)于更為一般的問(wèn)題來(lái)說(shuō),假設(shè)給定的??訓(xùn)練數(shù)據(jù)集為
第10頁(yè)?華東理工大學(xué)碩士學(xué)位論文??暑暴??(a)單隱層前饋網(wǎng)絡(luò)?(b)雙隱層前饋網(wǎng)絡(luò)??圖2.8多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??Fig.2.8?Multi-layer?feedforward?neural?network?structure?diagram??2.2反向傳播算法??由2.1節(jié)可知,由于單層感知機(jī)的解決問(wèn)題的局限性,我們需要考慮使用多層網(wǎng)絡(luò),??然而多層網(wǎng)絡(luò)尤其是深層網(wǎng)絡(luò),它們的學(xué)習(xí)能力雖然很強(qiáng),但是如何來(lái)對(duì)對(duì)層網(wǎng)絡(luò)進(jìn)行??有效地訓(xùn)練則是一個(gè)非常重要的問(wèn)題,學(xué)習(xí)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)需要強(qiáng)大的算法,反向傳??播算法(Error?Back-propagation?Algorithm,簡(jiǎn)稱BP算法)可以說(shuō)是目前應(yīng)用最多最為??成功的神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)算法,它主要是建立在梯度下降法的基礎(chǔ)上的,它的主要工作??步驟如下:??1):首先神經(jīng)網(wǎng)絡(luò)的前向傳播過(guò)程,即把訓(xùn)練數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,然??后再傳入到隱藏層,之后再一層一層往后傳直至到網(wǎng)絡(luò)的輸出層得到網(wǎng)絡(luò)的輸出;??2):在得到神經(jīng)網(wǎng)絡(luò)的輸出后,我們可以將其與訓(xùn)練數(shù)據(jù)集中的真實(shí)結(jié)果進(jìn)行比較,??計(jì)算出網(wǎng)絡(luò)輸出值與實(shí)際值之間的誤差,然后將誤差從輸出層開(kāi)始不斷往前傳播,直至??傳播得到輸出層,得到每一層的誤差;??3):在第二步中,將誤差不斷往前傳播的同時(shí)根據(jù)誤差計(jì)算出損失函數(shù)關(guān)于網(wǎng)絡(luò)權(quán)??重參數(shù)以及閾值的梯度,并根據(jù)梯度下降法對(duì)網(wǎng)絡(luò)的權(quán)重參數(shù)以及閾值進(jìn)行更新;??4):不斷地重復(fù)前面的三個(gè)步驟來(lái)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)以及閾值進(jìn)行更新,直至參??數(shù)收斂;??由上可知,反向傳播算法的主要思想其實(shí)并不復(fù)雜,在下面,本文將對(duì)反向傳播進(jìn)??行公式推導(dǎo),給出權(quán)重參數(shù)以及閾
本文編號(hào):3408998
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3408998.html
最近更新
教材專著