復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)研究
發(fā)布時間:2020-08-26 08:50
【摘要】:目前大多數(shù)深度學(xué)習技術(shù)、模塊以及框架都是基于實數(shù)操作和表示,經(jīng)過研究發(fā)現(xiàn)復(fù)數(shù)具有實數(shù)不可比擬的優(yōu)勢,比如豐富的表示能力、具有相位信息以及對噪聲具有魯棒性等。盡管復(fù)數(shù)網(wǎng)絡(luò)具有杰出的優(yōu)勢,但缺乏構(gòu)建復(fù)數(shù)網(wǎng)絡(luò)的模塊,因此很少有人研究復(fù)數(shù)域神經(jīng)網(wǎng)絡(luò)。本文研究了實數(shù)域神經(jīng)網(wǎng)絡(luò)的構(gòu)建方法,并細致分析了復(fù)數(shù)域神經(jīng)網(wǎng)絡(luò)的構(gòu)建方法,從而將神經(jīng)網(wǎng)絡(luò)擴展到復(fù)數(shù)域。本文主要研究了卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),并將其擴展到復(fù)數(shù)域。為了研究復(fù)數(shù)神經(jīng)網(wǎng)絡(luò),本文對深度學(xué)習中的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)分別作了深入分析,包括遞歸神經(jīng)網(wǎng)絡(luò)為何出現(xiàn)梯度消失與爆炸問題、卷積神經(jīng)網(wǎng)絡(luò)中的各個網(wǎng)絡(luò)層的實現(xiàn)原理,并基于這些研究內(nèi)容來構(gòu)建復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)。主要研究內(nèi)容包括:(1)研究基于酉矩陣的遞歸神經(jīng)網(wǎng)絡(luò)實現(xiàn)機理:反向梯度傳播時遞歸神經(jīng)網(wǎng)絡(luò)存在的梯度消失或爆炸現(xiàn)象會導(dǎo)致網(wǎng)絡(luò)無法繼續(xù)訓(xùn)練。本研究重點從數(shù)學(xué)理論角度對基于酉矩陣的遞歸神經(jīng)網(wǎng)絡(luò)解決梯度消失或爆炸問題的原理進行分析,并對比了目前典型的三種參數(shù)化酉矩陣的方法:UERNN、Tunable和FFT。對比分析發(fā)現(xiàn)三種分解方式能夠覆蓋的空間均為酉空間的子空間,但只有Tunable可以通過修改參數(shù)來調(diào)整子空間的大小。(2)研究基于復(fù)數(shù)的深度殘差神經(jīng)網(wǎng)絡(luò)構(gòu)建方法:研究分析了復(fù)數(shù)在參數(shù)表示和網(wǎng)絡(luò)深度方面的優(yōu)勢,以及復(fù)數(shù)殘差神經(jīng)網(wǎng)絡(luò)的構(gòu)建方法。為了在深度殘差神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上實現(xiàn)復(fù)數(shù)域的數(shù)據(jù)處理,構(gòu)建了復(fù)數(shù)卷積、復(fù)數(shù)池化、復(fù)數(shù)權(quán)重初始化、復(fù)數(shù)批量歸一化以及復(fù)數(shù)激活函數(shù)等5個殘差網(wǎng)絡(luò)中的關(guān)鍵模塊,并利用這5個模塊構(gòu)建復(fù)數(shù)殘差網(wǎng)絡(luò)。為了驗證復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,本文設(shè)計多組實驗,分別驗證復(fù)數(shù)遞歸神經(jīng)網(wǎng)絡(luò)和復(fù)數(shù)殘差網(wǎng)絡(luò)的性能。具體包括:(1)基于酉矩陣的遞歸神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果與分析:針對復(fù)制任務(wù)、去噪任務(wù)和括號任務(wù),本實驗將UERNN、Tunable、FFT三種參數(shù)化酉矩陣方法分別應(yīng)用到遞歸神經(jīng)網(wǎng)絡(luò)中,在這三個任務(wù)上分別測試其與LSTM、GRU和GORU等6個網(wǎng)絡(luò)的性能。實驗表明Tunable分解酉矩陣方式構(gòu)成的遞歸神經(jīng)網(wǎng)絡(luò)在復(fù)制任務(wù)上表現(xiàn)最好,而GORU在去噪任務(wù)和括號任務(wù)上表現(xiàn)最佳。(2)基于實數(shù)域和復(fù)數(shù)域殘差網(wǎng)絡(luò)的實驗結(jié)果與分析:實驗設(shè)計了基于CIFAR-10和CIFAR-100的兩個圖像分類任務(wù)以及基于MusicNet的音樂轉(zhuǎn)錄任務(wù)。實驗表明復(fù)數(shù)殘差網(wǎng)絡(luò)在圖像分類任務(wù)上表現(xiàn)不佳;而復(fù)數(shù)殘差網(wǎng)絡(luò)在音樂轉(zhuǎn)錄任務(wù)上精度超過實數(shù)域殘差網(wǎng)絡(luò)3.3%。在圖像分類任務(wù)上,經(jīng)過非局部連接網(wǎng)絡(luò)優(yōu)化后的復(fù)數(shù)殘差網(wǎng)絡(luò)性能比未經(jīng)過非局部連接網(wǎng)絡(luò)優(yōu)化的復(fù)數(shù)殘差網(wǎng)絡(luò)也提高了0.1%。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP183
【圖文】:
( )in outn n ,因此單參數(shù) 的值為in outn n導(dǎo),可知在復(fù)數(shù)初始化時只需要利用輸入和輸出來指權(quán)重滿足均值為 0,方差為 22 。數(shù)批量歸一化是對權(quán)重初始化的補充。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,若權(quán)重改變使后續(xù)輸入的分布也發(fā)生變化,就需要修改網(wǎng)絡(luò)分布變化。這樣操作代價太大,因此將每層的輸出做輸入當作下一層的輸入。做歸一化目的是讓輸入數(shù)(0,1)。但是歸一化后會使得網(wǎng)絡(luò)表達能力弱化不少,數(shù)時,如果將數(shù)據(jù)進行上述歸一化操作,會使得大部近,這些數(shù)據(jù)在經(jīng)過激活函數(shù)時,只使用了激活函數(shù)激活函數(shù)的飽和部分,使網(wǎng)絡(luò)模型的表達能力降低。
=rr riir ii 前同樣需要初始化 和 。為了方便訓(xùn)練,令批量歸,需將縮放參數(shù) 中的rr ii 和 均初始化為1 2 ,i 均初始化為 0。量歸一化的理論推導(dǎo)完畢,在代碼實現(xiàn)時需要將輸入陣、縮放矩陣以及偏移向量,其余與在實數(shù)域構(gòu)建批數(shù)激活函數(shù)引入激活函數(shù)目的是為了給網(wǎng)絡(luò)引入非線性因子。激,將冗余的數(shù)據(jù)過濾。目前卷積神經(jīng)網(wǎng)絡(luò)中使用的激變體居多。校正線性單元(Rectified Linear Unit, Re圖如圖 4.3 所示。
將 UERNN、Tunable、FFT 構(gòu)成的 RNN 網(wǎng)絡(luò)與 GRU、LSTM 以及 GORU 等六個網(wǎng)絡(luò)分別在該復(fù)制任務(wù)上進行性能測試,網(wǎng)絡(luò)收斂結(jié)果折線對比圖如圖 5.1 所示。圖5.1 復(fù)制任務(wù)在 5 個網(wǎng)絡(luò)上的精度比較折線圖圖 5.1 中縱軸是網(wǎng)絡(luò)的損失值,橫軸是迭代次數(shù)。從圖 5.1 可以看出在復(fù)制任務(wù)中收斂最快的,即損失值下降最快的是 UERNN 構(gòu)成的 RNN 網(wǎng)絡(luò);最終損失值最低即精度最高的是 Tunable 和 FFT 構(gòu)成的 RNN 網(wǎng)絡(luò)。LSTM、GRU 以及 GORU 相比較前三者而言收斂速度較慢,且最終損失值較高,因此在該任務(wù)中 LSTM、GRU 以及GORU 的性能都比較差。下面對本任務(wù)的測試結(jié)果進行對比和分析。復(fù)制任務(wù)是一個純記憶性任務(wù),因此記憶型網(wǎng)絡(luò)更適合該任務(wù)。GRU、LSTM 以及 GORU 具有過濾信息的門控機制,因此在該任務(wù)上表現(xiàn)差。UERNN 構(gòu)成的 RNN 網(wǎng)絡(luò)只能夠覆蓋酉空間中固定大小的子空間,因此只能找到該子空間內(nèi)的最優(yōu)解,而非全酉空間的最優(yōu)解。在子空間上修改參數(shù),并通
本文編號:2804967
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP183
【圖文】:
( )in outn n ,因此單參數(shù) 的值為in outn n導(dǎo),可知在復(fù)數(shù)初始化時只需要利用輸入和輸出來指權(quán)重滿足均值為 0,方差為 22 。數(shù)批量歸一化是對權(quán)重初始化的補充。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,若權(quán)重改變使后續(xù)輸入的分布也發(fā)生變化,就需要修改網(wǎng)絡(luò)分布變化。這樣操作代價太大,因此將每層的輸出做輸入當作下一層的輸入。做歸一化目的是讓輸入數(shù)(0,1)。但是歸一化后會使得網(wǎng)絡(luò)表達能力弱化不少,數(shù)時,如果將數(shù)據(jù)進行上述歸一化操作,會使得大部近,這些數(shù)據(jù)在經(jīng)過激活函數(shù)時,只使用了激活函數(shù)激活函數(shù)的飽和部分,使網(wǎng)絡(luò)模型的表達能力降低。
=rr riir ii 前同樣需要初始化 和 。為了方便訓(xùn)練,令批量歸,需將縮放參數(shù) 中的rr ii 和 均初始化為1 2 ,i 均初始化為 0。量歸一化的理論推導(dǎo)完畢,在代碼實現(xiàn)時需要將輸入陣、縮放矩陣以及偏移向量,其余與在實數(shù)域構(gòu)建批數(shù)激活函數(shù)引入激活函數(shù)目的是為了給網(wǎng)絡(luò)引入非線性因子。激,將冗余的數(shù)據(jù)過濾。目前卷積神經(jīng)網(wǎng)絡(luò)中使用的激變體居多。校正線性單元(Rectified Linear Unit, Re圖如圖 4.3 所示。
將 UERNN、Tunable、FFT 構(gòu)成的 RNN 網(wǎng)絡(luò)與 GRU、LSTM 以及 GORU 等六個網(wǎng)絡(luò)分別在該復(fù)制任務(wù)上進行性能測試,網(wǎng)絡(luò)收斂結(jié)果折線對比圖如圖 5.1 所示。圖5.1 復(fù)制任務(wù)在 5 個網(wǎng)絡(luò)上的精度比較折線圖圖 5.1 中縱軸是網(wǎng)絡(luò)的損失值,橫軸是迭代次數(shù)。從圖 5.1 可以看出在復(fù)制任務(wù)中收斂最快的,即損失值下降最快的是 UERNN 構(gòu)成的 RNN 網(wǎng)絡(luò);最終損失值最低即精度最高的是 Tunable 和 FFT 構(gòu)成的 RNN 網(wǎng)絡(luò)。LSTM、GRU 以及 GORU 相比較前三者而言收斂速度較慢,且最終損失值較高,因此在該任務(wù)中 LSTM、GRU 以及GORU 的性能都比較差。下面對本任務(wù)的測試結(jié)果進行對比和分析。復(fù)制任務(wù)是一個純記憶性任務(wù),因此記憶型網(wǎng)絡(luò)更適合該任務(wù)。GRU、LSTM 以及 GORU 具有過濾信息的門控機制,因此在該任務(wù)上表現(xiàn)差。UERNN 構(gòu)成的 RNN 網(wǎng)絡(luò)只能夠覆蓋酉空間中固定大小的子空間,因此只能找到該子空間內(nèi)的最優(yōu)解,而非全酉空間的最優(yōu)解。在子空間上修改參數(shù),并通
【參考文獻】
相關(guān)期刊論文 前1條
1 程靜;何承源;;廣義酉矩陣與廣義Hermite矩陣的一些性質(zhì)[J];重慶師范大學(xué)學(xué)報(自然科學(xué)版);2010年03期
本文編號:2804967
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2804967.html
最近更新
教材專著