基于稀疏分布激活的增量式LSTM研究
發(fā)布時間:2022-01-05 15:24
近年來,隨著新型人工智能技術(shù)的不斷發(fā)展以及海量數(shù)據(jù)的爆炸式增長,如何借助新技術(shù)高效、準(zhǔn)確地處理并分析不斷增長的數(shù)據(jù)流是一項具有挑戰(zhàn)性的任務(wù),F(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)通常采用基于批量(batch)數(shù)據(jù)的訓(xùn)練方法,無法有效處理數(shù)據(jù)的動態(tài)增長;保留所有歷史數(shù)據(jù)雖然可以保證學(xué)習(xí)的效果,但會給存儲及計算帶來巨大壓力。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNNs)是一種適合于數(shù)據(jù)流分析與建模的深度學(xué)習(xí)模型,能夠挖掘數(shù)據(jù)流中的時序關(guān)聯(lián),其變種長短時記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)已經(jīng)成功應(yīng)用于機(jī)器翻譯、語音識別等多種流數(shù)據(jù)處理任務(wù)中,是使用最廣泛的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但現(xiàn)有的LSTM模型無法有效適應(yīng)數(shù)據(jù)流的動態(tài)增長,常規(guī)訓(xùn)練方法會導(dǎo)致“災(zāi)難性遺忘”(Catastrophic Forgetting,CF)問題。為了提高對不斷增長的海量數(shù)據(jù)分析、處理能力,增強(qiáng)LSTM模型在真實場景下的可用性,本文在現(xiàn)有LSTM模型的基礎(chǔ)上,針對數(shù)據(jù)流增量學(xué)習(xí)中記憶遺忘問題,研究了基于稀疏分布激活的增量式LSTM。本文主要研究內(nèi)容如下:(1)首先分析增量學(xué)習(xí)面臨的主...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學(xué)碩士學(xué)位論文11實數(shù)據(jù),而是使用生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)在必要時生成所需的歷史數(shù)據(jù)。雖然達(dá)到相同目的,但是引入了額外的訓(xùn)練開銷,因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時,由于數(shù)據(jù)流的學(xué)習(xí)具有時序關(guān)聯(lián)性,將已完成訓(xùn)練中的重要參數(shù)一并用于新數(shù)據(jù)的學(xué)習(xí)有利于保持時序連續(xù),對于非獨立的序列數(shù)據(jù)學(xué)習(xí)具有重要意義。與前饋網(wǎng)絡(luò)有所不同,由于LSTM網(wǎng)絡(luò)中存在輸出到輸入的反饋連接,LSTM訓(xùn)練方法采用基于時間的BP算法(BackPropagationThroughTime,BPTT),梯度會沿時間軸反向傳遞,故每一步參數(shù)的更新實際上使用了之前所有各時間步的梯度總和。但是在實際操作中,算法往往設(shè)置一個反向傳播的步長(一般為4或5),只保留步長內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓(xùn)練中丟失,因此需要改進(jìn)BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個角度出發(fā),研究并實現(xiàn)適合于數(shù)據(jù)增量學(xué)習(xí)的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設(shè)計的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓(xùn)練方法模塊,整個系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個系統(tǒng)建立在不斷增長的數(shù)據(jù)流上。在基
江蘇大學(xué)碩士學(xué)位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學(xué)習(xí)中“災(zāi)難性遺忘”問題,神經(jīng)網(wǎng)絡(luò)不能依賴于網(wǎng)絡(luò)各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個分組中引入神經(jīng)元競爭、抑制機(jī)制,提高對動態(tài)增長的數(shù)據(jù)流連續(xù)學(xué)習(xí)的能力。具體來說,在每個分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當(dāng)一個輸入模式進(jìn)入LSTM網(wǎng)絡(luò)后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進(jìn)行競爭,取激活值最大的前K個神經(jīng)元將其激活響應(yīng)輸入。在神經(jīng)元競爭激活的同時,考慮激活神經(jīng)元對其附近神經(jīng)元的抑制作用。設(shè)置抑制半徑r,當(dāng)某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競爭、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍(lán)色神經(jīng)元表示競爭激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動態(tài)模型結(jié)構(gòu)緩解LSTM在增量學(xué)習(xí)中“災(zāi)難性遺忘”問題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項和本文結(jié)構(gòu)化稀疏的直觀對比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對應(yīng)懲罰項歸零的可能元素。Lasso懲罰移除元素的時候不考慮神經(jīng)元級的優(yōu)化。組稀疏懲罰移除了輸入層第二個神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡(luò)中移除。通過GroupLasso
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計算機(jī)研究與發(fā)展. 2013(09)
[2]L1正則化機(jī)器學(xué)習(xí)問題求解分析[J]. 孔康,汪群山,梁萬路. 計算機(jī)工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號:3570594
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學(xué)碩士學(xué)位論文11實數(shù)據(jù),而是使用生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)在必要時生成所需的歷史數(shù)據(jù)。雖然達(dá)到相同目的,但是引入了額外的訓(xùn)練開銷,因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時,由于數(shù)據(jù)流的學(xué)習(xí)具有時序關(guān)聯(lián)性,將已完成訓(xùn)練中的重要參數(shù)一并用于新數(shù)據(jù)的學(xué)習(xí)有利于保持時序連續(xù),對于非獨立的序列數(shù)據(jù)學(xué)習(xí)具有重要意義。與前饋網(wǎng)絡(luò)有所不同,由于LSTM網(wǎng)絡(luò)中存在輸出到輸入的反饋連接,LSTM訓(xùn)練方法采用基于時間的BP算法(BackPropagationThroughTime,BPTT),梯度會沿時間軸反向傳遞,故每一步參數(shù)的更新實際上使用了之前所有各時間步的梯度總和。但是在實際操作中,算法往往設(shè)置一個反向傳播的步長(一般為4或5),只保留步長內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓(xùn)練中丟失,因此需要改進(jìn)BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個角度出發(fā),研究并實現(xiàn)適合于數(shù)據(jù)增量學(xué)習(xí)的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設(shè)計的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓(xùn)練方法模塊,整個系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個系統(tǒng)建立在不斷增長的數(shù)據(jù)流上。在基
江蘇大學(xué)碩士學(xué)位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學(xué)習(xí)中“災(zāi)難性遺忘”問題,神經(jīng)網(wǎng)絡(luò)不能依賴于網(wǎng)絡(luò)各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個分組中引入神經(jīng)元競爭、抑制機(jī)制,提高對動態(tài)增長的數(shù)據(jù)流連續(xù)學(xué)習(xí)的能力。具體來說,在每個分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當(dāng)一個輸入模式進(jìn)入LSTM網(wǎng)絡(luò)后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進(jìn)行競爭,取激活值最大的前K個神經(jīng)元將其激活響應(yīng)輸入。在神經(jīng)元競爭激活的同時,考慮激活神經(jīng)元對其附近神經(jīng)元的抑制作用。設(shè)置抑制半徑r,當(dāng)某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競爭、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍(lán)色神經(jīng)元表示競爭激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動態(tài)模型結(jié)構(gòu)緩解LSTM在增量學(xué)習(xí)中“災(zāi)難性遺忘”問題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項和本文結(jié)構(gòu)化稀疏的直觀對比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對應(yīng)懲罰項歸零的可能元素。Lasso懲罰移除元素的時候不考慮神經(jīng)元級的優(yōu)化。組稀疏懲罰移除了輸入層第二個神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡(luò)中移除。通過GroupLasso
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計算機(jī)研究與發(fā)展. 2013(09)
[2]L1正則化機(jī)器學(xué)習(xí)問題求解分析[J]. 孔康,汪群山,梁萬路. 計算機(jī)工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號:3570594
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3570594.html
最近更新
教材專著