基于稀疏分布激活的增量式LSTM研究
發(fā)布時間:2022-01-05 15:24
近年來,隨著新型人工智能技術(shù)的不斷發(fā)展以及海量數(shù)據(jù)的爆炸式增長,如何借助新技術(shù)高效、準確地處理并分析不斷增長的數(shù)據(jù)流是一項具有挑戰(zhàn)性的任務。現(xiàn)有的深度神經(jīng)網(wǎng)絡通常采用基于批量(batch)數(shù)據(jù)的訓練方法,無法有效處理數(shù)據(jù)的動態(tài)增長;保留所有歷史數(shù)據(jù)雖然可以保證學習的效果,但會給存儲及計算帶來巨大壓力。循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNNs)是一種適合于數(shù)據(jù)流分析與建模的深度學習模型,能夠挖掘數(shù)據(jù)流中的時序關(guān)聯(lián),其變種長短時記憶網(wǎng)絡(Long Short-term Memory,LSTM)已經(jīng)成功應用于機器翻譯、語音識別等多種流數(shù)據(jù)處理任務中,是使用最廣泛的循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)。但現(xiàn)有的LSTM模型無法有效適應數(shù)據(jù)流的動態(tài)增長,常規(guī)訓練方法會導致“災難性遺忘”(Catastrophic Forgetting,CF)問題。為了提高對不斷增長的海量數(shù)據(jù)分析、處理能力,增強LSTM模型在真實場景下的可用性,本文在現(xiàn)有LSTM模型的基礎上,針對數(shù)據(jù)流增量學習中記憶遺忘問題,研究了基于稀疏分布激活的增量式LSTM。本文主要研究內(nèi)容如下:(1)首先分析增量學習面臨的主...
【文章來源】:江蘇大學江蘇省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學碩士學位論文11實數(shù)據(jù),而是使用生成對抗網(wǎng)絡(GenerativeAdversarialNetworks,GANs)在必要時生成所需的歷史數(shù)據(jù)。雖然達到相同目的,但是引入了額外的訓練開銷,因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時,由于數(shù)據(jù)流的學習具有時序關(guān)聯(lián)性,將已完成訓練中的重要參數(shù)一并用于新數(shù)據(jù)的學習有利于保持時序連續(xù),對于非獨立的序列數(shù)據(jù)學習具有重要意義。與前饋網(wǎng)絡有所不同,由于LSTM網(wǎng)絡中存在輸出到輸入的反饋連接,LSTM訓練方法采用基于時間的BP算法(BackPropagationThroughTime,BPTT),梯度會沿時間軸反向傳遞,故每一步參數(shù)的更新實際上使用了之前所有各時間步的梯度總和。但是在實際操作中,算法往往設置一個反向傳播的步長(一般為4或5),只保留步長內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓練中丟失,因此需要改進BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡結(jié)構(gòu)和訓練方法兩個角度出發(fā),研究并實現(xiàn)適合于數(shù)據(jù)增量學習的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設計的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓練方法模塊,整個系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個系統(tǒng)建立在不斷增長的數(shù)據(jù)流上。在基
江蘇大學碩士學位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學習中“災難性遺忘”問題,神經(jīng)網(wǎng)絡不能依賴于網(wǎng)絡各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個分組中引入神經(jīng)元競爭、抑制機制,提高對動態(tài)增長的數(shù)據(jù)流連續(xù)學習的能力。具體來說,在每個分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當一個輸入模式進入LSTM網(wǎng)絡后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進行競爭,取激活值最大的前K個神經(jīng)元將其激活響應輸入。在神經(jīng)元競爭激活的同時,考慮激活神經(jīng)元對其附近神經(jīng)元的抑制作用。設置抑制半徑r,當某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競爭、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍色神經(jīng)元表示競爭激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動態(tài)模型結(jié)構(gòu)緩解LSTM在增量學習中“災難性遺忘”問題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項和本文結(jié)構(gòu)化稀疏的直觀對比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對應懲罰項歸零的可能元素。Lasso懲罰移除元素的時候不考慮神經(jīng)元級的優(yōu)化。組稀疏懲罰移除了輸入層第二個神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡中移除。通過GroupLasso
【參考文獻】:
期刊論文
[1]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[2]L1正則化機器學習問題求解分析[J]. 孔康,汪群山,梁萬路. 計算機工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號:3570594
【文章來源】:江蘇大學江蘇省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【圖文】:
LSTM單元結(jié)構(gòu)
江蘇大學碩士學位論文11實數(shù)據(jù),而是使用生成對抗網(wǎng)絡(GenerativeAdversarialNetworks,GANs)在必要時生成所需的歷史數(shù)據(jù)。雖然達到相同目的,但是引入了額外的訓練開銷,因此本文選擇壓縮保留部分重要的歷史數(shù)據(jù)以防止信息遺忘。同時,由于數(shù)據(jù)流的學習具有時序關(guān)聯(lián)性,將已完成訓練中的重要參數(shù)一并用于新數(shù)據(jù)的學習有利于保持時序連續(xù),對于非獨立的序列數(shù)據(jù)學習具有重要意義。與前饋網(wǎng)絡有所不同,由于LSTM網(wǎng)絡中存在輸出到輸入的反饋連接,LSTM訓練方法采用基于時間的BP算法(BackPropagationThroughTime,BPTT),梯度會沿時間軸反向傳遞,故每一步參數(shù)的更新實際上使用了之前所有各時間步的梯度總和。但是在實際操作中,算法往往設置一個反向傳播的步長(一般為4或5),只保留步長內(nèi)的各梯度,所以歷史數(shù)據(jù)的信息可能在訓練中丟失,因此需要改進BPTT算法,使歷史梯度信息能夠傳遞到并作用于新數(shù)據(jù)產(chǎn)生的梯度上,鞏固已有的記憶。鑒于以上論述,本文從LSTM網(wǎng)絡結(jié)構(gòu)和訓練方法兩個角度出發(fā),研究并實現(xiàn)適合于數(shù)據(jù)增量學習的新型LSTM系統(tǒng)。2.2基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)本文設計的基于稀疏分布激活的增量式LSTM系統(tǒng)包含基于稀疏分布的LSTM模塊和基于壓縮和記憶鞏固的增量式訓練方法模塊,整個系統(tǒng)的結(jié)構(gòu)示意圖如圖2.1所示。圖2.1基于稀疏分布激活增量式LSTM系統(tǒng)的結(jié)構(gòu)圖2.1給出了系統(tǒng)的整體架構(gòu),整個系統(tǒng)建立在不斷增長的數(shù)據(jù)流上。在基
江蘇大學碩士學位論文193.3K-Winner-Take-All神經(jīng)元激活策略為了緩解增量學習中“災難性遺忘”問題,神經(jīng)網(wǎng)絡不能依賴于網(wǎng)絡各層所有神經(jīng)元的行為模式。因此,在LSTM隱藏層和神經(jīng)元分組之后,在每個分組中引入神經(jīng)元競爭、抑制機制,提高對動態(tài)增長的數(shù)據(jù)流連續(xù)學習的能力。具體來說,在每個分組中,采用K-Winner-Take-All神經(jīng)元激活策略,當一個輸入模式進入LSTM網(wǎng)絡后,同組內(nèi)的各神經(jīng)元根據(jù)各自激活值的大小進行競爭,取激活值最大的前K個神經(jīng)元將其激活響應輸入。在神經(jīng)元競爭激活的同時,考慮激活神經(jīng)元對其附近神經(jīng)元的抑制作用。設置抑制半徑r,當某一神經(jīng)元按照K-Winner-Take-All策略被激活后,其抑制半徑r內(nèi)的其它神經(jīng)元均被抑制。圖3.2給出了分組內(nèi)神經(jīng)元競爭、抑制示意圖。(a)(b)圖3.2抑制半徑示意圖圖3.2中陰影區(qū)域表示抑制半徑作用范圍,藍色神經(jīng)元表示競爭激活的神經(jīng)元,白色神經(jīng)元表示被抑制神經(jīng)元,圖(a)抑制半徑r=3,圖(b)抑制半徑r=4。本章基于神經(jīng)元稀疏分布的LSTM借鑒Dropout、1范數(shù)(Lasso)、組稀疏(GroupLasso)等正則化方法的思想,利用稀疏激活的動態(tài)模型結(jié)構(gòu)緩解LSTM在增量學習中“災難性遺忘”問題。圖3.3顯示了1范數(shù)(Lasso)、組稀疏(GroupLasso)、稀疏組索套(SparseGroupLasso)懲罰項和本文結(jié)構(gòu)化稀疏的直觀對比。虛線框表示將2維輸入層連接到5維輸出層的連接矩陣,灰色部分表示矩陣中被對應懲罰項歸零的可能元素。Lasso懲罰移除元素的時候不考慮神經(jīng)元級的優(yōu)化。組稀疏懲罰移除了輸入層第二個神經(jīng)元的所有連接,因此該神經(jīng)元可以從網(wǎng)絡中移除。通過GroupLasso
【參考文獻】:
期刊論文
[1]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[2]L1正則化機器學習問題求解分析[J]. 孔康,汪群山,梁萬路. 計算機工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China. Science China(Information Sciences). 2010(06)
本文編號:3570594
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3570594.html
最近更新
教材專著