一種基于視覺注意力機制的深度循環(huán)Q網(wǎng)絡(luò)模型

發(fā)布時間：2018-04-18 16:08

本文選題：深度學(xué)習(xí) + 強化學(xué)習(xí)��；參考：《計算機學(xué)報》2017年06期

【摘要】：由現(xiàn)代強化學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合形成的深度強化學(xué)習(xí)方法是目前人工智能領(lǐng)域一個新的研究熱點,已經(jīng)在各種需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中取得了實質(zhì)性的突破.尤其是一種被稱為深度Q網(wǎng)絡(luò)的模型在處理諸如Atari 2600游戲這類趨于真實環(huán)境的復(fù)雜問題時表現(xiàn)出了和人類玩家相媲美的水平.然而,當(dāng)存在有延遲的獎賞而導(dǎo)致需要長時間步規(guī)劃才能優(yōu)化策略的情形中,深度Q網(wǎng)絡(luò)的表現(xiàn)就會急劇下降.這說明深度Q網(wǎng)絡(luò)并不擅長解決戰(zhàn)略性深度強化學(xué)習(xí)任務(wù).針對此問題,文中使用帶視覺注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)改進了傳統(tǒng)的深度Q網(wǎng)絡(luò)模型,提出了一種較為完善的深度強化學(xué)習(xí)模型.新模型的關(guān)鍵思想有兩點:一是使用雙層門限循環(huán)單元構(gòu)成的循環(huán)神經(jīng)網(wǎng)絡(luò)模塊來記憶較長時間步內(nèi)的歷史信息.這使得Agent能夠及時使用有延遲的反饋獎賞來正確地指導(dǎo)下一步的動作選擇;二是通過視覺注意力機制自適應(yīng)地將注意力集中于面積較小但更具價值的圖像區(qū)域,從而使得Agent能夠更加高效地學(xué)習(xí)近似最優(yōu)策略.該文通過選取一些經(jīng)典的Atari 2600戰(zhàn)略性游戲作為實驗對象來評估新模型的有效性.實驗結(jié)果表明,與傳統(tǒng)的深度強化學(xué)習(xí)模型相比,新模型在一些戰(zhàn)略性任務(wù)上具有很好的性能表現(xiàn)和較高的穩(wěn)定性.
[Abstract]:The method of depth reinforcement learning, which is formed by the combination of modern reinforcement learning and deep learning, is a new research hotspot in the field of artificial intelligence.A substantial breakthrough has been made in various tasks requiring high dimensional raw input data and decision control.In particular, a model called Deep Q Network has shown a level comparable to that of human players in dealing with complex problems such as Atari 2600 games that tend to be real-world.However, when there is a delayed reward, the performance of the deep Q network will decline sharply because of the need of long step planning in order to optimize the strategy.This shows that the depth Q network is not good at solving strategic intensive learning tasks.To solve this problem, the traditional depth Q network model is improved by using the circular neural network with visual attention mechanism, and a more perfect depth reinforcement learning model is proposed.There are two key ideas in the new model: one is to use the circulatory neural network module composed of double-layer threshold cyclic unit to memorize the historical information in a long time step.This allows Agent to use delayed feedback rewards in time to correctly guide the next step of action selection; second, it adaptively focuses on smaller but more valuable image areas through visual attention mechanisms.Thus, Agent can learn approximate optimal strategy more efficiently.This paper evaluates the effectiveness of the new model by selecting some classic Atari 2600 strategic games as experimental objects.The experimental results show that the new model has good performance and stability in some strategic tasks compared with the traditional depth reinforcement learning model.
【作者單位】：蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院;軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;吉林大學(xué)符號計算與知識工程教育部重點實驗室;
【基金】：國家自然科學(xué)基金項目(61272005,61303108,61373094,61472262,61502323,61502329) 江蘇省自然科學(xué)基金(BK2012616) 江蘇省高校自然科學(xué)研究項目(13KJB520020,16KJB520041) 吉林大學(xué)符號計算與知識工程教育部重點實驗室基金項目(93K172014K04) 蘇州市應(yīng)用基礎(chǔ)研究計劃工業(yè)部分(SYG201422,SYG201308)資助~~
【分類號】：TP18

【參考文獻】

相關(guān)期刊論文前5條

1 黎亞雄;張堅強;潘登;胡憚;;基于RNN-RBM語言模型的語音識別研究[J];計算機研究與發(fā)展;2014年09期

2 梁淑芬;劉銀華;李立琛;;基于LBP和深度學(xué)習(xí)的非限制條件下人臉識別算法[J];通信學(xué)報;2014年06期

3 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計算機學(xué)報;2014年03期

4 余凱;賈磊;陳雨強;徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期

5 高陽;周如益;王皓;曹志新;;平均獎賞強化學(xué)習(xí)算法研究[J];計算機學(xué)報;2007年08期

【共引文獻】

相關(guān)期刊論文前10條

1 涂中文;趙艷明;宋金寶;;基于自動編碼器的語音音色客觀評價[J];中國傳媒大學(xué)學(xué)報(自然科學(xué)版);2017年04期

2 黃壽喜;邱衛(wèi)根;;基于改進的深度信念網(wǎng)絡(luò)的人臉表情識別[J];計算機工程與設(shè)計;2017年06期

3 王準;何元烈;;基于混合價值計算的云存儲緩存替換方案[J];計算機工程與設(shè)計;2017年06期

4 劉全;翟建偉;鐘珊;章宗長;周倩;章鵬;;一種基于視覺注意力機制的深度循環(huán)Q網(wǎng)絡(luò)模型[J];計算機學(xué)報;2017年06期

5 宋超;許道云;秦永彬;;分離多路卷積神經(jīng)網(wǎng)絡(luò)研究[J];計算機工程;2017年06期

6 史佳琪;張建華;;基于深度學(xué)習(xí)的超短期光伏精細化預(yù)測模型研究[J];電力建設(shè);2017年06期

7 顧亞風(fēng);葉學(xué)義;夏經(jīng)文;夏胡云;;基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類方法[J];軟件導(dǎo)刊;2017年05期

8 沈忠華;;新技術(shù)視域下的教育大數(shù)據(jù)與教育評估新探——兼論區(qū)塊鏈技術(shù)對在線教育評估的影響[J];遠程教育雜志;2017年03期

9 韓潔;李盛陽;張濤;;基于深度學(xué)習(xí)的遙感影像城市擴展方法研究[J];載人航天;2017年03期

10 王曉輝;朱永利;郭豐娟;;基于同步監(jiān)測和深度學(xué)習(xí)的電容器介損角辨識[J];電力建設(shè);2017年05期

【二級參考文獻】

相關(guān)期刊論文前1條

1 劉全;傅啟明;龔聲蓉;伏玉琛;崔志明;;最小狀態(tài)變元平均獎賞的強化學(xué)習(xí)方法[J];通信學(xué)報;2011年01期

【相似文獻】

相關(guān)期刊論文前10條

1 黃威,林麗閩,宋亮;基于第三方整合的商業(yè)網(wǎng)絡(luò)模型[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2003年S1期

2 韋洛霞;耦合生長網(wǎng)絡(luò)模型的模擬[J];河南大學(xué)學(xué)報(自然科學(xué)版);2004年02期

3 郝玉;葉世偉;;基于軟競爭機制的對傳網(wǎng)絡(luò)模型及應(yīng)用[J];計算機仿真;2006年03期

4 馬費成;王曉光;;知識轉(zhuǎn)移的社會網(wǎng)絡(luò)模型研究[J];江西社會科學(xué);2006年07期

5 孟凡玲;范向軍;;水電工程監(jiān)理評標BP網(wǎng)絡(luò)模型研究[J];人民黃河;2007年07期

6 李文林;苗靜;劉振紅;;含時滯的復(fù)雜動態(tài)網(wǎng)絡(luò)模型的指數(shù)同步[J];河南師范大學(xué)學(xué)報(自然科學(xué)版);2009年05期

7 魯智勇;張權(quán);張希;唐朝京;;等效分組級聯(lián)BP網(wǎng)絡(luò)模型及其應(yīng)用[J];電子學(xué)報;2010年06期

8 江瓊琴;宋文廣;;一種改進的BP網(wǎng)絡(luò)模型在唇裂手術(shù)預(yù)測分析中的應(yīng)用[J];池州學(xué)院學(xué)報;2012年06期

9 殷洪義 ,榮明宗 ,周昭南 ,周曼殊;網(wǎng)絡(luò)模型的統(tǒng)一表征[J];國防科技大學(xué)學(xué)報;1981年02期

10 戴顯砥，，戴郁;生產(chǎn)與存貯問題的網(wǎng)絡(luò)模型[J];基建優(yōu)化;1995年01期

相關(guān)會議論文前10條

1 張書超;那日薩;;具有老化機制的阿波羅網(wǎng)絡(luò)模型[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

2 王仲君;黃紅球;;一個具有確定度分布的有向網(wǎng)絡(luò)模型[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

3 李季明;張寧;;具有隨機性的確定性網(wǎng)絡(luò)模型[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

4 秦紹萌;陳勇;;生態(tài)系統(tǒng)宏觀演化的網(wǎng)絡(luò)模型[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

5 駱繼明;郭新軍;;分布復(fù)雜機電系統(tǒng)網(wǎng)絡(luò)模型圖自動生成算法研究[A];煤礦機電一體化新技術(shù)創(chuàng)新與發(fā)展2012學(xué)術(shù)年會論文集[C];2012年

6 周勝利;耿顯民;;具有真實網(wǎng)絡(luò)一般特性的復(fù)雜網(wǎng)絡(luò)模型[A];第七屆中國不確定系統(tǒng)年會論文集[C];2009年

7 楊洪勇;王福生;;基于帶寬的Internet網(wǎng)絡(luò)模型[A];2007中國控制與決策學(xué)術(shù)年會論文集[C];2007年

8 趙雁飛;劉永忠;陳三強;孫皓;;冷凍干燥過程相遷移和相分布的孔尺度網(wǎng)絡(luò)模型與模擬[A];第八屆全國冷凍干燥學(xué)術(shù)交流會論文集[C];2005年

9 梁昌洪;鄭家駿;;復(fù)電介質(zhì)反演的精確網(wǎng)絡(luò)模型[A];2001年全國微波毫米波會議論文集[C];2001年

10 劉杰;陸君安;;兩類復(fù)雜網(wǎng)絡(luò)模型及其同步能力研究[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

相關(guān)重要報紙文章前3條

1 ;智能光網(wǎng)絡(luò)的網(wǎng)絡(luò)模型[N];人民郵電;2003年

2 馮衛(wèi)東;美構(gòu)建可快速確認基因功能的基因網(wǎng)絡(luò)模型[N];科技日報;2008年

3 賀贊暉　唐大海;價格網(wǎng)絡(luò)與金融屬性定價[N];期貨日報;2010年

相關(guān)博士學(xué)位論文前10條

1 齊峰;人工神經(jīng)樹網(wǎng)絡(luò)模型的優(yōu)化研究與應(yīng)用[D];山東師范大學(xué);2011年

2 李淑靜;復(fù)合復(fù)雜網(wǎng)絡(luò)模型研究與應(yīng)用[D];青島大學(xué);2011年

3 譚利;復(fù)雜網(wǎng)絡(luò)模型及應(yīng)用研究[D];中南大學(xué);2010年

4 隋毅;多子網(wǎng)復(fù)合復(fù)雜網(wǎng)絡(luò)模型及其相關(guān)性質(zhì)的研究[D];青島大學(xué);2012年

5 黃朝琴;基于離散縫洞網(wǎng)絡(luò)模型的多尺度兩相流動模擬理論研究[D];中國石油大學(xué)（華東）;2012年

6 岳博;Bayes網(wǎng)絡(luò)模型及其學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2002年

7 彭利民;基于Cayley圖的無線P2P覆蓋網(wǎng)絡(luò)模型及相關(guān)技術(shù)研究[D];華南理工大學(xué);2011年

8 王晨晨;碳酸鹽巖介質(zhì)雙孔隙網(wǎng)絡(luò)模型構(gòu)建理論與方法[D];中國石油大學(xué)（華東）;2013年

9 蔡先鋒;礦井三維地理網(wǎng)絡(luò)模型及網(wǎng)絡(luò)分析研究[D];中國礦業(yè)大學(xué)(北京);2012年

10 姜江;證據(jù)網(wǎng)絡(luò)建模、推理及學(xué)習(xí)方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年

相關(guān)碩士學(xué)位論文前10條

1 王芳;基于深度信念網(wǎng)絡(luò)的資源檢索與推薦系統(tǒng)[D];北京郵電大學(xué);2015年

2 楊光勇;科研合作超網(wǎng)絡(luò)模型的構(gòu)建及其應(yīng)用研究[D];上海理工大學(xué);2013年

3 李倩;深度網(wǎng)絡(luò)模型構(gòu)建及學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2014年

4 閆廷亞;基于GHSOM網(wǎng)絡(luò)模型的FY-2E夜間衛(wèi)星云圖分類方法研究[D];華東交通大學(xué);2015年

5 劉峰;軌道車輛MVB網(wǎng)絡(luò)模型研究與設(shè)計[D];長春工業(yè)大學(xué);2016年

6 齊亞萍;具有實數(shù)詞匯結(jié)構(gòu)的語言競爭復(fù)雜agent網(wǎng)絡(luò)模型[D];昆明理工大學(xué);2016年

7 邵春昌;基于圖理論的信息網(wǎng)絡(luò)模型研究[D];中央民族大學(xué);2016年

8 鄭光璞;模擬視覺皮層工作機制的發(fā)育網(wǎng)絡(luò)模型研究[D];鄭州大學(xué);2016年

9 張磊;微博超網(wǎng)絡(luò)模型的建立及關(guān)鍵節(jié)點識別方法研究[D];南京航空航天大學(xué);2016年

10 田茂根;并行超網(wǎng)絡(luò)的研究及其在電影評分預(yù)測等問題中的應(yīng)用[D];重慶郵電大學(xué);2016年

本文編號：1769087

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1769087.html

上一篇：基于稀疏自動編碼器的發(fā)動機機載模型建模方法研究
下一篇：基于表面拉曼光譜的光纖生化傳感技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于視覺注意力機制的深度循環(huán)Q網(wǎng)絡(luò)模型