天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

一種基于視覺注意力機制的深度循環(huán)Q網(wǎng)絡模型

發(fā)布時間:2018-04-18 16:08

  本文選題:深度學習 + 強化學習 ; 參考:《計算機學報》2017年06期


【摘要】:由現(xiàn)代強化學習和深度學習相結(jié)合形成的深度強化學習方法是目前人工智能領(lǐng)域一個新的研究熱點,已經(jīng)在各種需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務中取得了實質(zhì)性的突破.尤其是一種被稱為深度Q網(wǎng)絡的模型在處理諸如Atari 2600游戲這類趨于真實環(huán)境的復雜問題時表現(xiàn)出了和人類玩家相媲美的水平.然而,當存在有延遲的獎賞而導致需要長時間步規(guī)劃才能優(yōu)化策略的情形中,深度Q網(wǎng)絡的表現(xiàn)就會急劇下降.這說明深度Q網(wǎng)絡并不擅長解決戰(zhàn)略性深度強化學習任務.針對此問題,文中使用帶視覺注意力機制的循環(huán)神經(jīng)網(wǎng)絡改進了傳統(tǒng)的深度Q網(wǎng)絡模型,提出了一種較為完善的深度強化學習模型.新模型的關(guān)鍵思想有兩點:一是使用雙層門限循環(huán)單元構(gòu)成的循環(huán)神經(jīng)網(wǎng)絡模塊來記憶較長時間步內(nèi)的歷史信息.這使得Agent能夠及時使用有延遲的反饋獎賞來正確地指導下一步的動作選擇;二是通過視覺注意力機制自適應地將注意力集中于面積較小但更具價值的圖像區(qū)域,從而使得Agent能夠更加高效地學習近似最優(yōu)策略.該文通過選取一些經(jīng)典的Atari 2600戰(zhàn)略性游戲作為實驗對象來評估新模型的有效性.實驗結(jié)果表明,與傳統(tǒng)的深度強化學習模型相比,新模型在一些戰(zhàn)略性任務上具有很好的性能表現(xiàn)和較高的穩(wěn)定性.
[Abstract]:The method of depth reinforcement learning, which is formed by the combination of modern reinforcement learning and deep learning, is a new research hotspot in the field of artificial intelligence.A substantial breakthrough has been made in various tasks requiring high dimensional raw input data and decision control.In particular, a model called Deep Q Network has shown a level comparable to that of human players in dealing with complex problems such as Atari 2600 games that tend to be real-world.However, when there is a delayed reward, the performance of the deep Q network will decline sharply because of the need of long step planning in order to optimize the strategy.This shows that the depth Q network is not good at solving strategic intensive learning tasks.To solve this problem, the traditional depth Q network model is improved by using the circular neural network with visual attention mechanism, and a more perfect depth reinforcement learning model is proposed.There are two key ideas in the new model: one is to use the circulatory neural network module composed of double-layer threshold cyclic unit to memorize the historical information in a long time step.This allows Agent to use delayed feedback rewards in time to correctly guide the next step of action selection; second, it adaptively focuses on smaller but more valuable image areas through visual attention mechanisms.Thus, Agent can learn approximate optimal strategy more efficiently.This paper evaluates the effectiveness of the new model by selecting some classic Atari 2600 strategic games as experimental objects.The experimental results show that the new model has good performance and stability in some strategic tasks compared with the traditional depth reinforcement learning model.
【作者單位】: 蘇州大學計算機科學與技術(shù)學院;軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;吉林大學符號計算與知識工程教育部重點實驗室;
【基金】:國家自然科學基金項目(61272005,61303108,61373094,61472262,61502323,61502329) 江蘇省自然科學基金(BK2012616) 江蘇省高校自然科學研究項目(13KJB520020,16KJB520041) 吉林大學符號計算與知識工程教育部重點實驗室基金項目(93K172014K04) 蘇州市應用基礎(chǔ)研究計劃工業(yè)部分(SYG201422,SYG201308)資助~~
【分類號】:TP18

【參考文獻】

相關(guān)期刊論文 前5條

1 黎亞雄;張堅強;潘登;胡憚;;基于RNN-RBM語言模型的語音識別研究[J];計算機研究與發(fā)展;2014年09期

2 梁淑芬;劉銀華;李立琛;;基于LBP和深度學習的非限制條件下人臉識別算法[J];通信學報;2014年06期

3 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計算機學報;2014年03期

4 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期

5 高陽;周如益;王皓;曹志新;;平均獎賞強化學習算法研究[J];計算機學報;2007年08期

【共引文獻】

相關(guān)期刊論文 前10條

1 涂中文;趙艷明;宋金寶;;基于自動編碼器的語音音色客觀評價[J];中國傳媒大學學報(自然科學版);2017年04期

2 黃壽喜;邱衛(wèi)根;;基于改進的深度信念網(wǎng)絡的人臉表情識別[J];計算機工程與設計;2017年06期

3 王準;何元烈;;基于混合價值計算的云存儲緩存替換方案[J];計算機工程與設計;2017年06期

4 劉全;翟建偉;鐘珊;章宗長;周倩;章鵬;;一種基于視覺注意力機制的深度循環(huán)Q網(wǎng)絡模型[J];計算機學報;2017年06期

5 宋超;許道云;秦永彬;;分離多路卷積神經(jīng)網(wǎng)絡研究[J];計算機工程;2017年06期

6 史佳琪;張建華;;基于深度學習的超短期光伏精細化預測模型研究[J];電力建設;2017年06期

7 顧亞風;葉學義;夏經(jīng)文;夏胡云;;基于卷積神經(jīng)網(wǎng)絡的古玩圖片分類方法[J];軟件導刊;2017年05期

8 沈忠華;;新技術(shù)視域下的教育大數(shù)據(jù)與教育評估新探——兼論區(qū)塊鏈技術(shù)對在線教育評估的影響[J];遠程教育雜志;2017年03期

9 韓潔;李盛陽;張濤;;基于深度學習的遙感影像城市擴展方法研究[J];載人航天;2017年03期

10 王曉輝;朱永利;郭豐娟;;基于同步監(jiān)測和深度學習的電容器介損角辨識[J];電力建設;2017年05期

【二級參考文獻】

相關(guān)期刊論文 前1條

1 劉全;傅啟明;龔聲蓉;伏玉琛;崔志明;;最小狀態(tài)變元平均獎賞的強化學習方法[J];通信學報;2011年01期

【相似文獻】

相關(guān)期刊論文 前10條

1 黃威,林麗閩,宋亮;基于第三方整合的商業(yè)網(wǎng)絡模型[J];合肥工業(yè)大學學報(自然科學版);2003年S1期

2 韋洛霞;耦合生長網(wǎng)絡模型的模擬[J];河南大學學報(自然科學版);2004年02期

3 郝玉;葉世偉;;基于軟競爭機制的對傳網(wǎng)絡模型及應用[J];計算機仿真;2006年03期

4 馬費成;王曉光;;知識轉(zhuǎn)移的社會網(wǎng)絡模型研究[J];江西社會科學;2006年07期

5 孟凡玲;范向軍;;水電工程監(jiān)理評標BP網(wǎng)絡模型研究[J];人民黃河;2007年07期

6 李文林;苗靜;劉振紅;;含時滯的復雜動態(tài)網(wǎng)絡模型的指數(shù)同步[J];河南師范大學學報(自然科學版);2009年05期

7 魯智勇;張權(quán);張希;唐朝京;;等效分組級聯(lián)BP網(wǎng)絡模型及其應用[J];電子學報;2010年06期

8 江瓊琴;宋文廣;;一種改進的BP網(wǎng)絡模型在唇裂手術(shù)預測分析中的應用[J];池州學院學報;2012年06期

9 殷洪義 ,榮明宗 ,周昭南 ,周曼殊;網(wǎng)絡模型的統(tǒng)一表征[J];國防科技大學學報;1981年02期

10 戴顯砥,,戴郁;生產(chǎn)與存貯問題的網(wǎng)絡模型[J];基建優(yōu)化;1995年01期

相關(guān)會議論文 前10條

1 張書超;那日薩;;具有老化機制的阿波羅網(wǎng)絡模型[A];2006全國復雜網(wǎng)絡學術(shù)會議論文集[C];2006年

2 王仲君;黃紅球;;一個具有確定度分布的有向網(wǎng)絡模型[A];2006全國復雜網(wǎng)絡學術(shù)會議論文集[C];2006年

3 李季明;張寧;;具有隨機性的確定性網(wǎng)絡模型[A];2006全國復雜網(wǎng)絡學術(shù)會議論文集[C];2006年

4 秦紹萌;陳勇;;生態(tài)系統(tǒng)宏觀演化的網(wǎng)絡模型[A];2006全國復雜網(wǎng)絡學術(shù)會議論文集[C];2006年

5 駱繼明;郭新軍;;分布復雜機電系統(tǒng)網(wǎng)絡模型圖自動生成算法研究[A];煤礦機電一體化新技術(shù)創(chuàng)新與發(fā)展2012學術(shù)年會論文集[C];2012年

6 周勝利;耿顯民;;具有真實網(wǎng)絡一般特性的復雜網(wǎng)絡模型[A];第七屆中國不確定系統(tǒng)年會論文集[C];2009年

7 楊洪勇;王福生;;基于帶寬的Internet網(wǎng)絡模型[A];2007中國控制與決策學術(shù)年會論文集[C];2007年

8 趙雁飛;劉永忠;陳三強;孫皓;;冷凍干燥過程相遷移和相分布的孔尺度網(wǎng)絡模型與模擬[A];第八屆全國冷凍干燥學術(shù)交流會論文集[C];2005年

9 梁昌洪;鄭家駿;;復電介質(zhì)反演的精確網(wǎng)絡模型[A];2001年全國微波毫米波會議論文集[C];2001年

10 劉杰;陸君安;;兩類復雜網(wǎng)絡模型及其同步能力研究[A];2006全國復雜網(wǎng)絡學術(shù)會議論文集[C];2006年

相關(guān)重要報紙文章 前3條

1 ;智能光網(wǎng)絡的網(wǎng)絡模型[N];人民郵電;2003年

2 馮衛(wèi)東;美構(gòu)建可快速確認基因功能的基因網(wǎng)絡模型[N];科技日報;2008年

3 賀贊暉 唐大海;價格網(wǎng)絡與金融屬性定價[N];期貨日報;2010年

相關(guān)博士學位論文 前10條

1 齊峰;人工神經(jīng)樹網(wǎng)絡模型的優(yōu)化研究與應用[D];山東師范大學;2011年

2 李淑靜;復合復雜網(wǎng)絡模型研究與應用[D];青島大學;2011年

3 譚利;復雜網(wǎng)絡模型及應用研究[D];中南大學;2010年

4 隋毅;多子網(wǎng)復合復雜網(wǎng)絡模型及其相關(guān)性質(zhì)的研究[D];青島大學;2012年

5 黃朝琴;基于離散縫洞網(wǎng)絡模型的多尺度兩相流動模擬理論研究[D];中國石油大學(華東);2012年

6 岳博;Bayes網(wǎng)絡模型及其學習算法研究[D];西安電子科技大學;2002年

7 彭利民;基于Cayley圖的無線P2P覆蓋網(wǎng)絡模型及相關(guān)技術(shù)研究[D];華南理工大學;2011年

8 王晨晨;碳酸鹽巖介質(zhì)雙孔隙網(wǎng)絡模型構(gòu)建理論與方法[D];中國石油大學(華東);2013年

9 蔡先鋒;礦井三維地理網(wǎng)絡模型及網(wǎng)絡分析研究[D];中國礦業(yè)大學(北京);2012年

10 姜江;證據(jù)網(wǎng)絡建模、推理及學習方法研究[D];國防科學技術(shù)大學;2011年

相關(guān)碩士學位論文 前10條

1 王芳;基于深度信念網(wǎng)絡的資源檢索與推薦系統(tǒng)[D];北京郵電大學;2015年

2 楊光勇;科研合作超網(wǎng)絡模型的構(gòu)建及其應用研究[D];上海理工大學;2013年

3 李倩;深度網(wǎng)絡模型構(gòu)建及學習算法研究[D];西安電子科技大學;2014年

4 閆廷亞;基于GHSOM網(wǎng)絡模型的FY-2E夜間衛(wèi)星云圖分類方法研究[D];華東交通大學;2015年

5 劉峰;軌道車輛MVB網(wǎng)絡模型研究與設計[D];長春工業(yè)大學;2016年

6 齊亞萍;具有實數(shù)詞匯結(jié)構(gòu)的語言競爭復雜agent網(wǎng)絡模型[D];昆明理工大學;2016年

7 邵春昌;基于圖理論的信息網(wǎng)絡模型研究[D];中央民族大學;2016年

8 鄭光璞;模擬視覺皮層工作機制的發(fā)育網(wǎng)絡模型研究[D];鄭州大學;2016年

9 張磊;微博超網(wǎng)絡模型的建立及關(guān)鍵節(jié)點識別方法研究[D];南京航空航天大學;2016年

10 田茂根;并行超網(wǎng)絡的研究及其在電影評分預測等問題中的應用[D];重慶郵電大學;2016年



本文編號:1769087

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1769087.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶52155***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com