基于搜索熵的強化學習搜索策略分析及算法研究
本文關鍵詞:基于搜索熵的強化學習搜索策略分析及算法研究
【摘要】:強化學習和大部分機器學習不同的地方,在于強化學習系統(tǒng)不是告訴智能體如何產生正確的動作,而是通過試錯(Trial-and-Error)來發(fā)現(xiàn)哪些動作會產生最大的回報。這種非精確信息形式的反饋,更能滿足在信息缺乏的環(huán)境或者動態(tài)環(huán)境中的控制要求。強化學習不僅是人工智能和機器人學習領域的重點研究方向,也在運動控制、移動機器人路徑規(guī)劃等領域具有相當強的適用性。強化學習模仿人類在未知環(huán)境中自然的學習方式,以目標為導向,在智能體與環(huán)境的交互的過程中,通過試錯式的動作和感知環(huán)境響應的反饋來學習到最優(yōu)解。強化學習的過程,本質上也是與環(huán)境交互來進行知識完備的過程。而在這個過程中,動作選擇機制既需要利用已經學習到的知識,也需要探索未知的知識。搜索(Exploration)和利用(Exploitation)各有利弊,這二者之間的平衡是影響智能體對環(huán)境的理解程度以及對算法性能優(yōu)化程度的關鍵之一。本文詳盡分析了強化學習中的經典搜索策略:隨機游走、貪心算法、Softmax方法以及概率動作選擇機制。針對目前缺少搜索策略分析工具的問題,基于強化學習是降低選擇動作不確定度的過程,提出搜索熵(Exploration Entropy,EE)概念,來對強化學習的搜索策略進行定量的分析與描述,并給出基于EE判定算法終止的條件。并在實際案例應用中,演示了搜索熵作為一個定量分析工具對搜索和利用之間的平衡以及算法性能的分析作用。在實驗部分,采用不同搜索策略,分別對一個確定馬爾可夫過程狀態(tài)轉移問題和一個較為復雜的微觀自旋量子系統(tǒng)的學習控制問題進行數(shù)值仿真,從宏觀和微觀兩方面的應用來驗證搜索熵的適用性。進一步論證了搜索熵作為分析強化學習搜索策略的工具,可以為分析算法性能提供一個有效的參考指標。
【關鍵詞】:強化學習 搜索策略 搜索熵
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【目錄】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 緒論11-18
- 1.1 研究背景和意義11-12
- 1.2 國內外研究現(xiàn)狀及分析12-16
- 1.2.1 強化學習的研究現(xiàn)狀及分析12-15
- 1.2.2 搜索策略的研究現(xiàn)狀及分析15-16
- 1.3 論文的結構安排16-18
- 第二章 強化學習18-28
- 2.1 強化學習的理論基礎18-23
- 2.1.1 馬爾可夫決策過程19-20
- 2.1.2 強化學習的模型20-23
- 2.2 強化學習中的經典算法23-27
- 2.2.1 瞬時差分算法24-25
- 2.2.2 Q-Learning算法25-27
- 2.3 本章小結27-28
- 第三章 搜索熵28-46
- 3.1 搜索策略28-34
- 3.1.1 搜索與利用的平衡28-30
- 3.1.2 典型搜索策略30-34
- 3.2 搜索熵34-40
- 3.2.1 熵:從熱力學到信息學的物理量34-37
- 3.2.2 搜索熵定義及性質37-40
- 3.3 搜索熵在算法分析中的應用40-44
- 3.4 本章小結44-46
- 第四章 仿真實驗46-67
- 4.1 實驗一:馬爾可夫狀態(tài)轉移問題46-56
- 4.1.1 盲貪心策略48-49
- 4.1.2 貪心策略49-51
- 4.1.3 混合貪心策略51-52
- 4.1.4 Softmax方法52-54
- 4.1.5 概率分布動作選擇機制54-56
- 4.2 實驗二:自旋量子系統(tǒng)的學習控制問題56-65
- 4.2.1 盲搜索策略58-59
- 4.2.2 貪心策略59-61
- 4.2.3 混合貪心策略61-63
- 4.2.4 概率分布動作選擇機制63-65
- 4.3 實驗結論65-67
- 第五章 總結與展望67-69
- 5.1 總結67-68
- 5.2 展望68-69
- 致謝69-70
- 參考文獻70-73
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 那一沙,徐炳亭;搜索策略及其技術實現(xiàn)[J];天津大學學報;2001年05期
2 劉漢興;劉財興;;主題爬蟲的搜索策略研究[J];計算機工程與設計;2008年12期
3 鄭啟富;劉化章;;迭代全息搜索策略及其在動力學參數(shù)估計中的應用[J];高;瘜W工程學報;2007年03期
4 楊仁廣;孟祥增;;網絡多媒體主題搜索策略研究[J];中國科技資源導刊;2009年02期
5 歐陽柳波,李學勇,李國徽,王鑫;網絡蜘蛛搜索策略進展研究[J];小型微型計算機系統(tǒng);2005年04期
6 盛軼君;胡_g;;納什均衡在電腦圍棋多層博弈搜索策略中的應用[J];沿海企業(yè)與科技;2006年04期
7 張越;蘆東昕;;面向目標的博弈搜索策略及其應用[J];計算機技術與發(fā)展;2007年03期
8 李昊;;基于圖搜索策略的數(shù)獨問題算法與實現(xiàn)[J];通化師范學院學報;2009年10期
9 陳永彬;張琢;張?zhí)?;一種基于蟻群算法的主題爬蟲搜索策略[J];微型機與應用;2011年01期
10 謝劍斌;劉通;王金巖;何亦征;;基于快速遞推和搜索策略的優(yōu)化2維熵分割算法[J];中國圖象圖形學報;2008年04期
中國重要會議論文全文數(shù)據庫 前3條
1 汪秉宏;;網絡交通流中的路由搜索策略及相變[A];第四屆全國網絡科學學術論壇暨研究生暑期學校論文集[C];2008年
2 王典樂;任照峰;牟靈泉;;基于并行計算和網絡應用的暖通空調CAD搜索策略應用探討[A];全國暖通空調制冷2002年學術年會論文集[C];2002年
3 何立居;李啟華;;基于蟻群算法的航線自動生成研究[A];中國航?萍純(yōu)秀論文集[C];2009年
中國博士學位論文全文數(shù)據庫 前1條
1 高霖;社會網絡動態(tài)性及網絡環(huán)境中的分布式搜索策略研究[D];中國科學技術大學;2009年
中國碩士學位論文全文數(shù)據庫 前10條
1 陳竺宏;基于搜索熵的強化學習搜索策略分析及算法研究[D];南京大學;2016年
2 晏仲琦;復雜網絡中局部搜索策略的研究[D];湖北大學;2012年
3 張玲;智能信息采集搜索策略研究[D];湖南大學;2004年
4 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學;2007年
5 林強;位置無關多邊形搜索策略的研究[D];蘭州理工大學;2009年
6 藺志峰;復雜網絡的搜索策略研究[D];石家莊經濟學院;2011年
7 逯廣瑞;基于地理定位的協(xié)同緩存移動P2P網絡資源搜索策略研究[D];哈爾濱工程大學;2013年
8 王學磊;基于JXTA的P2P資源搜索策略的研究與實現(xiàn)[D];大連理工大學;2008年
9 陳叢叢;主題爬蟲搜索策略研究[D];山東大學;2009年
10 李俊寧;復雜疾病多位點關聯(lián)分析中的錯誤率控制[D];清華大學;2005年
,本文編號:1113497
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1113497.html