基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究
本文關(guān)鍵詞:基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究
更多相關(guān)文章: 強(qiáng)化學(xué)習(xí) 搜索策略 搜索熵
【摘要】:強(qiáng)化學(xué)習(xí)和大部分機(jī)器學(xué)習(xí)不同的地方,在于強(qiáng)化學(xué)習(xí)系統(tǒng)不是告訴智能體如何產(chǎn)生正確的動(dòng)作,而是通過試錯(cuò)(Trial-and-Error)來發(fā)現(xiàn)哪些動(dòng)作會(huì)產(chǎn)生最大的回報(bào)。這種非精確信息形式的反饋,更能滿足在信息缺乏的環(huán)境或者動(dòng)態(tài)環(huán)境中的控制要求。強(qiáng)化學(xué)習(xí)不僅是人工智能和機(jī)器人學(xué)習(xí)領(lǐng)域的重點(diǎn)研究方向,也在運(yùn)動(dòng)控制、移動(dòng)機(jī)器人路徑規(guī)劃等領(lǐng)域具有相當(dāng)強(qiáng)的適用性。強(qiáng)化學(xué)習(xí)模仿人類在未知環(huán)境中自然的學(xué)習(xí)方式,以目標(biāo)為導(dǎo)向,在智能體與環(huán)境的交互的過程中,通過試錯(cuò)式的動(dòng)作和感知環(huán)境響應(yīng)的反饋來學(xué)習(xí)到最優(yōu)解。強(qiáng)化學(xué)習(xí)的過程,本質(zhì)上也是與環(huán)境交互來進(jìn)行知識(shí)完備的過程。而在這個(gè)過程中,動(dòng)作選擇機(jī)制既需要利用已經(jīng)學(xué)習(xí)到的知識(shí),也需要探索未知的知識(shí)。搜索(Exploration)和利用(Exploitation)各有利弊,這二者之間的平衡是影響智能體對(duì)環(huán)境的理解程度以及對(duì)算法性能優(yōu)化程度的關(guān)鍵之一。本文詳盡分析了強(qiáng)化學(xué)習(xí)中的經(jīng)典搜索策略:隨機(jī)游走、貪心算法、Softmax方法以及概率動(dòng)作選擇機(jī)制。針對(duì)目前缺少搜索策略分析工具的問題,基于強(qiáng)化學(xué)習(xí)是降低選擇動(dòng)作不確定度的過程,提出搜索熵(Exploration Entropy,EE)概念,來對(duì)強(qiáng)化學(xué)習(xí)的搜索策略進(jìn)行定量的分析與描述,并給出基于EE判定算法終止的條件。并在實(shí)際案例應(yīng)用中,演示了搜索熵作為一個(gè)定量分析工具對(duì)搜索和利用之間的平衡以及算法性能的分析作用。在實(shí)驗(yàn)部分,采用不同搜索策略,分別對(duì)一個(gè)確定馬爾可夫過程狀態(tài)轉(zhuǎn)移問題和一個(gè)較為復(fù)雜的微觀自旋量子系統(tǒng)的學(xué)習(xí)控制問題進(jìn)行數(shù)值仿真,從宏觀和微觀兩方面的應(yīng)用來驗(yàn)證搜索熵的適用性。進(jìn)一步論證了搜索熵作為分析強(qiáng)化學(xué)習(xí)搜索策略的工具,可以為分析算法性能提供一個(gè)有效的參考指標(biāo)。
【關(guān)鍵詞】:強(qiáng)化學(xué)習(xí) 搜索策略 搜索熵
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181
【目錄】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 緒論11-18
- 1.1 研究背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀及分析12-16
- 1.2.1 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀及分析12-15
- 1.2.2 搜索策略的研究現(xiàn)狀及分析15-16
- 1.3 論文的結(jié)構(gòu)安排16-18
- 第二章 強(qiáng)化學(xué)習(xí)18-28
- 2.1 強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)18-23
- 2.1.1 馬爾可夫決策過程19-20
- 2.1.2 強(qiáng)化學(xué)習(xí)的模型20-23
- 2.2 強(qiáng)化學(xué)習(xí)中的經(jīng)典算法23-27
- 2.2.1 瞬時(shí)差分算法24-25
- 2.2.2 Q-Learning算法25-27
- 2.3 本章小結(jié)27-28
- 第三章 搜索熵28-46
- 3.1 搜索策略28-34
- 3.1.1 搜索與利用的平衡28-30
- 3.1.2 典型搜索策略30-34
- 3.2 搜索熵34-40
- 3.2.1 熵:從熱力學(xué)到信息學(xué)的物理量34-37
- 3.2.2 搜索熵定義及性質(zhì)37-40
- 3.3 搜索熵在算法分析中的應(yīng)用40-44
- 3.4 本章小結(jié)44-46
- 第四章 仿真實(shí)驗(yàn)46-67
- 4.1 實(shí)驗(yàn)一:馬爾可夫狀態(tài)轉(zhuǎn)移問題46-56
- 4.1.1 盲貪心策略48-49
- 4.1.2 貪心策略49-51
- 4.1.3 混合貪心策略51-52
- 4.1.4 Softmax方法52-54
- 4.1.5 概率分布動(dòng)作選擇機(jī)制54-56
- 4.2 實(shí)驗(yàn)二:自旋量子系統(tǒng)的學(xué)習(xí)控制問題56-65
- 4.2.1 盲搜索策略58-59
- 4.2.2 貪心策略59-61
- 4.2.3 混合貪心策略61-63
- 4.2.4 概率分布動(dòng)作選擇機(jī)制63-65
- 4.3 實(shí)驗(yàn)結(jié)論65-67
- 第五章 總結(jié)與展望67-69
- 5.1 總結(jié)67-68
- 5.2 展望68-69
- 致謝69-70
- 參考文獻(xiàn)70-73
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 那一沙,徐炳亭;搜索策略及其技術(shù)實(shí)現(xiàn)[J];天津大學(xué)學(xué)報(bào);2001年05期
2 劉漢興;劉財(cái)興;;主題爬蟲的搜索策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期
3 鄭啟富;劉化章;;迭代全息搜索策略及其在動(dòng)力學(xué)參數(shù)估計(jì)中的應(yīng)用[J];高;瘜W(xué)工程學(xué)報(bào);2007年03期
4 楊仁廣;孟祥增;;網(wǎng)絡(luò)多媒體主題搜索策略研究[J];中國科技資源導(dǎo)刊;2009年02期
5 歐陽柳波,李學(xué)勇,李國徽,王鑫;網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)展研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期
6 盛軼君;胡_g;;納什均衡在電腦圍棋多層博弈搜索策略中的應(yīng)用[J];沿海企業(yè)與科技;2006年04期
7 張?jiān)?蘆東昕;;面向目標(biāo)的博弈搜索策略及其應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年03期
8 李昊;;基于圖搜索策略的數(shù)獨(dú)問題算法與實(shí)現(xiàn)[J];通化師范學(xué)院學(xué)報(bào);2009年10期
9 陳永彬;張琢;張?zhí)?;一種基于蟻群算法的主題爬蟲搜索策略[J];微型機(jī)與應(yīng)用;2011年01期
10 謝劍斌;劉通;王金巖;何亦征;;基于快速遞推和搜索策略的優(yōu)化2維熵分割算法[J];中國圖象圖形學(xué)報(bào);2008年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 汪秉宏;;網(wǎng)絡(luò)交通流中的路由搜索策略及相變[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年
2 王典樂;任照峰;牟靈泉;;基于并行計(jì)算和網(wǎng)絡(luò)應(yīng)用的暖通空調(diào)CAD搜索策略應(yīng)用探討[A];全國暖通空調(diào)制冷2002年學(xué)術(shù)年會(huì)論文集[C];2002年
3 何立居;李啟華;;基于蟻群算法的航線自動(dòng)生成研究[A];中國航海科技優(yōu)秀論文集[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 高霖;社會(huì)網(wǎng)絡(luò)動(dòng)態(tài)性及網(wǎng)絡(luò)環(huán)境中的分布式搜索策略研究[D];中國科學(xué)技術(shù)大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳竺宏;基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究[D];南京大學(xué);2016年
2 晏仲琦;復(fù)雜網(wǎng)絡(luò)中局部搜索策略的研究[D];湖北大學(xué);2012年
3 張玲;智能信息采集搜索策略研究[D];湖南大學(xué);2004年
4 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學(xué);2007年
5 林強(qiáng);位置無關(guān)多邊形搜索策略的研究[D];蘭州理工大學(xué);2009年
6 藺志峰;復(fù)雜網(wǎng)絡(luò)的搜索策略研究[D];石家莊經(jīng)濟(jì)學(xué)院;2011年
7 逯廣瑞;基于地理定位的協(xié)同緩存移動(dòng)P2P網(wǎng)絡(luò)資源搜索策略研究[D];哈爾濱工程大學(xué);2013年
8 王學(xué)磊;基于JXTA的P2P資源搜索策略的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2008年
9 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年
10 李俊寧;復(fù)雜疾病多位點(diǎn)關(guān)聯(lián)分析中的錯(cuò)誤率控制[D];清華大學(xué);2005年
,本文編號(hào):1113497
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1113497.html