基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究

發(fā)布時(shí)間：2017-10-29 15:12

本文關(guān)鍵詞：基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究

更多相關(guān)文章： 強(qiáng)化學(xué)習(xí) 搜索策略 搜索熵

【摘要】：強(qiáng)化學(xué)習(xí)和大部分機(jī)器學(xué)習(xí)不同的地方,在于強(qiáng)化學(xué)習(xí)系統(tǒng)不是告訴智能體如何產(chǎn)生正確的動(dòng)作,而是通過試錯(cuò)(Trial-and-Error)來發(fā)現(xiàn)哪些動(dòng)作會(huì)產(chǎn)生最大的回報(bào)。這種非精確信息形式的反饋,更能滿足在信息缺乏的環(huán)境或者動(dòng)態(tài)環(huán)境中的控制要求。強(qiáng)化學(xué)習(xí)不僅是人工智能和機(jī)器人學(xué)習(xí)領(lǐng)域的重點(diǎn)研究方向,也在運(yùn)動(dòng)控制、移動(dòng)機(jī)器人路徑規(guī)劃等領(lǐng)域具有相當(dāng)強(qiáng)的適用性。強(qiáng)化學(xué)習(xí)模仿人類在未知環(huán)境中自然的學(xué)習(xí)方式,以目標(biāo)為導(dǎo)向,在智能體與環(huán)境的交互的過程中,通過試錯(cuò)式的動(dòng)作和感知環(huán)境響應(yīng)的反饋來學(xué)習(xí)到最優(yōu)解。強(qiáng)化學(xué)習(xí)的過程,本質(zhì)上也是與環(huán)境交互來進(jìn)行知識(shí)完備的過程。而在這個(gè)過程中,動(dòng)作選擇機(jī)制既需要利用已經(jīng)學(xué)習(xí)到的知識(shí),也需要探索未知的知識(shí)。搜索(Exploration)和利用(Exploitation)各有利弊,這二者之間的平衡是影響智能體對(duì)環(huán)境的理解程度以及對(duì)算法性能優(yōu)化程度的關(guān)鍵之一。本文詳盡分析了強(qiáng)化學(xué)習(xí)中的經(jīng)典搜索策略：隨機(jī)游走、貪心算法、Softmax方法以及概率動(dòng)作選擇機(jī)制。針對(duì)目前缺少搜索策略分析工具的問題,基于強(qiáng)化學(xué)習(xí)是降低選擇動(dòng)作不確定度的過程,提出搜索熵(Exploration Entropy,EE)概念,來對(duì)強(qiáng)化學(xué)習(xí)的搜索策略進(jìn)行定量的分析與描述,并給出基于EE判定算法終止的條件。并在實(shí)際案例應(yīng)用中,演示了搜索熵作為一個(gè)定量分析工具對(duì)搜索和利用之間的平衡以及算法性能的分析作用。在實(shí)驗(yàn)部分,采用不同搜索策略,分別對(duì)一個(gè)確定馬爾可夫過程狀態(tài)轉(zhuǎn)移問題和一個(gè)較為復(fù)雜的微觀自旋量子系統(tǒng)的學(xué)習(xí)控制問題進(jìn)行數(shù)值仿真,從宏觀和微觀兩方面的應(yīng)用來驗(yàn)證搜索熵的適用性。進(jìn)一步論證了搜索熵作為分析強(qiáng)化學(xué)習(xí)搜索策略的工具,可以為分析算法性能提供一個(gè)有效的參考指標(biāo)。
【關(guān)鍵詞】：強(qiáng)化學(xué)習(xí) 搜索策略 搜索熵
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP181
【目錄】：

摘要5-7
ABSTRACT7-11
第一章緒論11-18
1.1 研究背景和意義11-12
1.2 國內(nèi)外研究現(xiàn)狀及分析12-16
1.2.1 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀及分析12-15
1.2.2 搜索策略的研究現(xiàn)狀及分析15-16
1.3 論文的結(jié)構(gòu)安排16-18
第二章強(qiáng)化學(xué)習(xí)18-28
2.1 強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)18-23
2.1.1 馬爾可夫決策過程19-20
2.1.2 強(qiáng)化學(xué)習(xí)的模型20-23
2.2 強(qiáng)化學(xué)習(xí)中的經(jīng)典算法23-27
2.2.1 瞬時(shí)差分算法24-25
2.2.2 Q-Learning算法25-27
2.3 本章小結(jié)27-28
第三章搜索熵28-46
3.1 搜索策略28-34
3.1.1 搜索與利用的平衡28-30
3.1.2 典型搜索策略30-34
3.2 搜索熵34-40
3.2.1 熵：從熱力學(xué)到信息學(xué)的物理量34-37
3.2.2 搜索熵定義及性質(zhì)37-40
3.3 搜索熵在算法分析中的應(yīng)用40-44
3.4 本章小結(jié)44-46
第四章仿真實(shí)驗(yàn)46-67
4.1 實(shí)驗(yàn)一：馬爾可夫狀態(tài)轉(zhuǎn)移問題46-56
4.1.1 盲貪心策略48-49
4.1.2 貪心策略49-51
4.1.3 混合貪心策略51-52
4.1.4 Softmax方法52-54
4.1.5 概率分布動(dòng)作選擇機(jī)制54-56
4.2 實(shí)驗(yàn)二：自旋量子系統(tǒng)的學(xué)習(xí)控制問題56-65
4.2.1 盲搜索策略58-59
4.2.2 貪心策略59-61
4.2.3 混合貪心策略61-63
4.2.4 概率分布動(dòng)作選擇機(jī)制63-65
4.3 實(shí)驗(yàn)結(jié)論65-67
第五章總結(jié)與展望67-69
5.1 總結(jié)67-68
5.2 展望68-69
致謝69-70
參考文獻(xiàn)70-73

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 那一沙,徐炳亭;搜索策略及其技術(shù)實(shí)現(xiàn)[J];天津大學(xué)學(xué)報(bào);2001年05期

2 劉漢興;劉財(cái)興;;主題爬蟲的搜索策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期

3 鄭啟富;劉化章;;迭代全息搜索策略及其在動(dòng)力學(xué)參數(shù)估計(jì)中的應(yīng)用[J];高�；瘜W(xué)工程學(xué)報(bào);2007年03期

4 楊仁廣;孟祥增;;網(wǎng)絡(luò)多媒體主題搜索策略研究[J];中國科技資源導(dǎo)刊;2009年02期

5 歐陽柳波,李學(xué)勇,李國徽,王鑫;網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)展研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期

6 盛軼君;胡_g;;納什均衡在電腦圍棋多層博弈搜索策略中的應(yīng)用[J];沿海企業(yè)與科技;2006年04期

7 張?jiān)?蘆東昕;;面向目標(biāo)的博弈搜索策略及其應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年03期

8 李昊;;基于圖搜索策略的數(shù)獨(dú)問題算法與實(shí)現(xiàn)[J];通化師范學(xué)院學(xué)報(bào);2009年10期

9 陳永彬;張琢;張?zhí)?;一種基于蟻群算法的主題爬蟲搜索策略[J];微型機(jī)與應(yīng)用;2011年01期

10 謝劍斌;劉通;王金巖;何亦征;;基于快速遞推和搜索策略的優(yōu)化2維熵分割算法[J];中國圖象圖形學(xué)報(bào);2008年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫前3條

1 汪秉宏;;網(wǎng)絡(luò)交通流中的路由搜索策略及相變[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年

2 王典樂;任照峰;牟靈泉;;基于并行計(jì)算和網(wǎng)絡(luò)應(yīng)用的暖通空調(diào)CAD搜索策略應(yīng)用探討[A];全國暖通空調(diào)制冷2002年學(xué)術(shù)年會(huì)論文集[C];2002年

3 何立居;李啟華;;基于蟻群算法的航線自動(dòng)生成研究[A];中國航海科技優(yōu)秀論文集[C];2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫前1條

1 高霖;社會(huì)網(wǎng)絡(luò)動(dòng)態(tài)性及網(wǎng)絡(luò)環(huán)境中的分布式搜索策略研究[D];中國科學(xué)技術(shù)大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 陳竺宏;基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究[D];南京大學(xué);2016年

2 晏仲琦;復(fù)雜網(wǎng)絡(luò)中局部搜索策略的研究[D];湖北大學(xué);2012年

3 張玲;智能信息采集搜索策略研究[D];湖南大學(xué);2004年

4 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學(xué);2007年

5 林強(qiáng);位置無關(guān)多邊形搜索策略的研究[D];蘭州理工大學(xué);2009年

6 藺志峰;復(fù)雜網(wǎng)絡(luò)的搜索策略研究[D];石家莊經(jīng)濟(jì)學(xué)院;2011年

7 逯廣瑞;基于地理定位的協(xié)同緩存移動(dòng)P2P網(wǎng)絡(luò)資源搜索策略研究[D];哈爾濱工程大學(xué);2013年

8 王學(xué)磊;基于JXTA的P2P資源搜索策略的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2008年

9 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年

10 李俊寧;復(fù)雜疾病多位點(diǎn)關(guān)聯(lián)分析中的錯(cuò)誤率控制[D];清華大學(xué);2005年

，

本文編號(hào)：1113497

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1113497.html

上一篇：智能變電站在線監(jiān)測(cè)信息交互關(guān)鍵技術(shù)研究
下一篇：閥門噴涂機(jī)器人的軌跡規(guī)劃與優(yōu)化求解

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于搜索熵的強(qiáng)化學(xué)習(xí)搜索策略分析及算法研究