基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法研究
發(fā)布時(shí)間:2021-03-13 10:34
隨著信息化的不斷加深,人工智能技術(shù)的發(fā)展進(jìn)入黃金時(shí)期。人工智能技術(shù)作為現(xiàn)代化社會(huì)和信息化社會(huì)發(fā)展的分水嶺,技術(shù)成熟和應(yīng)用受到各個(gè)科技領(lǐng)域的廣泛關(guān)注,與移動(dòng)機(jī)器人技術(shù)的結(jié)合更是越來(lái)越多的專家的研究熱點(diǎn)。其中,強(qiáng)化學(xué)習(xí)作為一種非監(jiān)督且自身更新能力較強(qiáng)的機(jī)器學(xué)習(xí)方法,非常符合移動(dòng)機(jī)器人合理應(yīng)對(duì)各種情況的需求。針對(duì)地圖殘缺或環(huán)境未知狀況的路徑規(guī)劃問(wèn)題,研究基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。首先,針對(duì)強(qiáng)化學(xué)習(xí)算法的探索權(quán)衡問(wèn)題,設(shè)計(jì)一種基于策略選擇模型的Q-Learning算法。該方法根據(jù)Agent運(yùn)動(dòng)過(guò)程中的環(huán)境信息,結(jié)合路徑規(guī)劃任務(wù)需求,對(duì)經(jīng)典Q-Learning算法進(jìn)行改進(jìn)。以策略迭代算法為基礎(chǔ)設(shè)計(jì)策略選擇算法,并將策略選擇算法容嵌在Q-Learning算法前端,增加Agent策略選擇策略集的能力,提高計(jì)算效率和最優(yōu)策略的適應(yīng)度。與傳統(tǒng)的Q-Learning算法相比,基于策略選擇算法的Q-Learning算法能夠得到一個(gè)更加優(yōu)化的策略結(jié)果。然后,針對(duì)動(dòng)態(tài)未知環(huán)境的情況,設(shè)計(jì)一種情感學(xué)習(xí)系統(tǒng),將Agent的情感學(xué)習(xí)系統(tǒng)劃分為外環(huán)境系統(tǒng)和內(nèi)環(huán)境系統(tǒng)雙層結(jié)構(gòu),輔助強(qiáng)化學(xué)習(xí)系統(tǒng)。在外環(huán)境系統(tǒng)中,針對(duì)強(qiáng)化...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GridWorld場(chǎng)景
Q-Learning 算法學(xué)習(xí)結(jié)果
策略選擇QL算法學(xué)習(xí)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[2]人工智能中的仿生學(xué)[J]. 謝強(qiáng). 科技導(dǎo)報(bào). 2016(07)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民. 計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]移動(dòng)機(jī)器人路徑規(guī)劃技術(shù)綜述[J]. 朱大奇,顏明重. 控制與決策. 2010(07)
[5]機(jī)器學(xué)習(xí)理論研究[J]. 郭亞寧,馮莎莎. 中國(guó)科技信息. 2010(14)
[6]對(duì)理性和情感關(guān)注的起源[J]. 馬春玲,張曉密. 哈爾濱學(xué)院學(xué)報(bào). 2009(12)
[7]禁忌搜索算法[J]. 季敏惠. 電腦知識(shí)與技術(shù). 2009(27)
[8]基于大腦情感回路的人工情感智能模型[J]. 王上飛,王煦法. 模式識(shí)別與人工智能. 2007(02)
[9]多步截?cái)鄡?yōu)先掃描強(qiáng)化學(xué)習(xí)算法[J]. 李春貴. 計(jì)算機(jī)工程. 2005(11)
[10]移動(dòng)機(jī)器人避障模糊控制[J]. 陳華志,謝存禧. 機(jī)床與液壓. 2004(11)
博士論文
[1]生物啟發(fā)的多無(wú)人機(jī)協(xié)同四維航跡規(guī)劃方法研究[D]. 楊祖強(qiáng).浙江大學(xué) 2016
碩士論文
[1]基于A*算法的避障應(yīng)用仿真[D]. 楊銀濤.鄭州大學(xué) 2014
[2]基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究[D]. 許亞.山東大學(xué) 2013
本文編號(hào):3080065
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
GridWorld場(chǎng)景
Q-Learning 算法學(xué)習(xí)結(jié)果
策略選擇QL算法學(xué)習(xí)結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[2]人工智能中的仿生學(xué)[J]. 謝強(qiáng). 科技導(dǎo)報(bào). 2016(07)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民. 計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]移動(dòng)機(jī)器人路徑規(guī)劃技術(shù)綜述[J]. 朱大奇,顏明重. 控制與決策. 2010(07)
[5]機(jī)器學(xué)習(xí)理論研究[J]. 郭亞寧,馮莎莎. 中國(guó)科技信息. 2010(14)
[6]對(duì)理性和情感關(guān)注的起源[J]. 馬春玲,張曉密. 哈爾濱學(xué)院學(xué)報(bào). 2009(12)
[7]禁忌搜索算法[J]. 季敏惠. 電腦知識(shí)與技術(shù). 2009(27)
[8]基于大腦情感回路的人工情感智能模型[J]. 王上飛,王煦法. 模式識(shí)別與人工智能. 2007(02)
[9]多步截?cái)鄡?yōu)先掃描強(qiáng)化學(xué)習(xí)算法[J]. 李春貴. 計(jì)算機(jī)工程. 2005(11)
[10]移動(dòng)機(jī)器人避障模糊控制[J]. 陳華志,謝存禧. 機(jī)床與液壓. 2004(11)
博士論文
[1]生物啟發(fā)的多無(wú)人機(jī)協(xié)同四維航跡規(guī)劃方法研究[D]. 楊祖強(qiáng).浙江大學(xué) 2016
碩士論文
[1]基于A*算法的避障應(yīng)用仿真[D]. 楊銀濤.鄭州大學(xué) 2014
[2]基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究[D]. 許亞.山東大學(xué) 2013
本文編號(hào):3080065
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3080065.html
最近更新
教材專著