當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法研究

發(fā)布時(shí)間：2021-03-13 10:34

　　隨著信息化的不斷加深,人工智能技術(shù)的發(fā)展進(jìn)入黃金時(shí)期。人工智能技術(shù)作為現(xiàn)代化社會(huì)和信息化社會(huì)發(fā)展的分水嶺,技術(shù)成熟和應(yīng)用受到各個(gè)科技領(lǐng)域的廣泛關(guān)注,與移動(dòng)機(jī)器人技術(shù)的結(jié)合更是越來(lái)越多的專家的研究熱點(diǎn)。其中,強(qiáng)化學(xué)習(xí)作為一種非監(jiān)督且自身更新能力較強(qiáng)的機(jī)器學(xué)習(xí)方法,非常符合移動(dòng)機(jī)器人合理應(yīng)對(duì)各種情況的需求。針對(duì)地圖殘缺或環(huán)境未知狀況的路徑規(guī)劃問(wèn)題,研究基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。首先,針對(duì)強(qiáng)化學(xué)習(xí)算法的探索權(quán)衡問(wèn)題,設(shè)計(jì)一種基于策略選擇模型的Q-Learning算法。該方法根據(jù)Agent運(yùn)動(dòng)過(guò)程中的環(huán)境信息,結(jié)合路徑規(guī)劃任務(wù)需求,對(duì)經(jīng)典Q-Learning算法進(jìn)行改進(jìn)。以策略迭代算法為基礎(chǔ)設(shè)計(jì)策略選擇算法,并將策略選擇算法容嵌在Q-Learning算法前端,增加Agent策略選擇策略集的能力,提高計(jì)算效率和最優(yōu)策略的適應(yīng)度。與傳統(tǒng)的Q-Learning算法相比,基于策略選擇算法的Q-Learning算法能夠得到一個(gè)更加優(yōu)化的策略結(jié)果。然后,針對(duì)動(dòng)態(tài)未知環(huán)境的情況,設(shè)計(jì)一種情感學(xué)習(xí)系統(tǒng),將Agent的情感學(xué)習(xí)系統(tǒng)劃分為外環(huán)境系統(tǒng)和內(nèi)環(huán)境系統(tǒng)雙層結(jié)構(gòu),輔助強(qiáng)化學(xué)習(xí)系統(tǒng)。在外環(huán)境系統(tǒng)中,針對(duì)強(qiáng)化...

【文章來(lái)源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】：69 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

GridWorld場(chǎng)景

基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法研究

Q-Learning 算法學(xué)習(xí)結(jié)果

基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法研究

策略選擇QL算法學(xué)習(xí)結(jié)果

【參考文獻(xiàn)】：
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn).  計(jì)算機(jī)學(xué)報(bào). 2018(01)
[2]人工智能中的仿生學(xué)[J]. 謝強(qiáng).  科技導(dǎo)報(bào). 2016(07)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民.  計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]移動(dòng)機(jī)器人路徑規(guī)劃技術(shù)綜述[J]. 朱大奇,顏明重.  控制與決策. 2010(07)
[5]機(jī)器學(xué)習(xí)理論研究[J]. 郭亞寧,馮莎莎.  中國(guó)科技信息. 2010(14)
[6]對(duì)理性和情感關(guān)注的起源[J]. 馬春玲,張曉密.  哈爾濱學(xué)院學(xué)報(bào). 2009(12)
[7]禁忌搜索算法[J]. 季敏惠.  電腦知識(shí)與技術(shù). 2009(27)
[8]基于大腦情感回路的人工情感智能模型[J]. 王上飛,王煦法.  模式識(shí)別與人工智能. 2007(02)
[9]多步截?cái)鄡?yōu)先掃描強(qiáng)化學(xué)習(xí)算法[J]. 李春貴.  計(jì)算機(jī)工程. 2005(11)
[10]移動(dòng)機(jī)器人避障模糊控制[J]. 陳華志,謝存禧.  機(jī)床與液壓. 2004(11)

博士論文
[1]生物啟發(fā)的多無(wú)人機(jī)協(xié)同四維航跡規(guī)劃方法研究[D]. 楊祖強(qiáng).浙江大學(xué) 2016

碩士論文
[1]基于A*算法的避障應(yīng)用仿真[D]. 楊銀濤.鄭州大學(xué) 2014
[2]基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究[D]. 許亞.山東大學(xué) 2013

本文編號(hào)：3080065

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3080065.html

上一篇：基于異構(gòu)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的長(zhǎng)非編碼RNA-疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)
下一篇：一種變剛度柔性手爪的設(shè)計(jì)及實(shí)驗(yàn)驗(yàn)證

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法研究