基于生成模型的世界模型建立與智能決策算法研究
發(fā)布時(shí)間:2022-02-19 22:07
智能決策一直是機(jī)器人的關(guān)鍵技術(shù)之一。當(dāng)前機(jī)器人技術(shù)的應(yīng)用正面臨著從面向結(jié)構(gòu)化的工廠環(huán)境和任務(wù)轉(zhuǎn)換到面向如家庭室內(nèi)、辦公樓、馬路、野外等復(fù)雜日常生活環(huán)境及多變?nèi)蝿?wù)的考驗(yàn),對(duì)機(jī)器人的智能化程度提出了更高的要求。現(xiàn)有的智能算法開發(fā)模式依賴于研究人員對(duì)環(huán)境及機(jī)體的提前建模,對(duì)于新的環(huán)境和機(jī)體往往需要重新建模,因此不具有通用性,開發(fā)成本巨大,無法適應(yīng)未來行業(yè)中對(duì)于智能的大量需求。本課題旨在以智能決策算法的通用性為目標(biāo),探索智能決策問題的一般化描述方法與解決方案。首先,基于強(qiáng)化學(xué)習(xí)中常用的POMDP過程建立智能決策問題的通用數(shù)學(xué)描述,并通過對(duì)其進(jìn)行分析,將智能決策算法等價(jià)于信息的提取與利用。利用信息論對(duì)環(huán)境中信息的分布方式進(jìn)行分析,最終基于世界模型概念得出解決智能決策問題的一般性框架,將世界模型按照提取的信息類型不同拆分為感知抽象和狀態(tài)預(yù)測兩個(gè)過程。并基于Mo Jo Co仿真平臺(tái),選取了5種典型的視覺控制任務(wù)作為本文的驗(yàn)證平臺(tái)。其次,推導(dǎo)感知抽象過程與生成模型之間的關(guān)系,利用POMDP過程中的內(nèi)部約束,將感知抽象過程轉(zhuǎn)化為生成問題,并基于變分自編碼器對(duì)感知抽象過程進(jìn)行了實(shí)現(xiàn)。從理論角度對(duì)優(yōu)化目標(biāo)中...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省211工程院校985工程院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源及研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀及分析
1.2.1 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.2.2 表征學(xué)習(xí)研究現(xiàn)狀
1.2.3 研究現(xiàn)狀分析
1.3 本文研究內(nèi)容
第2章 基于POMDP與信息論的智能決策問題描述方法
2.1 引言
2.2 智能決策問題的一般化描述方法
2.3 信息的存在形式
2.3.1 信息的度量方式
2.3.2 信息在觀測信號(hào)中的分布
2.4 基于世界模型的智能決策算法框架
2.5 基于MoJoCo仿真環(huán)境的任務(wù)簡介
2.6 本章小結(jié)
第3章 基于生成模型與變分自編碼器的感知抽象算法研究
3.1 引言
3.2 感知抽象過程的生成模型式描述
3.3 基于變分自編碼器的感知抽象模型
3.4 靜態(tài)表征中的信息約束分析
3.5 實(shí)驗(yàn)及結(jié)果分析
3.5.1 模型及默認(rèn)參數(shù)設(shè)置
3.5.2 感知抽象信息提取驗(yàn)證實(shí)驗(yàn)
3.6 本章小結(jié)
第4章 基于生成模型與循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)預(yù)測算法研究
4.1 引言
4.2 狀態(tài)預(yù)測過程的生成模型式描述
4.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)預(yù)測模型
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 模型及默認(rèn)參數(shù)設(shè)置
4.4.2 狀態(tài)預(yù)測模型的信息提取及預(yù)測能力實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 基于演員-評(píng)論家框架的智能決策算法與實(shí)驗(yàn)研究
5.1 引言
5.2 演員-評(píng)論家框架簡介
5.3 基于世界模型的演員-評(píng)論家控制器
5.4 實(shí)驗(yàn)及結(jié)果分析
5.4.1 模型及默認(rèn)參數(shù)設(shè)置
5.4.2 算法在線學(xué)習(xí)驗(yàn)證實(shí)驗(yàn)
5.4.3 離線學(xué)習(xí)探索實(shí)驗(yàn)
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3633704
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省211工程院校985工程院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題來源及研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀及分析
1.2.1 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.2.2 表征學(xué)習(xí)研究現(xiàn)狀
1.2.3 研究現(xiàn)狀分析
1.3 本文研究內(nèi)容
第2章 基于POMDP與信息論的智能決策問題描述方法
2.1 引言
2.2 智能決策問題的一般化描述方法
2.3 信息的存在形式
2.3.1 信息的度量方式
2.3.2 信息在觀測信號(hào)中的分布
2.4 基于世界模型的智能決策算法框架
2.5 基于MoJoCo仿真環(huán)境的任務(wù)簡介
2.6 本章小結(jié)
第3章 基于生成模型與變分自編碼器的感知抽象算法研究
3.1 引言
3.2 感知抽象過程的生成模型式描述
3.3 基于變分自編碼器的感知抽象模型
3.4 靜態(tài)表征中的信息約束分析
3.5 實(shí)驗(yàn)及結(jié)果分析
3.5.1 模型及默認(rèn)參數(shù)設(shè)置
3.5.2 感知抽象信息提取驗(yàn)證實(shí)驗(yàn)
3.6 本章小結(jié)
第4章 基于生成模型與循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)預(yù)測算法研究
4.1 引言
4.2 狀態(tài)預(yù)測過程的生成模型式描述
4.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)預(yù)測模型
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 模型及默認(rèn)參數(shù)設(shè)置
4.4.2 狀態(tài)預(yù)測模型的信息提取及預(yù)測能力實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 基于演員-評(píng)論家框架的智能決策算法與實(shí)驗(yàn)研究
5.1 引言
5.2 演員-評(píng)論家框架簡介
5.3 基于世界模型的演員-評(píng)論家控制器
5.4 實(shí)驗(yàn)及結(jié)果分析
5.4.1 模型及默認(rèn)參數(shù)設(shè)置
5.4.2 算法在線學(xué)習(xí)驗(yàn)證實(shí)驗(yàn)
5.4.3 離線學(xué)習(xí)探索實(shí)驗(yàn)
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3633704
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3633704.html
最近更新
教材專著