天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 數(shù)學(xué)論文 >

強化學(xué)習(xí)中基函數(shù)構(gòu)造方法研究

發(fā)布時間:2017-11-12 02:17

  本文關(guān)鍵詞:強化學(xué)習(xí)中基函數(shù)構(gòu)造方法研究


  更多相關(guān)文章: 強化學(xué)習(xí) 函數(shù)逼近 基函數(shù)構(gòu)造 大規(guī)模狀態(tài)空間


【摘要】:強化學(xué)習(xí)是一種從環(huán)境狀態(tài)到動作映射的學(xué)習(xí)方法。很多領(lǐng)域的實際問題都可以描述為強化學(xué)習(xí)問題,因而強化學(xué)習(xí)具有廣闊的應(yīng)用前景。但是,實際系統(tǒng)的空間往往是大規(guī);蜻B續(xù)的,強化學(xué)習(xí)不可避免地會遇到狀態(tài)變量的空間復(fù)雜度問題,即“維數(shù)災(zāi)難”。針對這一問題,本文以基函數(shù)構(gòu)造方法為基點,提出了幾種針對大規(guī)模或連續(xù)狀態(tài)空間的強化學(xué)習(xí)算法。主要研究包括以下三部分內(nèi)容:(1)針對大規(guī)模狀態(tài)空間自適應(yīng)Tile-Coding算法存在誤劃分,會導(dǎo)致存儲空間增大以及學(xué)習(xí)速率減慢的問題,在原有自適應(yīng)Tile-Coding算法的基礎(chǔ)上,提出根據(jù)一定的閾值條件對劃分后相鄰的離散區(qū)域進(jìn)行二次合并的算法。該算法消除了因為誤劃分所產(chǎn)生的不良影響,不僅能進(jìn)一步地縮減存儲空間,解決了“維數(shù)災(zāi)難”問題,而且能提高算法的學(xué)習(xí)效率.(2)針對在批量強化學(xué)習(xí)算法中遇到的所需樣本集合容量過大以及樣本選擇的問題,提出一種適用于大規(guī)模狀態(tài)空間的基于探索樹的擬合Q迭代算法。該算法在傳統(tǒng)單次采樣的擬合Q迭代算法的基礎(chǔ)上,在每輪迭代前根據(jù)各個區(qū)域的收斂程度、樣本密度的不同進(jìn)行局部采樣,引入新的樣本。該算法不僅解決了隨機(jī)采樣所帶來的收斂效果不穩(wěn)定的問題,而且在很大程度上提高了樣本的有效性,避免了過度采樣導(dǎo)致的計算量過大的問題。(3)針對傳統(tǒng)的函數(shù)逼近方法難以適用于解決高維度的大規(guī)模狀態(tài)空間的問題,提出在子特征空間上的核函數(shù)構(gòu)造方法,間接地降低了問題的維度,并使得算法能夠通過線性函數(shù)逼近的方法實現(xiàn)非線性逼近的特性。該算法解決了傳統(tǒng)的函數(shù)逼近方法在高維度的大規(guī)模狀態(tài)空間問題中,泛化能力差、逼近效果不理想等問題,提高了基函數(shù)的泛化能力以及逼近精度。
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP181;O174

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李毓榮;關(guān)于連續(xù)函數(shù)逼近命題條件的一點注記[J];天水師專學(xué)報;1987年00期

2 徐利治,楊家新;多元函數(shù)逼近研究近況述評[J];數(shù)學(xué)進(jìn)展;1987年03期

3 李拃生;;瓦勒·布然算子對Z類函數(shù)逼近的階[J];江西師范學(xué)院學(xué)報;1964年01期

4 施咸亮;;機(jī)械工程中的函數(shù)逼近問題[J];杭州大學(xué)學(xué)報(自然科學(xué)版);1977年01期

5 吳學(xué)謀;復(fù)函數(shù)逼近的一些研究(Ⅱ)[J];武漢建材學(xué)院學(xué)報;1980年04期

6 黃林穎;吳根秀;萬宇文;李瑋;;信任函數(shù)逼近方法的改進(jìn)[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2006年01期

7 劉君堯;邱嵐;;基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近[J];大眾科技;2009年09期

8 樊建修;計算機(jī)常用函數(shù)逼近方法[J];包鋼科技;1986年01期

9 李春鑫;李天偉;王孝通;;基于小波模糊網(wǎng)絡(luò)的非線性函數(shù)逼近方法的研究[J];計算機(jī)測量與控制;2006年03期

10 ;在應(yīng)用計算機(jī)的實時系統(tǒng)中函數(shù)逼近和預(yù)報的新方法[J];工學(xué)學(xué)報;1974年15期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 馮英浚;翟軍;李思彪;;基于CUSI神經(jīng)元模型的函數(shù)逼近方法[A];1996中國控制與決策學(xué)術(shù)年會論文集[C];1996年

2 滿洪高;袁向榮;高勇利;卜建清;;由廣義正交多項式函數(shù)逼近法識別橋上移動載荷[A];第八屆全國結(jié)構(gòu)工程學(xué)術(shù)會議論文集(第Ⅲ卷)[C];1999年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 施夢宇;強化學(xué)習(xí)中基函數(shù)構(gòu)造方法研究[D];蘇州大學(xué);2015年

2 朱文文;連續(xù)空間非參函數(shù)逼近方法研究[D];蘇州大學(xué);2014年

3 肖飛;用于強化學(xué)習(xí)的值函數(shù)逼近方法研究[D];蘇州大學(xué);2013年

4 朱稷涵;基于非參函數(shù)逼近的強化學(xué)習(xí)算法研究[D];蘇州大學(xué);2014年

5 陳桂興;強化學(xué)習(xí)中值函數(shù)逼近方法的研究[D];蘇州大學(xué);2014年

6 李亞楠;高維小波函數(shù)逼近[D];北方工業(yè)大學(xué);2012年

7 盛夢醒;基于TileCoding的函數(shù)逼近強化學(xué)習(xí)研究[D];蘇州大學(xué);2012年

8 段永柱;回歸SDM模型及其在函數(shù)逼近和識別中的應(yīng)用研究[D];南京航空航天大學(xué);2002年

9 宋緒文;基于函數(shù)逼近的物流車輛路徑規(guī)劃方法及應(yīng)用研究[D];蘇州大學(xué);2014年

10 戴芳;若干多元函數(shù)逼近的極值問題[D];華北電力大學(xué);2013年

,

本文編號:1173912

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/1173912.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a9908***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com