天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

穩(wěn)定的深度增強(qiáng)學(xué)習(xí)算法研究

發(fā)布時(shí)間:2022-01-08 02:18
  深度增強(qiáng)學(xué)習(xí)是深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的有機(jī)結(jié)合,繼承了他們各自的優(yōu)點(diǎn),包括深度學(xué)習(xí)對(duì)事物較強(qiáng)的感知能力以及增強(qiáng)學(xué)習(xí)較強(qiáng)的決策能力,但也仍具有深度學(xué)習(xí)或增強(qiáng)學(xué)習(xí)中存在的一些問(wèn)題。如較多基于值的深度增強(qiáng)學(xué)習(xí)算法仍具有原始增強(qiáng)學(xué)習(xí)算法中的過(guò)高(低)計(jì)問(wèn)題,過(guò)高(低)估計(jì)會(huì)產(chǎn)生正(負(fù))偏差從而影響算法的穩(wěn)定性,因此本文針對(duì)該問(wèn)題進(jìn)行了以下工作:(1)分析研究了影響增強(qiáng)學(xué)習(xí)穩(wěn)定性的因素,從偏差和方差兩大方面進(jìn)行了探討。在偏差方面包括正偏差、負(fù)偏差和妄想偏差;在方差方面包括隨機(jī)方差和重要性采樣方差。本文分析了這些因素產(chǎn)生的原因和對(duì)算法穩(wěn)定性造成的影響,為解決這些問(wèn)題提供了思路。(2)針對(duì)解決正負(fù)偏差問(wèn)題,本文創(chuàng)新的提出了一種名為交錯(cuò)存取的解決方法,該方法包括三個(gè)部分:一是提出了一種新的估計(jì)器——耦合估計(jì)器,耦合估計(jì)器可以權(quán)衡最大估計(jì)器和雙估計(jì)器產(chǎn)生的正負(fù)偏差,提高估計(jì)的準(zhǔn)確率;二是對(duì)耦合估計(jì)器的耦合率提出了一種創(chuàng)新的設(shè)計(jì)方式,使得耦合率可以根據(jù)樣本的變化自適應(yīng)的調(diào)節(jié)進(jìn)而提高性能;三是在耦合估計(jì)器的基礎(chǔ)上引入交錯(cuò)存取的方式,進(jìn)一步降低耦合估計(jì)器的方差。本文將這三部分統(tǒng)稱(chēng)為交錯(cuò)存取方法。(3)將交錯(cuò)存取方... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

穩(wěn)定的深度增強(qiáng)學(xué)習(xí)算法研究


一個(gè)簡(jiǎn)單的馬爾可夫決策過(guò)程實(shí)例

樣本,差別


樣就把最大估計(jì)器和雙估計(jì)器統(tǒng)一起來(lái),它們之間唯一的差別就兩個(gè)估計(jì)器是否獨(dú)立,而估計(jì)器的獨(dú)立取決取估計(jì)器所用的樣本是否獨(dú)立,形象的表示如圖 3-1: (a)

過(guò)程圖,樣本,過(guò)程,估計(jì)值


電子科技大學(xué)碩士學(xué)位論文20圖3-2通過(guò)耦合樣本得到耦合估計(jì)器的過(guò)程現(xiàn)在我們將最大估計(jì)器,雙估計(jì)器和耦合估計(jì)器統(tǒng)一到了同一層面:最大估計(jì)器為兩個(gè)完全相同的估計(jì)器;雙估計(jì)器為兩個(gè)相互獨(dú)立的估計(jì)器;耦合估計(jì)器為兩個(gè)相互耦合的估計(jì)器,且三種估計(jì)器都采用交叉估計(jì)的方式。因而耦合估計(jì)器是最大估計(jì)器和雙估計(jì)器的中間狀態(tài),其估計(jì)值也應(yīng)在兩者之間,即:(())≤(())≤(()),具體證明如下:(())=((2))=(∑()(2))=∑()((1∩2)+(1)(1∩2))=∑()(((1∩2))+(1)((1∩2)))=∑()(()+(1)())(3-2)由上述推導(dǎo)可以看耦合估計(jì)器的估計(jì)值是最大估計(jì)器和雙估計(jì)器關(guān)于耦合系數(shù)的加權(quán),從而可以由此推出耦合估計(jì)器估計(jì)值的上下界:上界:(())=∑()(()+(1)())

【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn).  計(jì)算機(jī)學(xué)報(bào). 2018(01)
[2]關(guān)于詹森不等式證明不等式問(wèn)題[J]. 劉勇.  科教文匯(中旬刊). 2009(10)



本文編號(hào):3575709

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3575709.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)20ab1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com