基于強(qiáng)化學(xué)習(xí)的參數(shù)化電路優(yōu)化算法
發(fā)布時(shí)間:2021-08-16 08:53
本文主要致力于解決參數(shù)化形式的優(yōu)化問題,即minθf(θ,w),其中θ是需要優(yōu)化的變量,w則是對(duì)應(yīng)不同優(yōu)化問題的參數(shù),在現(xiàn)實(shí)中經(jīng)常會(huì)遇到需要解決一系列不同參數(shù)下的優(yōu)化問題.在對(duì)某種特定結(jié)構(gòu)的問題下,通過對(duì)不同的參數(shù)訓(xùn)練一個(gè)模型來解決所有參數(shù)下的優(yōu)化問題.和傳統(tǒng)的方法不一樣,并不是通過對(duì)不同的參數(shù)多次獨(dú)立抽樣來訓(xùn)練我們的模型,而是利用強(qiáng)化學(xué)習(xí)的方法加速訓(xùn)練過程.強(qiáng)化學(xué)習(xí)算法中分別用策略網(wǎng)絡(luò)來得到優(yōu)化結(jié)果和利用價(jià)值網(wǎng)絡(luò)來評(píng)價(jià)策略好壞,通過迭代地訓(xùn)練兩個(gè)網(wǎng)絡(luò)來優(yōu)化策略.在后面一些數(shù)學(xué)例子和電路優(yōu)化的例子中顯示強(qiáng)化學(xué)習(xí)的方法取得了比較好的效果.
【文章來源】:微電子學(xué)與計(jì)算機(jī). 2019,36(01)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1環(huán)境與智能體的關(guān)系基于觀測量作出一個(gè)動(dòng)作隨后環(huán)境更新當(dāng)前狀態(tài)
f:S→瓗作為強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境E,目標(biāo)函數(shù)中的優(yōu)化變量θt作為狀態(tài)st,每次智能體從環(huán)境中觀測得到的觀測量除了狀態(tài)之外,還包括了目標(biāo)函數(shù)中的參數(shù)w,而智能體充當(dāng)了優(yōu)化過程中的優(yōu)化器的作用,每次提供的動(dòng)作作為當(dāng)前狀態(tài)的更新量Δθ.最后我們定義回報(bào)函數(shù)為rt=f(θt+1)-f(θt),也就是說當(dāng)優(yōu)化器使得目標(biāo)函數(shù)減小的程度越多,得到的回報(bào)就越大.現(xiàn)在我們成功的將一個(gè)參數(shù)的優(yōu)化問題轉(zhuǎn)化為了一個(gè)強(qiáng)化學(xué)習(xí)的任務(wù),如圖2所示.圖2轉(zhuǎn)化成強(qiáng)化學(xué)習(xí)任務(wù)的優(yōu)化器框架4實(shí)驗(yàn)4.1實(shí)現(xiàn)細(xì)節(jié)在我們的實(shí)驗(yàn)中,我們使用了簡單的淺層全連接網(wǎng)絡(luò)來搭建策略網(wǎng)絡(luò)和判定網(wǎng)絡(luò).在訓(xùn)練過程中,使用Adam優(yōu)化器來優(yōu)化網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率被設(shè)置為0.001,訓(xùn)練步數(shù)設(shè)置為30000次,其中一步表示智能體作出一次動(dòng)作.回報(bào)折價(jià)因子設(shè)置為0.99,軟更新常數(shù)設(shè)置為0.001.OpenAIGym是一個(gè)為強(qiáng)化學(xué)習(xí)算法提供環(huán)境接口的工具箱,里面有許多集成的環(huán)境,包括離散動(dòng)作空間和連續(xù)動(dòng)作空間等,里面每個(gè)環(huán)境都有公共的接口,也可以自己實(shí)現(xiàn)環(huán)境的接口來自定義環(huán)境,只需要實(shí)現(xiàn)以下幾個(gè)接口即可:reset接口負(fù)責(zé)將環(huán)境內(nèi)部的所有狀態(tài)初始化為原始狀態(tài),可以是隨機(jī)初始化也可以初始化為特定值;sample接口負(fù)責(zé)從動(dòng)作空間(是gym包中的一個(gè)spaces對(duì)象)中隨機(jī)抽取一個(gè)動(dòng)作;step接口接收一個(gè)動(dòng)作作為輸入?yún)?shù),更新環(huán)境內(nèi)部的狀態(tài)后,返回新的觀測量ot,回報(bào)rt,一
函數(shù),可以表示為以下形式:f(θ;W,b)=‖Wθ-b‖22在這個(gè)實(shí)驗(yàn)中,我們利用DDPG算法訓(xùn)練了一個(gè)簡單的優(yōu)化器來優(yōu)化一個(gè)8維的二次型函數(shù).其中優(yōu)化變量為θ,即長度為8的向量,參數(shù)為W,{b},分別是8×8大小的矩陣和長度為8的向量.在優(yōu)化過程中,我們將W轉(zhuǎn)化為64維的向量,與b拼接起來作為參數(shù).每次初始化環(huán)境時(shí),θ和W,{b}隨機(jī)地由高斯分布生成,用于訓(xùn)練優(yōu)化器.圖3二次型函數(shù)的收斂曲線使用傳統(tǒng)的優(yōu)化算法(差分進(jìn)化)、梯度下降算法和訓(xùn)練好的優(yōu)化器的收斂曲線如圖3.為了定量地比較收斂情況,我們分別從收斂步數(shù)和收斂的相對(duì)誤差來比較各個(gè)算法的表現(xiàn),相對(duì)誤差定義為如下形式:relative_loss=loss*final-lossddpgfinallossinitloss*final為目標(biāo)函數(shù)在各算法下收斂后的大小.84
本文編號(hào):3345369
【文章來源】:微電子學(xué)與計(jì)算機(jī). 2019,36(01)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1環(huán)境與智能體的關(guān)系基于觀測量作出一個(gè)動(dòng)作隨后環(huán)境更新當(dāng)前狀態(tài)
f:S→瓗作為強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境E,目標(biāo)函數(shù)中的優(yōu)化變量θt作為狀態(tài)st,每次智能體從環(huán)境中觀測得到的觀測量除了狀態(tài)之外,還包括了目標(biāo)函數(shù)中的參數(shù)w,而智能體充當(dāng)了優(yōu)化過程中的優(yōu)化器的作用,每次提供的動(dòng)作作為當(dāng)前狀態(tài)的更新量Δθ.最后我們定義回報(bào)函數(shù)為rt=f(θt+1)-f(θt),也就是說當(dāng)優(yōu)化器使得目標(biāo)函數(shù)減小的程度越多,得到的回報(bào)就越大.現(xiàn)在我們成功的將一個(gè)參數(shù)的優(yōu)化問題轉(zhuǎn)化為了一個(gè)強(qiáng)化學(xué)習(xí)的任務(wù),如圖2所示.圖2轉(zhuǎn)化成強(qiáng)化學(xué)習(xí)任務(wù)的優(yōu)化器框架4實(shí)驗(yàn)4.1實(shí)現(xiàn)細(xì)節(jié)在我們的實(shí)驗(yàn)中,我們使用了簡單的淺層全連接網(wǎng)絡(luò)來搭建策略網(wǎng)絡(luò)和判定網(wǎng)絡(luò).在訓(xùn)練過程中,使用Adam優(yōu)化器來優(yōu)化網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率被設(shè)置為0.001,訓(xùn)練步數(shù)設(shè)置為30000次,其中一步表示智能體作出一次動(dòng)作.回報(bào)折價(jià)因子設(shè)置為0.99,軟更新常數(shù)設(shè)置為0.001.OpenAIGym是一個(gè)為強(qiáng)化學(xué)習(xí)算法提供環(huán)境接口的工具箱,里面有許多集成的環(huán)境,包括離散動(dòng)作空間和連續(xù)動(dòng)作空間等,里面每個(gè)環(huán)境都有公共的接口,也可以自己實(shí)現(xiàn)環(huán)境的接口來自定義環(huán)境,只需要實(shí)現(xiàn)以下幾個(gè)接口即可:reset接口負(fù)責(zé)將環(huán)境內(nèi)部的所有狀態(tài)初始化為原始狀態(tài),可以是隨機(jī)初始化也可以初始化為特定值;sample接口負(fù)責(zé)從動(dòng)作空間(是gym包中的一個(gè)spaces對(duì)象)中隨機(jī)抽取一個(gè)動(dòng)作;step接口接收一個(gè)動(dòng)作作為輸入?yún)?shù),更新環(huán)境內(nèi)部的狀態(tài)后,返回新的觀測量ot,回報(bào)rt,一
函數(shù),可以表示為以下形式:f(θ;W,b)=‖Wθ-b‖22在這個(gè)實(shí)驗(yàn)中,我們利用DDPG算法訓(xùn)練了一個(gè)簡單的優(yōu)化器來優(yōu)化一個(gè)8維的二次型函數(shù).其中優(yōu)化變量為θ,即長度為8的向量,參數(shù)為W,{b},分別是8×8大小的矩陣和長度為8的向量.在優(yōu)化過程中,我們將W轉(zhuǎn)化為64維的向量,與b拼接起來作為參數(shù).每次初始化環(huán)境時(shí),θ和W,{b}隨機(jī)地由高斯分布生成,用于訓(xùn)練優(yōu)化器.圖3二次型函數(shù)的收斂曲線使用傳統(tǒng)的優(yōu)化算法(差分進(jìn)化)、梯度下降算法和訓(xùn)練好的優(yōu)化器的收斂曲線如圖3.為了定量地比較收斂情況,我們分別從收斂步數(shù)和收斂的相對(duì)誤差來比較各個(gè)算法的表現(xiàn),相對(duì)誤差定義為如下形式:relative_loss=loss*final-lossddpgfinallossinitloss*final為目標(biāo)函數(shù)在各算法下收斂后的大小.84
本文編號(hào):3345369
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3345369.html
最近更新
教材專著