學(xué)習(xí)引導(dǎo)的高維優(yōu)化方法研究
發(fā)布時(shí)間:2021-02-10 21:47
在求解黑盒優(yōu)化問題時(shí),演化算法可以被看作是一類通用的優(yōu)化器。不過隨著待優(yōu)化問題維度的增加,演化算法會(huì)遇到所謂的“維數(shù)災(zāi)難”問題。目前針對(duì)高維優(yōu)化問題的研究仍是演化領(lǐng)域的難點(diǎn)和熱點(diǎn)之一。本論文從學(xué)習(xí)的角度出發(fā),試圖通過學(xué)得關(guān)于問題的先驗(yàn)知識(shí)來幫助算法在高維優(yōu)化中取得更好的效果。具體而言,本論文的研究工作和成果主要包含如下兩個(gè)方面:1.針對(duì)大規(guī)模全局優(yōu)化問題中CMA-ES算法計(jì)算代價(jià)大、優(yōu)化效果差的問題,利用基于相關(guān)系數(shù)的分組(CCG)策略和模型復(fù)雜度控制(MCC)框架來移除高斯模型中冗余的自由度,以降低建模和采樣的代價(jià),提升優(yōu)化效果。2.針對(duì)序列決策問題中規(guī)劃長(zhǎng)度選取的困境,引入策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)來從歷史的經(jīng)驗(yàn)中學(xué)習(xí),進(jìn)而指導(dǎo)搜索,使得智能體能以較短的規(guī)劃長(zhǎng)度和較少的搜索代價(jià)取得更好的規(guī)劃結(jié)果。在CEC 2010大規(guī)模全局優(yōu)化測(cè)試集上,本論文提出的MCC-CCG-CMAES算法統(tǒng)計(jì)顯著地優(yōu)于所對(duì)比的十種最先進(jìn)的算法。在OpenAI Gym的運(yùn)動(dòng)控制測(cè)試環(huán)境中,本論文提出的p-RHEA算法的得分也統(tǒng)計(jì)顯著地高于在線規(guī)劃方法和強(qiáng)化學(xué)習(xí)方法。本論文的兩個(gè)主要工作都具有普適的應(yīng)用價(jià)值,對(duì)更加合理...
【文章來源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2智能體與環(huán)境交互過程??
?第1章緒?論???v?‘1:'?“‘丨士—“二'‘?>??丨?^?二,',卜心馨^:遠(yuǎn)-.??rir?]?F?mIC?^??(a)?Ant-v2?(b)?Humanoid-v2?(c)?HalfCheetah-v2??m_m-^??■ri^^5'3?■論??(d)?Hopper-v2?(e)?Swimmer-v2?(f)?Walker2d-v2??(g)?InvertedPendulum-v2?(h)?InvertedDoublePendulum-v2??圖1.3?MuJoCo運(yùn)動(dòng)仿真環(huán)境??1.4研究難點(diǎn)及創(chuàng)新之處??高維的實(shí)值優(yōu)化問題出現(xiàn)在很多現(xiàn)實(shí)世界的場(chǎng)景中[11,13_141它們?cè)谘莼I(lǐng)??域一直是一類非常具有挑戰(zhàn)性的任務(wù)。近些年,眾多學(xué)者們做了一系列嘗試來將??演化算法應(yīng)用在高維優(yōu)化問題中,并取得了一些重要的成果[151?紤]到CMA-ES??算法在低維優(yōu)化中表現(xiàn)優(yōu)異,但在高維優(yōu)化中往往由于0(D2)的計(jì)算復(fù)雜度而??難以直接應(yīng)用,本論文試圖從以下兩個(gè)角度做出一些改進(jìn),以期其能在高維優(yōu)化??中同樣有出色的表現(xiàn)。??1.在大規(guī)模全局優(yōu)化問題中,待優(yōu)化的問題的維度固定為D=?1000。要想準(zhǔn)??確估計(jì)CMA-ES算法中協(xié)方差矩陣的參數(shù),需要采樣更多的個(gè)體,這樣會(huì)??6??
?第2章相關(guān)工作綜述???特殊形式,即所有的子空間的大小均為^?=?1。雖然只使用了協(xié)方差矩陣的對(duì)角??線元素,即變量間所有的相關(guān)性都被丟棄了,但它們?cè)诟呔S優(yōu)化問題中往往比全??相關(guān)的模型表現(xiàn)地更好,這是因?yàn)闇?zhǔn)確估計(jì)一個(gè)可靠的全相關(guān)模型需要更大的??樣本數(shù)量,這會(huì)很快地消耗完適應(yīng)度評(píng)估次數(shù)。??W?f(x)?W?W?f(s2)?W??圖2.1高斯分布PDF的簡(jiǎn)化,/(x)?=?/(Sl)/(s2)??2.2序列決策??2.2.1基于模型的規(guī)劃方法??基于模型的規(guī)劃方法是一類在線的方法,智能體通過探索未來環(huán)境來進(jìn)行??當(dāng)前的決策。這類方法不需要事先訓(xùn)練,但需要一個(gè)前向模型(Forward?Model,??簡(jiǎn)稱FM)以允許智能體直接跳轉(zhuǎn)回它經(jīng)歷過的狀態(tài)。??MCTS[3W71是一種典型的基于模型的規(guī)劃方法,它通過仿真的方式構(gòu)建起??—棵逐步增長(zhǎng)的搜索樹。MCTS中的每個(gè)結(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài)s,其孩子結(jié)點(diǎn)為下??一步可能到達(dá)的狀態(tài)/,連接結(jié)點(diǎn)的邊對(duì)應(yīng)兩狀態(tài)之間所采取的動(dòng)作同時(shí),??樹中的每個(gè)結(jié)點(diǎn)保留著仿真過程中的統(tǒng)計(jì)信息:ATG,a)表示從狀態(tài)s出發(fā)的路??徑經(jīng)過邊a的次數(shù);〇(S,4表示從狀態(tài)s出發(fā)、經(jīng)過邊a的路徑的平均累積獎(jiǎng)??勵(lì)。在每一次仿真中,MCTS首先從根結(jié)點(diǎn)(也就是當(dāng)前狀態(tài)S()?=?s)出發(fā),按??照如下的上置信界[38]?(Upper?Confidence?Bounds?for?Tree,簡(jiǎn)稱UCT)公式選擇??下一個(gè)動(dòng)作?<,直到到達(dá)葉子結(jié)點(diǎn)V:??llnHa,N(snat)??a'=7^rs^)?+?l?(2-6)??其中參數(shù)〇可以用來平衡算法的開發(fā)性(對(duì)應(yīng)前一項(xiàng))與探索性(對(duì)應(yīng)后一項(xiàng))。
本文編號(hào):3028040
【文章來源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2智能體與環(huán)境交互過程??
?第1章緒?論???v?‘1:'?“‘丨士—“二'‘?>??丨?^?二,',卜心馨^:遠(yuǎn)-.??rir?]?F?mIC?^??(a)?Ant-v2?(b)?Humanoid-v2?(c)?HalfCheetah-v2??m_m-^??■ri^^5'3?■論??(d)?Hopper-v2?(e)?Swimmer-v2?(f)?Walker2d-v2??(g)?InvertedPendulum-v2?(h)?InvertedDoublePendulum-v2??圖1.3?MuJoCo運(yùn)動(dòng)仿真環(huán)境??1.4研究難點(diǎn)及創(chuàng)新之處??高維的實(shí)值優(yōu)化問題出現(xiàn)在很多現(xiàn)實(shí)世界的場(chǎng)景中[11,13_141它們?cè)谘莼I(lǐng)??域一直是一類非常具有挑戰(zhàn)性的任務(wù)。近些年,眾多學(xué)者們做了一系列嘗試來將??演化算法應(yīng)用在高維優(yōu)化問題中,并取得了一些重要的成果[151?紤]到CMA-ES??算法在低維優(yōu)化中表現(xiàn)優(yōu)異,但在高維優(yōu)化中往往由于0(D2)的計(jì)算復(fù)雜度而??難以直接應(yīng)用,本論文試圖從以下兩個(gè)角度做出一些改進(jìn),以期其能在高維優(yōu)化??中同樣有出色的表現(xiàn)。??1.在大規(guī)模全局優(yōu)化問題中,待優(yōu)化的問題的維度固定為D=?1000。要想準(zhǔn)??確估計(jì)CMA-ES算法中協(xié)方差矩陣的參數(shù),需要采樣更多的個(gè)體,這樣會(huì)??6??
?第2章相關(guān)工作綜述???特殊形式,即所有的子空間的大小均為^?=?1。雖然只使用了協(xié)方差矩陣的對(duì)角??線元素,即變量間所有的相關(guān)性都被丟棄了,但它們?cè)诟呔S優(yōu)化問題中往往比全??相關(guān)的模型表現(xiàn)地更好,這是因?yàn)闇?zhǔn)確估計(jì)一個(gè)可靠的全相關(guān)模型需要更大的??樣本數(shù)量,這會(huì)很快地消耗完適應(yīng)度評(píng)估次數(shù)。??W?f(x)?W?W?f(s2)?W??圖2.1高斯分布PDF的簡(jiǎn)化,/(x)?=?/(Sl)/(s2)??2.2序列決策??2.2.1基于模型的規(guī)劃方法??基于模型的規(guī)劃方法是一類在線的方法,智能體通過探索未來環(huán)境來進(jìn)行??當(dāng)前的決策。這類方法不需要事先訓(xùn)練,但需要一個(gè)前向模型(Forward?Model,??簡(jiǎn)稱FM)以允許智能體直接跳轉(zhuǎn)回它經(jīng)歷過的狀態(tài)。??MCTS[3W71是一種典型的基于模型的規(guī)劃方法,它通過仿真的方式構(gòu)建起??—棵逐步增長(zhǎng)的搜索樹。MCTS中的每個(gè)結(jié)點(diǎn)對(duì)應(yīng)一個(gè)狀態(tài)s,其孩子結(jié)點(diǎn)為下??一步可能到達(dá)的狀態(tài)/,連接結(jié)點(diǎn)的邊對(duì)應(yīng)兩狀態(tài)之間所采取的動(dòng)作同時(shí),??樹中的每個(gè)結(jié)點(diǎn)保留著仿真過程中的統(tǒng)計(jì)信息:ATG,a)表示從狀態(tài)s出發(fā)的路??徑經(jīng)過邊a的次數(shù);〇(S,4表示從狀態(tài)s出發(fā)、經(jīng)過邊a的路徑的平均累積獎(jiǎng)??勵(lì)。在每一次仿真中,MCTS首先從根結(jié)點(diǎn)(也就是當(dāng)前狀態(tài)S()?=?s)出發(fā),按??照如下的上置信界[38]?(Upper?Confidence?Bounds?for?Tree,簡(jiǎn)稱UCT)公式選擇??下一個(gè)動(dòng)作?<,直到到達(dá)葉子結(jié)點(diǎn)V:??llnHa,N(snat)??a'=7^rs^)?+?l?(2-6)??其中參數(shù)〇可以用來平衡算法的開發(fā)性(對(duì)應(yīng)前一項(xiàng))與探索性(對(duì)應(yīng)后一項(xiàng))。
本文編號(hào):3028040
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3028040.html
最近更新
教材專著