小天體三維測繪觀測規(guī)劃方法研究
發(fā)布時間:2021-03-24 18:12
如今小天體探測已經(jīng)成為深空探測中的重要項目,對于發(fā)展太空經(jīng)濟,驗證深空探測技術(shù)有重要意義。針對小天體的三維測繪工作是小天體探測工作中的重要一環(huán)。三維測繪工作針對小天體拍攝圖像,傳送回地面,通過建模程序建立三維模型。由于高清圖像只能覆蓋極小一部分小天體表面,為了建立完整的小天體三維模型,探測器需要拍攝大量高清圖像,對探測器機載存儲和通信鏈路造成壓力。因此,對拍攝工作提前進行規(guī)劃,在保證建模程序能夠正確運行的前提下,最大限度節(jié)約拍攝資源,成為一項挑戰(zhàn)。本文是機器學(xué)習(xí)方法在宇航任務(wù)中的首次探索。首先介紹小天體探測的過程,然后提出了由遠及近的“規(guī)劃-拍攝-建模-再規(guī)劃-再拍攝”的測繪規(guī)劃技術(shù)路線。在探測器向小天體接近過程中,利用以往構(gòu)造的粗糙模型,規(guī)劃下一階段測繪觀測的視線方向。提出了小天體測繪規(guī)劃強化學(xué)習(xí)的獎勵函數(shù),用強化學(xué)習(xí)方法解決測繪規(guī)劃問題。本文研究內(nèi)容主要包括:1)針對基于光度學(xué)(Stereophotoclinometry,SPC)的小天體三維重建方法,分析了算法對于相機指向的要求,設(shè)計了獎勵函數(shù);然后將探測器的拍攝位置、拍攝方向抽象為動作;最后將過往的拍攝歷史抽象為狀態(tài)。結(jié)合小天體...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
OSIRIS-Rex75cm分辨率模型軌道[1]
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-15-池中抽取一部分的數(shù)據(jù)來用于更新,以此來打破數(shù)據(jù)間的關(guān)聯(lián)。在基于Q學(xué)習(xí)的基礎(chǔ)上,DQN需要構(gòu)建訓(xùn)練網(wǎng)絡(luò)用的損失,損失loss的定義如下:=+max′(+1,′)=12(max(,))2(2-19)圖2-1DQN模型示意圖訓(xùn)練網(wǎng)絡(luò)的過程中,最小化loss,滿足貝爾曼方程的更新過程。同時,因為訓(xùn)練樣本從一個探索序列中產(chǎn)生,相關(guān)性強DQN引入經(jīng)驗回放(ExperienceReplay)機制從經(jīng)驗池中隨機采樣數(shù)據(jù),以盡量減少樣本間的相關(guān)性,使得網(wǎng)絡(luò)更容易訓(xùn)練。另外,DQN的targetnetwork和estimatenetwork結(jié)構(gòu)一致,經(jīng)過C輪迭代之后更新targetnetwork=estimatenetwork,從而使訓(xùn)練更穩(wěn)定。2.4Actor-Critc方法Actor-Critic方法結(jié)合了基于策略梯度的方法和基于值函數(shù)的方法。Actor-Critic算法分為兩部分,actor的前身是基于策略的搜索方法,他可以輕松地在狀態(tài)、動作空間較大的情況下內(nèi)選擇合適的動作,基于值函數(shù)的Q學(xué)習(xí)無法在狀態(tài)、動作空間較大的情況下工作;但是Actor是基于回合更新參數(shù)的,所以學(xué)習(xí)效率比較慢,這時候發(fā)現(xiàn)可以使用一個基于值函數(shù)的算法作為Critic,就可以實現(xiàn)單步更新。這樣兩種算法相互補充就形成了Actor-Critic方法。玩家(Actor)根據(jù)策略參數(shù)θ,來決定在狀態(tài)S下執(zhí)行動作的概率分布,與基于策略的強化
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-16-學(xué)習(xí)方法類似;評委(Critic)根據(jù)狀態(tài)S對玩家(Actor)進行評價。玩家根據(jù)評委所給出的評價來更新自己的策略參數(shù)θ,評委根據(jù)環(huán)境所反映的真實獎賞來對自身進行調(diào)整。圖2-2Actor-Critic方法示意圖根據(jù)值函數(shù)的定義:()=[|=]=[∑++1∞=0|=](,)=[+1+(+1,+1)|=,=](2-20)其中,狀態(tài)值函數(shù)()表示在策略的前提下,從狀態(tài)s開始,可以獲得的獎勵的期望;動作-狀態(tài)值函數(shù)(,)表示在策略的前提下,從狀態(tài)s開始,執(zhí)行了動作,可以獲得的獎勵的期望。在此基礎(chǔ)上,定義優(yōu)勢函數(shù):(,)=(,)()(2-21)表示在狀態(tài)s下,選擇動作獲得的獎勵比平均值高出多少。對于玩家(Actor)來說,在策略參數(shù)為θ的情況下,從狀態(tài)s開始,所能獲得的獎勵的期望為:()=∑(,)(,)(2-22)對參數(shù)θ求導(dǎo),得到:
本文編號:3098159
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
OSIRIS-Rex75cm分辨率模型軌道[1]
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-15-池中抽取一部分的數(shù)據(jù)來用于更新,以此來打破數(shù)據(jù)間的關(guān)聯(lián)。在基于Q學(xué)習(xí)的基礎(chǔ)上,DQN需要構(gòu)建訓(xùn)練網(wǎng)絡(luò)用的損失,損失loss的定義如下:=+max′(+1,′)=12(max(,))2(2-19)圖2-1DQN模型示意圖訓(xùn)練網(wǎng)絡(luò)的過程中,最小化loss,滿足貝爾曼方程的更新過程。同時,因為訓(xùn)練樣本從一個探索序列中產(chǎn)生,相關(guān)性強DQN引入經(jīng)驗回放(ExperienceReplay)機制從經(jīng)驗池中隨機采樣數(shù)據(jù),以盡量減少樣本間的相關(guān)性,使得網(wǎng)絡(luò)更容易訓(xùn)練。另外,DQN的targetnetwork和estimatenetwork結(jié)構(gòu)一致,經(jīng)過C輪迭代之后更新targetnetwork=estimatenetwork,從而使訓(xùn)練更穩(wěn)定。2.4Actor-Critc方法Actor-Critic方法結(jié)合了基于策略梯度的方法和基于值函數(shù)的方法。Actor-Critic算法分為兩部分,actor的前身是基于策略的搜索方法,他可以輕松地在狀態(tài)、動作空間較大的情況下內(nèi)選擇合適的動作,基于值函數(shù)的Q學(xué)習(xí)無法在狀態(tài)、動作空間較大的情況下工作;但是Actor是基于回合更新參數(shù)的,所以學(xué)習(xí)效率比較慢,這時候發(fā)現(xiàn)可以使用一個基于值函數(shù)的算法作為Critic,就可以實現(xiàn)單步更新。這樣兩種算法相互補充就形成了Actor-Critic方法。玩家(Actor)根據(jù)策略參數(shù)θ,來決定在狀態(tài)S下執(zhí)行動作的概率分布,與基于策略的強化
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-16-學(xué)習(xí)方法類似;評委(Critic)根據(jù)狀態(tài)S對玩家(Actor)進行評價。玩家根據(jù)評委所給出的評價來更新自己的策略參數(shù)θ,評委根據(jù)環(huán)境所反映的真實獎賞來對自身進行調(diào)整。圖2-2Actor-Critic方法示意圖根據(jù)值函數(shù)的定義:()=[|=]=[∑++1∞=0|=](,)=[+1+(+1,+1)|=,=](2-20)其中,狀態(tài)值函數(shù)()表示在策略的前提下,從狀態(tài)s開始,可以獲得的獎勵的期望;動作-狀態(tài)值函數(shù)(,)表示在策略的前提下,從狀態(tài)s開始,執(zhí)行了動作,可以獲得的獎勵的期望。在此基礎(chǔ)上,定義優(yōu)勢函數(shù):(,)=(,)()(2-21)表示在狀態(tài)s下,選擇動作獲得的獎勵比平均值高出多少。對于玩家(Actor)來說,在策略參數(shù)為θ的情況下,從狀態(tài)s開始,所能獲得的獎勵的期望為:()=∑(,)(,)(2-22)對參數(shù)θ求導(dǎo),得到:
本文編號:3098159
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3098159.html
最近更新
教材專著