飛行器強化學(xué)習(xí)多模在軌控制
發(fā)布時間:2021-04-14 01:28
為了提高飛行器控制系統(tǒng)長期在軌飛行的可靠性,提出了一種基于強化學(xué)習(xí)的多模式控制系統(tǒng)方案。該系統(tǒng)包括傳感器模塊、控制模塊和執(zhí)行模塊。其中,傳感器模塊用于向控制模塊實時輸入飛行器敏感的飛行數(shù)據(jù),該數(shù)據(jù)分為可供飛行器控制直接使用的具有歷史相關(guān)性的多維結(jié)構(gòu)化浮點數(shù)據(jù)以及某特定傳感器獨有的物理表征量;控制模塊使用實時并行化決策機制,分為輸入層、特征抽取層和全連接層;執(zhí)行模塊用于接收控制模塊實時輸出的驅(qū)動數(shù)據(jù),包括用于決策的狀態(tài)最優(yōu)值和用于評價的動作輸出值。系統(tǒng)根據(jù)用于決策的回報最優(yōu)值決定使用哪些具體的執(zhí)行模塊,而某個被選定的具體執(zhí)行模塊的輸出值取決于用于評價的動作輸出值。該系統(tǒng)使飛行器在多模式輸入輸出狀態(tài)下具備15ms快響應(yīng),5.23GOPs/sec/W(性能功耗比單位)性能功耗比的能力。
【文章來源】:西安電子科技大學(xué)學(xué)報. 2020,47(02)北大核心EICSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
系統(tǒng)組成框圖
控制模塊的輸入數(shù)據(jù)使用了(1)結(jié)構(gòu)化傳感浮點數(shù)據(jù),因多模塊的表現(xiàn)與輸入的結(jié)構(gòu)化傳感浮點數(shù)據(jù)有關(guān),可以根據(jù)浮點數(shù)據(jù)在不同的范圍,進行多模塊智能控制。(2)使用具有相似表征物理量雷達的回波、可見光的像素等信息,比較該信息與預(yù)設(shè)門限值的關(guān)系,則控制模塊的輸入層2將相應(yīng)傳感器集成模塊數(shù)據(jù)處于工作狀態(tài)或休眠狀態(tài)。即在t時刻,飛行器處于一個確定的狀態(tài)st,包括t時刻的結(jié)構(gòu)化傳感浮點數(shù)據(jù)st d及特有傳感器獨有的物理表征量st W1,st W2,其中W1,W2表示輸入層2的編號,上側(cè)為1,下側(cè)為2?刂颇K可以分別采用如圖2和圖3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu)。圖3 控制模塊基于A3 C的網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 控制模塊基于Deep Q-Learning網(wǎng)絡(luò)結(jié)構(gòu)圖圖2中,控制模塊基于Deep Q-Learning網(wǎng)絡(luò)結(jié)構(gòu),輸入層1,為結(jié)構(gòu)化傳感浮點數(shù)據(jù)在經(jīng)過特征抽取層1進行特征抽取后,分別與組合作為輸入層2。之后在經(jīng)過全連接層1和全連接層2進行特征降維處理后,得到最后的輸出層。輸出層的維度是2,分別表示選擇具有兩個多控制模塊這兩種動作所對應(yīng)的狀態(tài)動作Q值?刂颇K決策機制采用了強化學(xué)習(xí)方法。其最大亮點在于通過神經(jīng)網(wǎng)絡(luò)來映射狀態(tài)和狀態(tài)動作Q值函數(shù)之間的關(guān)系。由于多控制模塊的輸入都是同樣的傳感結(jié)構(gòu)化浮點數(shù),具有一定的對稱性。
本文編號:3136385
【文章來源】:西安電子科技大學(xué)學(xué)報. 2020,47(02)北大核心EICSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
系統(tǒng)組成框圖
控制模塊的輸入數(shù)據(jù)使用了(1)結(jié)構(gòu)化傳感浮點數(shù)據(jù),因多模塊的表現(xiàn)與輸入的結(jié)構(gòu)化傳感浮點數(shù)據(jù)有關(guān),可以根據(jù)浮點數(shù)據(jù)在不同的范圍,進行多模塊智能控制。(2)使用具有相似表征物理量雷達的回波、可見光的像素等信息,比較該信息與預(yù)設(shè)門限值的關(guān)系,則控制模塊的輸入層2將相應(yīng)傳感器集成模塊數(shù)據(jù)處于工作狀態(tài)或休眠狀態(tài)。即在t時刻,飛行器處于一個確定的狀態(tài)st,包括t時刻的結(jié)構(gòu)化傳感浮點數(shù)據(jù)st d及特有傳感器獨有的物理表征量st W1,st W2,其中W1,W2表示輸入層2的編號,上側(cè)為1,下側(cè)為2?刂颇K可以分別采用如圖2和圖3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu)。圖3 控制模塊基于A3 C的網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 控制模塊基于Deep Q-Learning網(wǎng)絡(luò)結(jié)構(gòu)圖圖2中,控制模塊基于Deep Q-Learning網(wǎng)絡(luò)結(jié)構(gòu),輸入層1,為結(jié)構(gòu)化傳感浮點數(shù)據(jù)在經(jīng)過特征抽取層1進行特征抽取后,分別與組合作為輸入層2。之后在經(jīng)過全連接層1和全連接層2進行特征降維處理后,得到最后的輸出層。輸出層的維度是2,分別表示選擇具有兩個多控制模塊這兩種動作所對應(yīng)的狀態(tài)動作Q值?刂颇K決策機制采用了強化學(xué)習(xí)方法。其最大亮點在于通過神經(jīng)網(wǎng)絡(luò)來映射狀態(tài)和狀態(tài)動作Q值函數(shù)之間的關(guān)系。由于多控制模塊的輸入都是同樣的傳感結(jié)構(gòu)化浮點數(shù),具有一定的對稱性。
本文編號:3136385
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/3136385.html
最近更新
教材專著