當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于CGAN的避擾通信決策網(wǎng)絡(luò)離線式訓(xùn)練方法

發(fā)布時間：2021-05-28 14:53

　　基于強化學(xué)習(xí)的避擾通信,由于需要不斷地與環(huán)境交互從中學(xué)習(xí)到最優(yōu)決策,其決策網(wǎng)絡(luò)的訓(xùn)練時間受環(huán)境反饋速率的約束,通常耗時嚴(yán)重。針對這一問題,提出了一種離線式訓(xùn)練方法。構(gòu)建出一種頻譜虛擬環(huán)境生成器,可以快速生成大量的逼真合成頻譜瀑布圖,用于避擾通信決策網(wǎng)絡(luò)訓(xùn)練。由于所提方法脫離真實環(huán)境反饋,形成離線式訓(xùn)練,進而顯著提高模型訓(xùn)練效率。實驗結(jié)果表明:與實時在線訓(xùn)練方法比較,所提離線式訓(xùn)練方法的訓(xùn)練時間可以減少50%以上。

【文章來源】：北京航空航天大學(xué)學(xué)報. 2020,46(07)北大核心EICSCD

【文章頁數(shù)】：10 頁

【部分圖文】：

合成SW圖和真實SW圖

頻譜,目標(biāo)網(wǎng)絡(luò),決策網(wǎng),頻譜

ADRLA[3]是一種典型的基于深度學(xué)習(xí)和強化學(xué)習(xí)技術(shù)的避擾通信算法,其本質(zhì)是一個最優(yōu)頻點決策網(wǎng)絡(luò)。該網(wǎng)絡(luò)以當(dāng)前環(huán)境SW圖作為輸入,并輸出無干擾的當(dāng)前最優(yōu)通信頻點。其網(wǎng)絡(luò)模型的訓(xùn)練方法借鑒了DQN(Deep Q learning Network)[10-11]的訓(xùn)練思想,訓(xùn)練過程如圖1所示[3]。圖中:狀態(tài)S和S′均為SW圖,大小為T×N的二維矩陣(T為頻譜數(shù)據(jù)的歷史采樣時長,N為頻譜采樣點數(shù));D為固定大小的經(jīng)驗池,用于存儲訓(xùn)練過程中的成敗經(jīng)驗;e為存儲在經(jīng)驗池D中的一個經(jīng)驗元組。ADRLA中有2個相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(3個卷積層、2個全連接層),分別稱為目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò)。目標(biāo)網(wǎng)絡(luò)中的輸出值Qtarget表示當(dāng)用戶在狀態(tài)S下選擇動作a時的衰減得分,即

框架圖,離線式,框架,決策網(wǎng)

本文所提框架包含兩部分。第1部分:基于CGAN技術(shù)構(gòu)建頻譜虛擬環(huán)境生成器。環(huán)境生成器可以快速生成符合真實SW圖分布的合成SW圖,為避擾通信決策網(wǎng)絡(luò)提供實時交互的訓(xùn)練數(shù)據(jù)。第2部分:利用第1部分得到的頻譜虛擬環(huán)境生成器模擬真實電磁環(huán)境的反饋頻譜圖,對避擾通信決策網(wǎng)絡(luò)進行離線式快速訓(xùn)練。具體框架如圖2所示。2.1 基于CGAN的頻譜虛擬環(huán)境生成器

【參考文獻】：
期刊論文
[1]A Heterogeneous Information Fusion Deep Reinforcement Learning for Intelligent Frequency Selection of HF Communication[J]. Xin Liu,Yuhua Xu,Yunpeng Cheng,Yangyang Li,Lei Zhao,Xiaobo Zhang. 中國通信. 2018(09)

本文編號：3208250

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/3208250.html

上一篇：基于北斗技術(shù)的野外作業(yè)信息系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：分布式星群協(xié)作通信與空時編碼技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CGAN的避擾通信決策網(wǎng)絡(luò)離線式訓(xùn)練方法