基于CGAN的避擾通信決策網(wǎng)絡(luò)離線式訓(xùn)練方法
發(fā)布時(shí)間:2021-05-28 14:53
基于強(qiáng)化學(xué)習(xí)的避擾通信,由于需要不斷地與環(huán)境交互從中學(xué)習(xí)到最優(yōu)決策,其決策網(wǎng)絡(luò)的訓(xùn)練時(shí)間受環(huán)境反饋速率的約束,通常耗時(shí)嚴(yán)重。針對(duì)這一問(wèn)題,提出了一種離線式訓(xùn)練方法。構(gòu)建出一種頻譜虛擬環(huán)境生成器,可以快速生成大量的逼真合成頻譜瀑布圖,用于避擾通信決策網(wǎng)絡(luò)訓(xùn)練。由于所提方法脫離真實(shí)環(huán)境反饋,形成離線式訓(xùn)練,進(jìn)而顯著提高模型訓(xùn)練效率。實(shí)驗(yàn)結(jié)果表明:與實(shí)時(shí)在線訓(xùn)練方法比較,所提離線式訓(xùn)練方法的訓(xùn)練時(shí)間可以減少50%以上。
【文章來(lái)源】:北京航空航天大學(xué)學(xué)報(bào). 2020,46(07)北大核心EICSCD
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
合成SW圖和真實(shí)SW圖
ADRLA[3]是一種典型的基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的避擾通信算法,其本質(zhì)是一個(gè)最優(yōu)頻點(diǎn)決策網(wǎng)絡(luò)。該網(wǎng)絡(luò)以當(dāng)前環(huán)境SW圖作為輸入,并輸出無(wú)干擾的當(dāng)前最優(yōu)通信頻點(diǎn)。其網(wǎng)絡(luò)模型的訓(xùn)練方法借鑒了DQN(Deep Q learning Network)[10-11]的訓(xùn)練思想,訓(xùn)練過(guò)程如圖1所示[3]。圖中:狀態(tài)S和S′均為SW圖,大小為T(mén)×N的二維矩陣(T為頻譜數(shù)據(jù)的歷史采樣時(shí)長(zhǎng),N為頻譜采樣點(diǎn)數(shù));D為固定大小的經(jīng)驗(yàn)池,用于存儲(chǔ)訓(xùn)練過(guò)程中的成敗經(jīng)驗(yàn);e為存儲(chǔ)在經(jīng)驗(yàn)池D中的一個(gè)經(jīng)驗(yàn)元組。ADRLA中有2個(gè)相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(3個(gè)卷積層、2個(gè)全連接層),分別稱(chēng)為目標(biāo)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。目標(biāo)網(wǎng)絡(luò)中的輸出值Qtarget表示當(dāng)用戶在狀態(tài)S下選擇動(dòng)作a時(shí)的衰減得分,即
本文所提框架包含兩部分。第1部分:基于CGAN技術(shù)構(gòu)建頻譜虛擬環(huán)境生成器。環(huán)境生成器可以快速生成符合真實(shí)SW圖分布的合成SW圖,為避擾通信決策網(wǎng)絡(luò)提供實(shí)時(shí)交互的訓(xùn)練數(shù)據(jù)。第2部分:利用第1部分得到的頻譜虛擬環(huán)境生成器模擬真實(shí)電磁環(huán)境的反饋頻譜圖,對(duì)避擾通信決策網(wǎng)絡(luò)進(jìn)行離線式快速訓(xùn)練。具體框架如圖2所示。2.1 基于CGAN的頻譜虛擬環(huán)境生成器
【參考文獻(xiàn)】:
期刊論文
[1]A Heterogeneous Information Fusion Deep Reinforcement Learning for Intelligent Frequency Selection of HF Communication[J]. Xin Liu,Yuhua Xu,Yunpeng Cheng,Yangyang Li,Lei Zhao,Xiaobo Zhang. 中國(guó)通信. 2018(09)
本文編號(hào):3208250
【文章來(lái)源】:北京航空航天大學(xué)學(xué)報(bào). 2020,46(07)北大核心EICSCD
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
合成SW圖和真實(shí)SW圖
ADRLA[3]是一種典型的基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的避擾通信算法,其本質(zhì)是一個(gè)最優(yōu)頻點(diǎn)決策網(wǎng)絡(luò)。該網(wǎng)絡(luò)以當(dāng)前環(huán)境SW圖作為輸入,并輸出無(wú)干擾的當(dāng)前最優(yōu)通信頻點(diǎn)。其網(wǎng)絡(luò)模型的訓(xùn)練方法借鑒了DQN(Deep Q learning Network)[10-11]的訓(xùn)練思想,訓(xùn)練過(guò)程如圖1所示[3]。圖中:狀態(tài)S和S′均為SW圖,大小為T(mén)×N的二維矩陣(T為頻譜數(shù)據(jù)的歷史采樣時(shí)長(zhǎng),N為頻譜采樣點(diǎn)數(shù));D為固定大小的經(jīng)驗(yàn)池,用于存儲(chǔ)訓(xùn)練過(guò)程中的成敗經(jīng)驗(yàn);e為存儲(chǔ)在經(jīng)驗(yàn)池D中的一個(gè)經(jīng)驗(yàn)元組。ADRLA中有2個(gè)相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(3個(gè)卷積層、2個(gè)全連接層),分別稱(chēng)為目標(biāo)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。目標(biāo)網(wǎng)絡(luò)中的輸出值Qtarget表示當(dāng)用戶在狀態(tài)S下選擇動(dòng)作a時(shí)的衰減得分,即
本文所提框架包含兩部分。第1部分:基于CGAN技術(shù)構(gòu)建頻譜虛擬環(huán)境生成器。環(huán)境生成器可以快速生成符合真實(shí)SW圖分布的合成SW圖,為避擾通信決策網(wǎng)絡(luò)提供實(shí)時(shí)交互的訓(xùn)練數(shù)據(jù)。第2部分:利用第1部分得到的頻譜虛擬環(huán)境生成器模擬真實(shí)電磁環(huán)境的反饋頻譜圖,對(duì)避擾通信決策網(wǎng)絡(luò)進(jìn)行離線式快速訓(xùn)練。具體框架如圖2所示。2.1 基于CGAN的頻譜虛擬環(huán)境生成器
【參考文獻(xiàn)】:
期刊論文
[1]A Heterogeneous Information Fusion Deep Reinforcement Learning for Intelligent Frequency Selection of HF Communication[J]. Xin Liu,Yuhua Xu,Yunpeng Cheng,Yangyang Li,Lei Zhao,Xiaobo Zhang. 中國(guó)通信. 2018(09)
本文編號(hào):3208250
本文鏈接:http://sikaile.net/kejilunwen/wltx/3208250.html
最近更新
教材專(zhuān)著