基于深度強(qiáng)化學(xué)習(xí)的多小區(qū)功率分配算法
發(fā)布時(shí)間:2021-01-06 04:37
在OFDM蜂窩網(wǎng)絡(luò)下行鏈路中,功率控制與資源調(diào)度是決定系統(tǒng)性能的關(guān)鍵,對多小區(qū)功率分配和資源分配問題進(jìn)行研究。首先,對多小區(qū)蜂窩網(wǎng)絡(luò)資源分配和系統(tǒng)容量問題進(jìn)行建模,控制基站的傳輸功率。其次,利用深度Q學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)算法,最大限度地提高整個(gè)網(wǎng)絡(luò)的總?cè)萘?提出一種基于深度Q網(wǎng)絡(luò)(DQN,deep Q-network)的無線資源映射方法和適用于多小區(qū)功率分配的深度神經(jīng)網(wǎng)絡(luò)。通過仿真分析,與傳統(tǒng)Q學(xué)習(xí)方法相比,提出的DQN可以獲得更高的系統(tǒng)容量,并且在收斂速度和穩(wěn)定性方面有顯著提高。
【文章來源】:技術(shù)與市場. 2020,27(10)
【文章頁數(shù)】:4 頁
【部分圖文】:
系統(tǒng)模型
DQN的網(wǎng)絡(luò)結(jié)構(gòu)為卷積層和全連接層,輸出動作對應(yīng)的概率,結(jié)構(gòu)可以由圖2表示。算法采用Q學(xué)習(xí)機(jī)制,主要根據(jù)如式(10)所示的迭代式來實(shí)現(xiàn)動作狀態(tài)值函數(shù)的優(yōu)化學(xué)習(xí)。
網(wǎng)絡(luò)的收斂性如圖4所示,可知Q學(xué)習(xí)的波動較大。Q學(xué)習(xí)在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)生變化時(shí)需重新計(jì)算和收斂。但在動態(tài)場景中,雖然DQN也會出現(xiàn)波動,與Q學(xué)習(xí)相比還是比較穩(wěn)定的。同時(shí),隨著深度神經(jīng)網(wǎng)絡(luò)策略的加強(qiáng),DQN大大提高了頻譜效率。圖4 收斂速度比較
【參考文獻(xiàn)】:
期刊論文
[1]基于深度強(qiáng)化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法[J]. 廖曉閩,嚴(yán)少虎,石嘉,譚震宇,趙鐘靈,李贊. 通信學(xué)報(bào). 2019(02)
[2]基于TD-error自適應(yīng)校正的深度Q學(xué)習(xí)主動采樣方法[J]. 白辰甲,劉鵬,趙巍,唐降龍. 計(jì)算機(jī)研究與發(fā)展. 2019(02)
本文編號:2959942
【文章來源】:技術(shù)與市場. 2020,27(10)
【文章頁數(shù)】:4 頁
【部分圖文】:
系統(tǒng)模型
DQN的網(wǎng)絡(luò)結(jié)構(gòu)為卷積層和全連接層,輸出動作對應(yīng)的概率,結(jié)構(gòu)可以由圖2表示。算法采用Q學(xué)習(xí)機(jī)制,主要根據(jù)如式(10)所示的迭代式來實(shí)現(xiàn)動作狀態(tài)值函數(shù)的優(yōu)化學(xué)習(xí)。
網(wǎng)絡(luò)的收斂性如圖4所示,可知Q學(xué)習(xí)的波動較大。Q學(xué)習(xí)在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)生變化時(shí)需重新計(jì)算和收斂。但在動態(tài)場景中,雖然DQN也會出現(xiàn)波動,與Q學(xué)習(xí)相比還是比較穩(wěn)定的。同時(shí),隨著深度神經(jīng)網(wǎng)絡(luò)策略的加強(qiáng),DQN大大提高了頻譜效率。圖4 收斂速度比較
【參考文獻(xiàn)】:
期刊論文
[1]基于深度強(qiáng)化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法[J]. 廖曉閩,嚴(yán)少虎,石嘉,譚震宇,趙鐘靈,李贊. 通信學(xué)報(bào). 2019(02)
[2]基于TD-error自適應(yīng)校正的深度Q學(xué)習(xí)主動采樣方法[J]. 白辰甲,劉鵬,趙巍,唐降龍. 計(jì)算機(jī)研究與發(fā)展. 2019(02)
本文編號:2959942
本文鏈接:http://sikaile.net/kejilunwen/wltx/2959942.html
最近更新
教材專著