基于遷移強化學習的無線接入網(wǎng)能耗優(yōu)化研究
發(fā)布時間:2023-02-26 01:17
在未來的5G網(wǎng)絡中,預計將使用云無線接入網(wǎng)(C-RAN)來支持海量終端。為了滿足所有終端的需求,需要在單位面積內(nèi)部署更多的射頻拉遠頭(RRH)。從經(jīng)濟角度來看,最大限度地減少RRH的能量消耗是個很有挑戰(zhàn)的問題。從環(huán)境的角度來看,在無線網(wǎng)絡中實現(xiàn)“綠色”也是運營商的眾多目標之一。首先,對于大部分現(xiàn)有的基于深度強化學習(DRL)的能耗優(yōu)化方法,在定義環(huán)境狀態(tài)時通常都忽略了RRH與用戶終端設(shè)備(UE)之間的關(guān)聯(lián)關(guān)系,導致UE需要向RRH上報自身的信息,這帶來了額外的信令開銷,并且對于移動性場景由于無法捕捉UE的移動導致無法及時更新決策,這也限制了節(jié)能效果。其次,基于強化學習的方法通常需要定義reward,當場景發(fā)生變化時,reward的參數(shù)需要手工重新調(diào)整,這導致算法在自動化和靈活性方面還存在不足。除此之外,基于強化學習的能耗優(yōu)化算法直接將能耗問題建模成一個馬爾科夫決策過程來實現(xiàn)端到端的輸出,但是在陌生的場景中泛化能力不足,如果在新場景中重新訓練的話,時間開銷又很大。因此,本文致力于研究一個可以根據(jù)流量情況動態(tài)的激活或去激活小區(qū)的能耗優(yōu)化系統(tǒng),旨在保證UE的QoS滿意度的前提下,最小化整個系...
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究意義
1.4 研究內(nèi)容
1.5 組織結(jié)構(gòu)
1.6 本章小結(jié)
第二章 相關(guān)理論與技術(shù)
2.1 深度強化學習理論
2.1.1 深度學習
2.1.2 強化學習
2.1.3 深度強化學習
2.2 DQN算法理論
2.3 Dueling DQN算法理論
2.4 遷移學習理論
2.4.1 遷移學習的定義
2.4.2 遷移學習研究的問題
2.4.3 遷移學習的分類
2.5 C-RAN架構(gòu)
2.5.1 C-RAN架構(gòu)的概念
2.5.2 C-RAN架構(gòu)的優(yōu)勢
2.6 本章小結(jié)
第三章 無線網(wǎng)絡能耗優(yōu)化系統(tǒng)設(shè)計
3.1 場景描述
3.2 問題描述
3.3 系統(tǒng)架構(gòu)設(shè)計
3.3.1 接納控制和用戶關(guān)聯(lián)
3.3.1.1 網(wǎng)絡狀態(tài)信息采集
3.3.1.2 RRH與 UE的關(guān)聯(lián)
3.3.2 小區(qū)自動激活
3.3.3 物理資源分配
3.3.3.1 State相關(guān)信息采集
3.3.3.2 Reward相關(guān)信息采集
3.4 小區(qū)自動激活方法
3.4.1 基于CNN和 DRL的小區(qū)自動激活策略
3.4.2 基于DRL與遷移學習的小區(qū)自動激活策略
3.4.2.1 基于動態(tài)reward的小區(qū)自動激活方法
3.4.2.2 基于DRL和遷移學習的小區(qū)自動激活方法
3.5 本章小結(jié)
第四章 基于CNN和 DRL的小區(qū)自動激活策略
4.1 效用模型
4.1.1 速率和時延模型
4.1.2 效用模型
4.2 流量模型
4.3 功率模型
4.4 基于relational DRL的小區(qū)自動激活算法設(shè)計
4.4.1 DQN算法原理
4.4.2 Dueling DQN算法原理
4.4.3 Relational DRL算法設(shè)計
4.4.3.1 DRL的三要素定義
4.4.3.2 基于Relational DRL算法的小區(qū)激活流程
4.4.3.3 物理資源分配
4.5 仿真實驗
4.5.1 仿真環(huán)境與性能評估
4.5.2 對比算法
4.5.3 仿真結(jié)果分析
4.5.3.1 收斂性分析
4.5.3.2 算法性能分析
4.5.3.3 決策周期的影響
4.6 本章小結(jié)
第五章 基于DRL與遷移學習的小區(qū)自動激活策略
5.1 基于動態(tài)reward的小區(qū)激活方法
5.1.1 DRL三大要素定義及動態(tài)reward設(shè)計
5.1.2 仿真實驗
5.1.2.1 仿真環(huán)境
5.1.2.2 對比算法
5.1.2.3 仿真結(jié)果分析
5.2 基于DRL與遷移學習的小區(qū)激活方法
5.2.1 基于樣本遷移
5.2.1.1 樣本權(quán)重重新調(diào)整
5.2.1.2 基于高斯過程進行權(quán)重估計
5.2.2 基于DRL與遷移學習的小區(qū)激活算法設(shè)計
5.2.3 仿真實驗
5.2.3.1 仿真環(huán)境
5.2.3.2 對比算法
5.2.3.3 仿真結(jié)果分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來展望
致謝
參考文獻
攻讀碩士學位期間的研究成果
本文編號:3749525
【文章頁數(shù)】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究意義
1.4 研究內(nèi)容
1.5 組織結(jié)構(gòu)
1.6 本章小結(jié)
第二章 相關(guān)理論與技術(shù)
2.1 深度強化學習理論
2.1.1 深度學習
2.1.2 強化學習
2.1.3 深度強化學習
2.2 DQN算法理論
2.3 Dueling DQN算法理論
2.4 遷移學習理論
2.4.1 遷移學習的定義
2.4.2 遷移學習研究的問題
2.4.3 遷移學習的分類
2.5 C-RAN架構(gòu)
2.5.1 C-RAN架構(gòu)的概念
2.5.2 C-RAN架構(gòu)的優(yōu)勢
2.6 本章小結(jié)
第三章 無線網(wǎng)絡能耗優(yōu)化系統(tǒng)設(shè)計
3.1 場景描述
3.2 問題描述
3.3 系統(tǒng)架構(gòu)設(shè)計
3.3.1 接納控制和用戶關(guān)聯(lián)
3.3.1.1 網(wǎng)絡狀態(tài)信息采集
3.3.1.2 RRH與 UE的關(guān)聯(lián)
3.3.2 小區(qū)自動激活
3.3.3 物理資源分配
3.3.3.1 State相關(guān)信息采集
3.3.3.2 Reward相關(guān)信息采集
3.4 小區(qū)自動激活方法
3.4.1 基于CNN和 DRL的小區(qū)自動激活策略
3.4.2 基于DRL與遷移學習的小區(qū)自動激活策略
3.4.2.1 基于動態(tài)reward的小區(qū)自動激活方法
3.4.2.2 基于DRL和遷移學習的小區(qū)自動激活方法
3.5 本章小結(jié)
第四章 基于CNN和 DRL的小區(qū)自動激活策略
4.1 效用模型
4.1.1 速率和時延模型
4.1.2 效用模型
4.2 流量模型
4.3 功率模型
4.4 基于relational DRL的小區(qū)自動激活算法設(shè)計
4.4.1 DQN算法原理
4.4.2 Dueling DQN算法原理
4.4.3 Relational DRL算法設(shè)計
4.4.3.1 DRL的三要素定義
4.4.3.2 基于Relational DRL算法的小區(qū)激活流程
4.4.3.3 物理資源分配
4.5 仿真實驗
4.5.1 仿真環(huán)境與性能評估
4.5.2 對比算法
4.5.3 仿真結(jié)果分析
4.5.3.1 收斂性分析
4.5.3.2 算法性能分析
4.5.3.3 決策周期的影響
4.6 本章小結(jié)
第五章 基于DRL與遷移學習的小區(qū)自動激活策略
5.1 基于動態(tài)reward的小區(qū)激活方法
5.1.1 DRL三大要素定義及動態(tài)reward設(shè)計
5.1.2 仿真實驗
5.1.2.1 仿真環(huán)境
5.1.2.2 對比算法
5.1.2.3 仿真結(jié)果分析
5.2 基于DRL與遷移學習的小區(qū)激活方法
5.2.1 基于樣本遷移
5.2.1.1 樣本權(quán)重重新調(diào)整
5.2.1.2 基于高斯過程進行權(quán)重估計
5.2.2 基于DRL與遷移學習的小區(qū)激活算法設(shè)計
5.2.3 仿真實驗
5.2.3.1 仿真環(huán)境
5.2.3.2 對比算法
5.2.3.3 仿真結(jié)果分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來展望
致謝
參考文獻
攻讀碩士學位期間的研究成果
本文編號:3749525
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3749525.html
最近更新
教材專著