基于深度強化學(xué)習(xí)的風(fēng)電場運行策略研究
發(fā)布時間:2023-08-15 18:03
當下,我國已成為世界上風(fēng)電裝機容量最大的國家,風(fēng)力發(fā)電已經(jīng)成為調(diào)整發(fā)電能源結(jié)構(gòu)的重要手段。同時新一輪的電力體制改革也在如火如荼的推進中,公平公正的電力市場機制正在逐步完善,風(fēng)力發(fā)電作為發(fā)電商并網(wǎng)并進入電力市場追逐利潤成為必然趨勢。然而,風(fēng)電和市場電價本身具有不確定性,這對電力系統(tǒng)經(jīng)濟調(diào)度帶來了諸多挑戰(zhàn)。在此背景下,如何協(xié)調(diào)風(fēng)力發(fā)電作為被動電源和發(fā)電商的雙重身份即如何在應(yīng)對多重不確定性的同時追逐最大利益成為風(fēng)力發(fā)電決策與控制急需解決的難題。儲能系統(tǒng)和其他具有調(diào)節(jié)能力的備用作為風(fēng)電場的調(diào)度對象能解決上述問題。目前面向風(fēng)電場儲能/備用的不確定性調(diào)度優(yōu)化算法可以被分為兩大類:一類以基于場景的隨機優(yōu)化、動態(tài)規(guī)劃、機會約束等方法為代表,該類方法在進行優(yōu)化前需要將風(fēng)電或市場電價的不確定性人為地表征為已知的數(shù)學(xué)概率分布。然而假設(shè)的概率分布是否與實際的風(fēng)電場不確定性規(guī)律匹配將直接影響整個優(yōu)化算法的優(yōu)化效果;另一類魯棒優(yōu)化方法將不確定性用考慮極端結(jié)果的區(qū)間來模糊表示,規(guī)避了對不確定性的人為假設(shè),提升了計算效率。然而,該類方法未能有效挖掘不確定性規(guī)律,導(dǎo)致其決策結(jié)果具有保守性,在以收益為首要目標的電力市場環(huán)...
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.1.1 風(fēng)電發(fā)展現(xiàn)狀與趨勢
1.1.2 風(fēng)電場運行策略研究意義
1.2 風(fēng)電場運行策略研究概述
1.2.1 儲能系統(tǒng)以及外部備用
1.2.2 面向風(fēng)電不確定性的隨機優(yōu)化算法
1.2.3 風(fēng)電場運行策略研究存在的問題
1.3 本文工作和章節(jié)安排
第二章 面向風(fēng)電場調(diào)度的深度強化學(xué)習(xí)算法
2.1 強化學(xué)習(xí)與深度學(xué)習(xí)
2.1.1 強化學(xué)習(xí)以及不確定性的應(yīng)對
2.1.2 深度學(xué)習(xí)以及多場景的應(yīng)對
2.1.3 深度、強化學(xué)習(xí)在電力系統(tǒng)中的應(yīng)用綜述
2.2 深度強化學(xué)習(xí)算法
2.3 本章小結(jié)
第三章 基于DRL的風(fēng)-儲-備用聯(lián)合發(fā)電策略
3.1 方法概述
3.1.1 儲能系統(tǒng)與備用的合作機制
3.1.2 深度強化學(xué)習(xí)模型
3.2 RAINBOW算法
3.2.1 Deep Q Network (2015)算法
3.2.2 Rainbow算法框架
3.2.3 動作選擇策略
3.3 電力市場環(huán)境模型
3.3.1 即時收益與長期收益目標
3.3.2 儲能系統(tǒng)運行約束
3.3.3 懲罰費用計算
3.3.4 維修費用計算
3.4 深度強化學(xué)習(xí)模型的實現(xiàn)
3.4.1 狀態(tài)空間和動作空間
3.4.2 學(xué)習(xí)環(huán)節(jié)的實現(xiàn)
3.4.3 應(yīng)用環(huán)節(jié)的實現(xiàn)
3.5 算例分析
3.5.1 學(xué)習(xí)環(huán)節(jié)
3.5.2 應(yīng)用環(huán)節(jié)
3.5.3 不同優(yōu)化控制方法的比較分析
3.5.4 不同深度強化學(xué)習(xí)算法的比較分析
3.6 本章小結(jié)
第四章 基于DRL的風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度
4.1 風(fēng)電場預(yù)測決策一體化調(diào)度模型
4.1.1 風(fēng)電場預(yù)測決策一體化調(diào)度
4.1.2 一體化調(diào)度模式下儲能系統(tǒng)的優(yōu)化控制
4.2 深度強化學(xué)習(xí)在預(yù)測決策一體化調(diào)度中的應(yīng)用
4.2.1 一體化調(diào)度模式下的狀態(tài)空間
4.2.2 動作空間
4.2.3 獎勵函數(shù)
4.2.4 儲能系統(tǒng)運行約束與懲罰費用
4.3 算例分析
4.3.1 算例數(shù)據(jù)
4.3.2 學(xué)習(xí)環(huán)節(jié)
4.3.3 應(yīng)用環(huán)節(jié)
4.3.4 關(guān)于控制器輸入數(shù)據(jù)的討論與分析
4.3.5 與傳統(tǒng)調(diào)度方法的比較分析
4.4 本章小結(jié)
第五章 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻
致謝
攻讀碩士學(xué)位期間所發(fā)表的論文及參與的項目
學(xué)位論文評閱及答辯情況表
本文編號:3842008
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.1.1 風(fēng)電發(fā)展現(xiàn)狀與趨勢
1.1.2 風(fēng)電場運行策略研究意義
1.2 風(fēng)電場運行策略研究概述
1.2.1 儲能系統(tǒng)以及外部備用
1.2.2 面向風(fēng)電不確定性的隨機優(yōu)化算法
1.2.3 風(fēng)電場運行策略研究存在的問題
1.3 本文工作和章節(jié)安排
第二章 面向風(fēng)電場調(diào)度的深度強化學(xué)習(xí)算法
2.1 強化學(xué)習(xí)與深度學(xué)習(xí)
2.1.1 強化學(xué)習(xí)以及不確定性的應(yīng)對
2.1.2 深度學(xué)習(xí)以及多場景的應(yīng)對
2.1.3 深度、強化學(xué)習(xí)在電力系統(tǒng)中的應(yīng)用綜述
2.2 深度強化學(xué)習(xí)算法
2.3 本章小結(jié)
第三章 基于DRL的風(fēng)-儲-備用聯(lián)合發(fā)電策略
3.1 方法概述
3.1.1 儲能系統(tǒng)與備用的合作機制
3.1.2 深度強化學(xué)習(xí)模型
3.2 RAINBOW算法
3.2.1 Deep Q Network (2015)算法
3.2.2 Rainbow算法框架
3.2.3 動作選擇策略
3.3 電力市場環(huán)境模型
3.3.1 即時收益與長期收益目標
3.3.2 儲能系統(tǒng)運行約束
3.3.3 懲罰費用計算
3.3.4 維修費用計算
3.4 深度強化學(xué)習(xí)模型的實現(xiàn)
3.4.1 狀態(tài)空間和動作空間
3.4.2 學(xué)習(xí)環(huán)節(jié)的實現(xiàn)
3.4.3 應(yīng)用環(huán)節(jié)的實現(xiàn)
3.5 算例分析
3.5.1 學(xué)習(xí)環(huán)節(jié)
3.5.2 應(yīng)用環(huán)節(jié)
3.5.3 不同優(yōu)化控制方法的比較分析
3.5.4 不同深度強化學(xué)習(xí)算法的比較分析
3.6 本章小結(jié)
第四章 基于DRL的風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度
4.1 風(fēng)電場預(yù)測決策一體化調(diào)度模型
4.1.1 風(fēng)電場預(yù)測決策一體化調(diào)度
4.1.2 一體化調(diào)度模式下儲能系統(tǒng)的優(yōu)化控制
4.2 深度強化學(xué)習(xí)在預(yù)測決策一體化調(diào)度中的應(yīng)用
4.2.1 一體化調(diào)度模式下的狀態(tài)空間
4.2.2 動作空間
4.2.3 獎勵函數(shù)
4.2.4 儲能系統(tǒng)運行約束與懲罰費用
4.3 算例分析
4.3.1 算例數(shù)據(jù)
4.3.2 學(xué)習(xí)環(huán)節(jié)
4.3.3 應(yīng)用環(huán)節(jié)
4.3.4 關(guān)于控制器輸入數(shù)據(jù)的討論與分析
4.3.5 與傳統(tǒng)調(diào)度方法的比較分析
4.4 本章小結(jié)
第五章 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻
致謝
攻讀碩士學(xué)位期間所發(fā)表的論文及參與的項目
學(xué)位論文評閱及答辯情況表
本文編號:3842008
本文鏈接:http://sikaile.net/kejilunwen/dianlidianqilunwen/3842008.html
最近更新
教材專著