基于并行強(qiáng)化學(xué)習(xí)的建筑節(jié)能方法研究
發(fā)布時間:2020-07-04 13:39
【摘要】:在全世界范圍內(nèi),建筑能耗在社會總能耗中占比較高,并且以較快速度在逐年增長,建筑節(jié)能已成為所有國家能源政策上的首要目標(biāo)。建筑能耗的80%是建筑運(yùn)行能耗,因此降低建筑能耗的有效手段是采取科學(xué)技術(shù)對建筑物內(nèi)相關(guān)設(shè)備進(jìn)行控制。此外,在建筑節(jié)能控制領(lǐng)域,傳統(tǒng)控制方法通常存在穩(wěn)定性差、收斂速度慢等問題。隨著人工智能技術(shù)發(fā)展,智慧建筑節(jié)能的概念逐漸獲得研究者的關(guān)注,相關(guān)智能化控制方法研究也成為了研究的熱點(diǎn),其中強(qiáng)化學(xué)習(xí)方法是目前智慧建筑節(jié)能方法的研究重點(diǎn)。本文主要以建筑節(jié)能問題為出發(fā)點(diǎn),主要對基于強(qiáng)化學(xué)習(xí)的建筑節(jié)能控制方法及框架展開研究,具體內(nèi)容包括以下三部分:(1)為解決建筑節(jié)能控制領(lǐng)域中強(qiáng)化學(xué)習(xí)控制方法在實(shí)際應(yīng)用中收斂速度慢的問題,本文結(jié)合多線程技術(shù)和經(jīng)驗(yàn)回放技術(shù),提出一種多線程并行強(qiáng)化學(xué)習(xí)算法MPRL。MPRL主要由兩部分構(gòu)成,一是基于模糊聚類的強(qiáng)化學(xué)習(xí)多線程劃分方法:通過模糊聚類的方式將策略向量分配到不同的線程中進(jìn)行并行策略評估。二是并行強(qiáng)化學(xué)習(xí)框架:并行運(yùn)行策略評估過程以及環(huán)境交互過程,同時引入經(jīng)驗(yàn)回放技術(shù),將交互中產(chǎn)生的樣本存入樣本池,利用樣本反復(fù)更新Q值函數(shù),該方法可有效加快算法學(xué)習(xí)過程。將MPRL與Q-Learning、Sarsa和KCACL算法進(jìn)行對比,分別應(yīng)用于random walk問題、windy grid world問題和cart pole問題中。實(shí)驗(yàn)數(shù)據(jù)表明,MPRL擁有更好的收斂性能和更快的學(xué)習(xí)速率。(2)對建筑節(jié)能控制問題進(jìn)行馬爾科夫決策過程建模,并提出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)控制方法RLAC,用于求解建筑物內(nèi)相關(guān)設(shè)備的最優(yōu)控制策略,達(dá)到節(jié)能的目的。RLAC首先對環(huán)境和強(qiáng)化學(xué)習(xí)信號進(jìn)行建模,通過與環(huán)境進(jìn)行交互,用Q-Learning算法更新Q值函數(shù),算法可以收斂到最優(yōu)Q值函數(shù),從而學(xué)習(xí)到最優(yōu)控制策略。通過仿真房間模型的實(shí)驗(yàn),將RLAC與傳統(tǒng)控制方法進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明所提出的RLAC方法具有一定的節(jié)能性、更快的收斂速度和更好的穩(wěn)定性。(3)結(jié)合面向建筑節(jié)能的馬爾科夫決策過程模型,將并行強(qiáng)化學(xué)習(xí)方法用于建筑節(jié)能問題,并提出一種基于并行強(qiáng)化學(xué)習(xí)的建筑節(jié)能方法。該方法結(jié)合多線程技術(shù)和經(jīng)驗(yàn)回放技術(shù)提出多線程并行強(qiáng)化學(xué)習(xí)算法框架,通過計算樣本之間的距離,選取低相似度的樣本構(gòu)造多樣性樣本池,Agent的學(xué)習(xí)過程是從多樣性樣本池中選取樣本學(xué)習(xí),可有效避免學(xué)習(xí)資源的浪費(fèi)。該方法能有效提高算法學(xué)習(xí)效率、加速算法學(xué)習(xí)過程。實(shí)驗(yàn)包括在仿真房間模型上與Q-Learning算法以及經(jīng)典PID控制方法的對比,結(jié)果表明,所提出的并行算法具有一定的節(jié)能效果,有更快的學(xué)習(xí)速率和收斂速度,并擁有更高效的運(yùn)行效率。
【學(xué)位授予單位】:蘇州科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TU201.5
【圖文】:
圖 2-1 強(qiáng)化學(xué)習(xí)框架圖markov property)的定義t 1時刻對t*時刻所做的應(yīng)可能依賴于前面發(fā)生的定義,如公式(2.1)所',|,,,,,111srrsarsat tttt t 件中的可能值:st,at,rt,s么環(huán)境在 t+1 時刻的響應(yīng)的動態(tài)性可以通過公式(r{',|,}t1 t1tts sr rsa ,當(dāng)且僅當(dāng)對所有s', r,以
學(xué)碩士論文 第三章 多線程并行強(qiáng)所有產(chǎn)生的轉(zhuǎn)移樣本都存儲在樣本池D中。每 時間步,采用 roll略產(chǎn)生一個回報R ,并且通過最大的選擇概率選出策略池中當(dāng)時行為策略,在接下來的時間步與環(huán)境進(jìn)行交互并產(chǎn)生樣本。每 時進(jìn)行選擇、交叉和變異等操作產(chǎn)生新策略并更新策略池,在這個過策略總數(shù) N 不變。最后,重復(fù)上述過程進(jìn)行新一輪的線程劃分、作。其中,對策略進(jìn)行編碼過程和多線程劃分算法的具體算法流程中詳細(xì)描述。
本文編號:2741180
【學(xué)位授予單位】:蘇州科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TU201.5
【圖文】:
圖 2-1 強(qiáng)化學(xué)習(xí)框架圖markov property)的定義t 1時刻對t*時刻所做的應(yīng)可能依賴于前面發(fā)生的定義,如公式(2.1)所',|,,,,,111srrsarsat tttt t 件中的可能值:st,at,rt,s么環(huán)境在 t+1 時刻的響應(yīng)的動態(tài)性可以通過公式(r{',|,}t1 t1tts sr rsa ,當(dāng)且僅當(dāng)對所有s', r,以
學(xué)碩士論文 第三章 多線程并行強(qiáng)所有產(chǎn)生的轉(zhuǎn)移樣本都存儲在樣本池D中。每 時間步,采用 roll略產(chǎn)生一個回報R ,并且通過最大的選擇概率選出策略池中當(dāng)時行為策略,在接下來的時間步與環(huán)境進(jìn)行交互并產(chǎn)生樣本。每 時進(jìn)行選擇、交叉和變異等操作產(chǎn)生新策略并更新策略池,在這個過策略總數(shù) N 不變。最后,重復(fù)上述過程進(jìn)行新一輪的線程劃分、作。其中,對策略進(jìn)行編碼過程和多線程劃分算法的具體算法流程中詳細(xì)描述。
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 傅啟明;劉全;尤樹華;黃蔚;章曉芳;;一種新的基于值函數(shù)遷移的快速Sarsa算法[J];電子學(xué)報;2014年11期
2 李遠(yuǎn)成;陰培培;趙銀亮;;基于模糊聚類的推測多線程劃分算法[J];計算機(jī)學(xué)報;2014年03期
3 陳興國;高陽;范順國;俞亞君;;基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)[J];模式識別與人工智能;2014年02期
4 劉全;傅啟明;龔聲蓉;伏玉琛;崔志明;;最小狀態(tài)變元平均獎賞的強(qiáng)化學(xué)習(xí)方法[J];通信學(xué)報;2011年01期
5 梁珍,趙加寧,路軍;公共建筑能耗主要影響因素的分析[J];低溫建筑技術(shù);2001年03期
相關(guān)博士學(xué)位論文 前2條
1 張衛(wèi)華;城鎮(zhèn)住宅建筑能耗指標(biāo)分級標(biāo)準(zhǔn)體系的基礎(chǔ)研究[D];西安建筑科技大學(xué);2013年
2 黃炳強(qiáng);強(qiáng)化學(xué)習(xí)方法及其應(yīng)用研究[D];上海交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前1條
1 許志鵬;基于動作抽象的分層強(qiáng)化學(xué)習(xí)算法研究[D];蘇州大學(xué);2016年
本文編號:2741180
本文鏈接:http://sikaile.net/guanlilunwen/chengjian/2741180.html
最近更新
教材專著