基于分布式Q學習的WSN節(jié)點任務調度問題研究
發(fā)布時間:2020-11-14 02:35
無線傳感器網(wǎng)絡(WSN)是由若干具有獨立接收和處理信息的傳感器節(jié)點形成的自組織網(wǎng)絡,廣泛應用于物聯(lián)網(wǎng)的若干領域中。無線傳感器網(wǎng)絡應用通常處于動態(tài)變化環(huán)境中,如何合理使用網(wǎng)絡中傳感器節(jié)點的有限能源、處理和存儲資源成為目前無線傳感器網(wǎng)絡的研究熱點。根據(jù)傳感器節(jié)點采集、處理的內外部信息,對任務進行合理的調度是解決上述問題的方法之一。強化學習使得節(jié)點(對應于Q學習中Agent)在有限的計算和通信能力下,智能的做出任務調度決策,并不斷地學習來根據(jù)動態(tài)變化的環(huán)境和應用要求進行策略的改變。本文根據(jù)已有的Q學習算法,設計出基于改進SVM(Support Vector Machine)逼近的分布式獨立Q學習的WSN節(jié)點任務調度算法和基于全局值函數(shù)的分布式合作型Q學習WSN節(jié)點任務調度算法。針對節(jié)點由于任務調度所導致的能量浪費問題,當節(jié)點處于僅考慮自身信息的多變WSN應用場景的情況下,本文設計了基于改進SVM逼近的分布式獨立Q學習的WSN節(jié)點任務調度算法。通過設計SVM作為值函數(shù)逼近器,有效的減少了狀態(tài)-動作空間爆炸問題;對SVM參數(shù)化改進增強了 SVM模型解釋能力,為緩解因過多信息帶來的處理消耗問題,使用了滑動時間窗對樣本進行管理;將貪婪策略與模擬退火結合,使得節(jié)點在前期可以有效的對動作空間進行充分的探索,避免了局部最優(yōu)問題的出現(xiàn)。仿真結果表明,該算法可以在節(jié)約能量消耗的同時,提升數(shù)據(jù)收集的應用性能。另外,針對已有的合作Q學習中采用鄰居節(jié)點發(fā)送的回報函數(shù)值等不合理信息,以及回報函數(shù)的設計不具備動態(tài)性所導致的局部最優(yōu)等問題,本文設計了基于全局值函數(shù)的分布式合作Q學習的WSN節(jié)點任務調度算法。將節(jié)點的值函數(shù)信息作為有效信息傳遞給鄰居節(jié)點,使得節(jié)點在任務調度的過程中,考慮全網(wǎng)任務調度的回報最大化。另外本文在回報函數(shù)中加入能量消耗與應用性能的影響,使得節(jié)點不增加能量消耗的基礎上,提升了應用的性能;其次,Q學習中動態(tài)探索策略的設計,避免了節(jié)點在學習過程中陷入局部最優(yōu)。仿真結果表明,算法可以使得節(jié)點通過合理的調度任務,在不增加網(wǎng)絡能量消耗的基礎上,提升了應用的性能(移動目標追蹤效率)。
【學位單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP212.9;TN929.5
【部分圖文】:
本文對節(jié)點任務調度算法進行研究,包括節(jié)點利用自身信息的基于改進SVM??的分布式獨立2學習的WSN節(jié)點任務調度算法和基于全局信息的分布式合??2學習調度算法的研宄。文章還介紹并使用了兩種具有代表性抽象應用場景,??文算法的實施效果進行問題求解。文章研究主要來源于以下項目:??(1)國家物聯(lián)網(wǎng)發(fā)展專項基金項目(編號:[2〇12]583),基于物聯(lián)網(wǎng)的大型建筑??健康監(jiān)測與安全監(jiān)控平臺研發(fā)與產業(yè)化;??(2)國家國際科技合作專項項目(編號:2014DFB10060),基于快速移動百兆??AN的礦井機車無人駕駛系統(tǒng)。???WSN研究及其應用??不同于傳統(tǒng)計算機網(wǎng)絡,無線傳感網(wǎng)絡由若干傳感器節(jié)點自組織構成,如下??1.1所示。每個傳感器節(jié)點可視為獨立的個體,并擁有自己的系統(tǒng),同時,所有??共同合作,也可構成一個整體系統(tǒng),即便部分傳感器節(jié)點發(fā)生故障,WSN作??體,也可以很好的完成既定的任務。傳感器節(jié)點的功能包括:感知外部信息、??外部信息、分析外部信息和自身完成相應動作[9]。??
合肥工業(yè)大學專業(yè)碩士研宄生學位論文??點具有一定的差別,除具備數(shù)據(jù)收集和計算功能外,有些節(jié)匯聚,節(jié)點發(fā)揮數(shù)據(jù)存儲和轉發(fā)等路由作用。??數(shù)據(jù)獲。樵模粒眨䲠(shù)據(jù)處理單元DPU數(shù)擺傳輸單元DSRU??.一?—???—?一?—?一—?一一一一??
圖1.3?RL抽象模型??Fig?1.3?Abstract?model?of?RL??強化學習基于馬爾科夫決策,馬爾科夫決策過程如圖1.4所7K?(解釋詳見1.3.2??節(jié))。Agent的決策通過狀態(tài)(state)、動作(action)以及獎罰(reward)得到:當前狀態(tài),??Agent根據(jù)探索策略執(zhí)行一個動作,并獲得回報函數(shù)(獎懲)并通過評估改進策略??轉移到下一狀態(tài)。直觀地可以看出,該步驟最終目的是最大化累積回報,得到最??優(yōu)決策。設Agent在f時刻的狀態(tài)為\,選擇動作a,執(zhí)行后將會改變當前狀態(tài)至\+1??并獲得立即回報。??1.3.2馬爾科夫決策過程??馬爾科夫決策過程起源于隨機優(yōu)化控制,根據(jù)環(huán)境是否可感知的情況,??其可分為完全可觀察MDP和部分可觀察MDP兩種。以下對完全可觀察的??馬爾科夫決策過程(本文統(tǒng)稱馬氏決策過程)對相關理論基礎進行介紹。??馬氏決策過程可以由六元組{?S,^D,P,r,J}表示[19]。??圖1.4馬爾科夫決策過程??Fig?1.4?Markov?decision-making?process??5*代表智能體的state集合;d代表Agent的Action集合;D為初始狀??態(tài)概率分布,初始狀態(tài)確定時值為1,當初始狀態(tài)的選擇概率相同,可忽略??£);/>也可以表示/5〇
【參考文獻】
本文編號:2882964
【學位單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP212.9;TN929.5
【部分圖文】:
本文對節(jié)點任務調度算法進行研究,包括節(jié)點利用自身信息的基于改進SVM??的分布式獨立2學習的WSN節(jié)點任務調度算法和基于全局信息的分布式合??2學習調度算法的研宄。文章還介紹并使用了兩種具有代表性抽象應用場景,??文算法的實施效果進行問題求解。文章研究主要來源于以下項目:??(1)國家物聯(lián)網(wǎng)發(fā)展專項基金項目(編號:[2〇12]583),基于物聯(lián)網(wǎng)的大型建筑??健康監(jiān)測與安全監(jiān)控平臺研發(fā)與產業(yè)化;??(2)國家國際科技合作專項項目(編號:2014DFB10060),基于快速移動百兆??AN的礦井機車無人駕駛系統(tǒng)。???WSN研究及其應用??不同于傳統(tǒng)計算機網(wǎng)絡,無線傳感網(wǎng)絡由若干傳感器節(jié)點自組織構成,如下??1.1所示。每個傳感器節(jié)點可視為獨立的個體,并擁有自己的系統(tǒng),同時,所有??共同合作,也可構成一個整體系統(tǒng),即便部分傳感器節(jié)點發(fā)生故障,WSN作??體,也可以很好的完成既定的任務。傳感器節(jié)點的功能包括:感知外部信息、??外部信息、分析外部信息和自身完成相應動作[9]。??
合肥工業(yè)大學專業(yè)碩士研宄生學位論文??點具有一定的差別,除具備數(shù)據(jù)收集和計算功能外,有些節(jié)匯聚,節(jié)點發(fā)揮數(shù)據(jù)存儲和轉發(fā)等路由作用。??數(shù)據(jù)獲。樵模粒眨䲠(shù)據(jù)處理單元DPU數(shù)擺傳輸單元DSRU??.一?—???—?一?—?一—?一一一一??
圖1.3?RL抽象模型??Fig?1.3?Abstract?model?of?RL??強化學習基于馬爾科夫決策,馬爾科夫決策過程如圖1.4所7K?(解釋詳見1.3.2??節(jié))。Agent的決策通過狀態(tài)(state)、動作(action)以及獎罰(reward)得到:當前狀態(tài),??Agent根據(jù)探索策略執(zhí)行一個動作,并獲得回報函數(shù)(獎懲)并通過評估改進策略??轉移到下一狀態(tài)。直觀地可以看出,該步驟最終目的是最大化累積回報,得到最??優(yōu)決策。設Agent在f時刻的狀態(tài)為\,選擇動作a,執(zhí)行后將會改變當前狀態(tài)至\+1??并獲得立即回報。??1.3.2馬爾科夫決策過程??馬爾科夫決策過程起源于隨機優(yōu)化控制,根據(jù)環(huán)境是否可感知的情況,??其可分為完全可觀察MDP和部分可觀察MDP兩種。以下對完全可觀察的??馬爾科夫決策過程(本文統(tǒng)稱馬氏決策過程)對相關理論基礎進行介紹。??馬氏決策過程可以由六元組{?S,^D,P,r,J}表示[19]。??圖1.4馬爾科夫決策過程??Fig?1.4?Markov?decision-making?process??5*代表智能體的state集合;d代表Agent的Action集合;D為初始狀??態(tài)概率分布,初始狀態(tài)確定時值為1,當初始狀態(tài)的選擇概率相同,可忽略??£);/>也可以表示/5〇
【參考文獻】
相關期刊論文 前8條
1 馬學森;曹政;韓江洪;王營冠;胡宏林;;改進蟻群算法的無線傳感器網(wǎng)絡路由優(yōu)化與路徑恢復算法[J];電子測量與儀器學報;2015年09期
2 丁煦;韓江洪;石雷;夏偉;魏振春;;可充電無線傳感器網(wǎng)絡動態(tài)拓撲問題研究[J];通信學報;2015年01期
3 鄧寒冰;張霞;劉積仁;;效用驅動的多agent合作機制[J];通信學報;2013年07期
4 劉志剛;汪晉寬;;基于粒子群優(yōu)化的大規(guī)模傳感器網(wǎng)絡節(jié)點調度策略[J];控制與決策;2012年12期
5 梁俊斌;鄧雨榮;郭麗娟;李陶深;;無線傳感器網(wǎng)絡中事件驅動數(shù)據(jù)收集研究進展[J];計算機應用研究;2012年10期
6 王保云;;物聯(lián)網(wǎng)技術研究綜述[J];電子測量與儀器學報;2009年12期
7 李建中;高宏;;無線傳感器網(wǎng)絡的研究進展[J];計算機研究與發(fā)展;2008年01期
8 閻威武,常俊林,邵惠鶴;基于滾動時間窗的最小二乘支持向量機回歸估計方法及仿真[J];上海交通大學學報;2004年04期
相關博士學位論文 前1條
1 石海燕;無線傳感器網(wǎng)絡可分負載調度算法研究[D];浙江工業(yè)大學;2013年
相關碩士學位論文 前1條
1 索龍翔;WSN休眠調度算法研究[D];吉林大學;2014年
本文編號:2882964
本文鏈接:http://sikaile.net/kejilunwen/wltx/2882964.html
最近更新
教材專著