基于分布式Q學(xué)習(xí)的WSN節(jié)點(diǎn)任務(wù)調(diào)度問題研究
【學(xué)位單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP212.9;TN929.5
【部分圖文】:
本文對(duì)節(jié)點(diǎn)任務(wù)調(diào)度算法進(jìn)行研究,包括節(jié)點(diǎn)利用自身信息的基于改進(jìn)SVM??的分布式獨(dú)立2學(xué)習(xí)的WSN節(jié)點(diǎn)任務(wù)調(diào)度算法和基于全局信息的分布式合??2學(xué)習(xí)調(diào)度算法的研宄。文章還介紹并使用了兩種具有代表性抽象應(yīng)用場(chǎng)景,??文算法的實(shí)施效果進(jìn)行問題求解。文章研究主要來源于以下項(xiàng)目:??(1)國(guó)家物聯(lián)網(wǎng)發(fā)展專項(xiàng)基金項(xiàng)目(編號(hào):[2〇12]583),基于物聯(lián)網(wǎng)的大型建筑??健康監(jiān)測(cè)與安全監(jiān)控平臺(tái)研發(fā)與產(chǎn)業(yè)化;??(2)國(guó)家國(guó)際科技合作專項(xiàng)項(xiàng)目(編號(hào):2014DFB10060),基于快速移動(dòng)百兆??AN的礦井機(jī)車無人駕駛系統(tǒng)。???WSN研究及其應(yīng)用??不同于傳統(tǒng)計(jì)算機(jī)網(wǎng)絡(luò),無線傳感網(wǎng)絡(luò)由若干傳感器節(jié)點(diǎn)自組織構(gòu)成,如下??1.1所示。每個(gè)傳感器節(jié)點(diǎn)可視為獨(dú)立的個(gè)體,并擁有自己的系統(tǒng),同時(shí),所有??共同合作,也可構(gòu)成一個(gè)整體系統(tǒng),即便部分傳感器節(jié)點(diǎn)發(fā)生故障,WSN作??體,也可以很好的完成既定的任務(wù)。傳感器節(jié)點(diǎn)的功能包括:感知外部信息、??外部信息、分析外部信息和自身完成相應(yīng)動(dòng)作[9]。??
合肥工業(yè)大學(xué)專業(yè)碩士研宄生學(xué)位論文??點(diǎn)具有一定的差別,除具備數(shù)據(jù)收集和計(jì)算功能外,有些節(jié)匯聚,節(jié)點(diǎn)發(fā)揮數(shù)據(jù)存儲(chǔ)和轉(zhuǎn)發(fā)等路由作用。??數(shù)據(jù)獲。樵模粒眨䲠(shù)據(jù)處理單元DPU數(shù)擺傳輸單元DSRU??.一?—???—?一?—?一—?一一一一??
圖1.3?RL抽象模型??Fig?1.3?Abstract?model?of?RL??強(qiáng)化學(xué)習(xí)基于馬爾科夫決策,馬爾科夫決策過程如圖1.4所7K?(解釋詳見1.3.2??節(jié))。Agent的決策通過狀態(tài)(state)、動(dòng)作(action)以及獎(jiǎng)罰(reward)得到:當(dāng)前狀態(tài),??Agent根據(jù)探索策略執(zhí)行一個(gè)動(dòng)作,并獲得回報(bào)函數(shù)(獎(jiǎng)懲)并通過評(píng)估改進(jìn)策略??轉(zhuǎn)移到下一狀態(tài)。直觀地可以看出,該步驟最終目的是最大化累積回報(bào),得到最??優(yōu)決策。設(shè)Agent在f時(shí)刻的狀態(tài)為\,選擇動(dòng)作a,執(zhí)行后將會(huì)改變當(dāng)前狀態(tài)至\+1??并獲得立即回報(bào)。??1.3.2馬爾科夫決策過程??馬爾科夫決策過程起源于隨機(jī)優(yōu)化控制,根據(jù)環(huán)境是否可感知的情況,??其可分為完全可觀察MDP和部分可觀察MDP兩種。以下對(duì)完全可觀察的??馬爾科夫決策過程(本文統(tǒng)稱馬氏決策過程)對(duì)相關(guān)理論基礎(chǔ)進(jìn)行介紹。??馬氏決策過程可以由六元組{?S,^D,P,r,J}表示[19]。??圖1.4馬爾科夫決策過程??Fig?1.4?Markov?decision-making?process??5*代表智能體的state集合;d代表Agent的Action集合;D為初始狀??態(tài)概率分布,初始狀態(tài)確定時(shí)值為1,當(dāng)初始狀態(tài)的選擇概率相同,可忽略??£);/>也可以表示/5〇
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 馬學(xué)森;曹政;韓江洪;王營(yíng)冠;胡宏林;;改進(jìn)蟻群算法的無線傳感器網(wǎng)絡(luò)路由優(yōu)化與路徑恢復(fù)算法[J];電子測(cè)量與儀器學(xué)報(bào);2015年09期
2 丁煦;韓江洪;石雷;夏偉;魏振春;;可充電無線傳感器網(wǎng)絡(luò)動(dòng)態(tài)拓?fù)鋯栴}研究[J];通信學(xué)報(bào);2015年01期
3 鄧寒冰;張霞;劉積仁;;效用驅(qū)動(dòng)的多agent合作機(jī)制[J];通信學(xué)報(bào);2013年07期
4 劉志剛;汪晉寬;;基于粒子群優(yōu)化的大規(guī)模傳感器網(wǎng)絡(luò)節(jié)點(diǎn)調(diào)度策略[J];控制與決策;2012年12期
5 梁俊斌;鄧雨榮;郭麗娟;李陶深;;無線傳感器網(wǎng)絡(luò)中事件驅(qū)動(dòng)數(shù)據(jù)收集研究進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2012年10期
6 王保云;;物聯(lián)網(wǎng)技術(shù)研究綜述[J];電子測(cè)量與儀器學(xué)報(bào);2009年12期
7 李建中;高宏;;無線傳感器網(wǎng)絡(luò)的研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2008年01期
8 閻威武,?×,邵惠鶴;基于滾動(dòng)時(shí)間窗的最小二乘支持向量機(jī)回歸估計(jì)方法及仿真[J];上海交通大學(xué)學(xué)報(bào);2004年04期
相關(guān)博士學(xué)位論文 前1條
1 石海燕;無線傳感器網(wǎng)絡(luò)可分負(fù)載調(diào)度算法研究[D];浙江工業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前1條
1 索龍翔;WSN休眠調(diào)度算法研究[D];吉林大學(xué);2014年
本文編號(hào):2882964
本文鏈接:http://sikaile.net/kejilunwen/wltx/2882964.html