基于強(qiáng)化學(xué)習(xí)的WSNs實(shí)時(shí)數(shù)據(jù)傳輸調(diào)度算法研究
發(fā)布時(shí)間:2021-11-08 04:13
工業(yè)環(huán)境中,無(wú)線傳感器網(wǎng)絡(luò)(Wireless Sensor Networks,WSNs)數(shù)據(jù)的傳輸通常有著嚴(yán)格的截止期限要求,如何提高數(shù)據(jù)傳輸?shù)目煽啃院蛯?shí)時(shí)性成為WSNs研究的關(guān)鍵問(wèn)題之一。提高WSNs網(wǎng)絡(luò)性能的主要方法之一是對(duì)傳輸過(guò)程進(jìn)行調(diào)度,有效的調(diào)度算法能夠滿足嚴(yán)格的工業(yè)環(huán)境對(duì)網(wǎng)絡(luò)性能的要求,具有非常重要的研究意義。針對(duì)具有嚴(yán)格截止期限的WSNs數(shù)據(jù)傳輸調(diào)度問(wèn)題,基于強(qiáng)化學(xué)習(xí)方法在不同的網(wǎng)絡(luò)背景下提出了不同的數(shù)據(jù)傳輸調(diào)度算法。主要內(nèi)容如下:(1)針對(duì)WSNs每個(gè)時(shí)隙只有一個(gè)數(shù)據(jù)流進(jìn)行數(shù)據(jù)傳輸?shù)膯?wèn)題,提出了一種基于Q學(xué)習(xí)的實(shí)時(shí)數(shù)據(jù)傳輸調(diào)度算法。首先,該算法從時(shí)隙變化的角度定義系統(tǒng)空間,對(duì)數(shù)據(jù)傳輸過(guò)程進(jìn)行馬爾可夫過(guò)程描述。然后根據(jù)傳輸數(shù)據(jù)的生成周期和從源節(jié)點(diǎn)到目的節(jié)點(diǎn)的總跳數(shù)制定獎(jiǎng)勵(lì)函數(shù),評(píng)估數(shù)據(jù)的優(yōu)先級(jí)。同時(shí),將貪婪策略與模擬退火相結(jié)合制定動(dòng)作選擇策略,使Q學(xué)習(xí)在前期的動(dòng)作選擇過(guò)程中進(jìn)行充分的探索,避免陷入局部最優(yōu)。最后,通過(guò)Q值函數(shù)的計(jì)算和迭代更新得到近似最優(yōu)的調(diào)度算法,進(jìn)而得到數(shù)據(jù)流的傳輸調(diào)度序列。(2)針對(duì)WSNs中數(shù)據(jù)并發(fā)傳輸?shù)膯?wèn)題,提出了一種基于深度Q學(xué)習(xí)的實(shí)時(shí)數(shù)據(jù)傳輸調(diào)...
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
機(jī)器學(xué)習(xí)分類圖
圖 2.1 機(jī)器學(xué)習(xí)分類圖Fig 2.1 Classification of machine learning化學(xué)習(xí)的系統(tǒng)主要由智能體和環(huán)境構(gòu)成[44],可用一個(gè)三元組 , A, P 其中( )1 2, , ,mS s s s 表示智能體在當(dāng)前環(huán)境中的所有可狀態(tài)空間;( )1 2, , ,nA a a a 表示智能體在當(dāng)前環(huán)境中的所有可合,即動(dòng)作空間;P 表示智能體從上一個(gè)狀態(tài)轉(zhuǎn)換至下一個(gè)狀態(tài)m,n均為正整數(shù) 如圖 2.2 為強(qiáng)化學(xué)習(xí)模型,智能體是系統(tǒng)的學(xué)過(guò)狀態(tài)感知和動(dòng)作選取與外部環(huán)境進(jìn)行交互 智能體在位置環(huán)狀態(tài)ts ,根據(jù)學(xué)習(xí)策略從動(dòng)作空間 A 中選取動(dòng)作ta ;環(huán)境在狀態(tài)移到狀態(tài)t+1s ,并產(chǎn)生相應(yīng)的獎(jiǎng)勵(lì)或者懲罰回報(bào) r 反饋給智能體和回報(bào)下繼續(xù)學(xué)習(xí),選擇并執(zhí)行下一個(gè)動(dòng)作
:表示狀態(tài)空間(State Space),是智能體感知到的所有可能狀態(tài)的 :表示動(dòng)作空間(Action Space),是智能體在每個(gè)狀態(tài)下可能采取的a :表示系統(tǒng)狀態(tài)的轉(zhuǎn)移概率 表示智能體在當(dāng)前狀態(tài) s 下執(zhí)行其他狀態(tài)的概率分布情況 智能體在狀態(tài) 下執(zhí)行動(dòng)作 ,轉(zhuǎn)移到 P ( s | s ,a )表示; : S A →R ,表示回報(bào)函數(shù) 智能體在狀態(tài) 下執(zhí)行動(dòng)作 時(shí),會(huì)給予的反饋,可以是正向的獎(jiǎng)勵(lì),也可以是反向的懲罰,這個(gè)反饋 R ( s ,a ) DP 的主要特點(diǎn)在與狀態(tài)轉(zhuǎn)移概率 只與當(dāng)前的狀態(tài)和選擇與歷史狀態(tài)和動(dòng)作無(wú)關(guān) 也可以說(shuō),MDP 過(guò)程的下一個(gè)狀態(tài)只與智和選取的動(dòng)作有關(guān),與其他的狀態(tài)和動(dòng)作無(wú)關(guān) MDP 過(guò)程如圖 2.在初始狀態(tài)0s 從動(dòng)作空間 中選取動(dòng)作0a ,動(dòng)作執(zhí)行后,智能體按下一個(gè)狀態(tài)1s ,然后智能體在狀態(tài) 再選取一個(gè)動(dòng)作1a 并執(zhí)行,智能2s ,接下來(lái)重復(fù)上述過(guò)程
【參考文獻(xiàn)】:
期刊論文
[1]無(wú)線網(wǎng)絡(luò)中基于深度Q學(xué)習(xí)的傳輸調(diào)度方案[J]. 朱江,王婷婷,宋永輝,劉亞利. 通信學(xué)報(bào). 2018(04)
[2]面向WIA-PA工業(yè)無(wú)線傳感器網(wǎng)絡(luò)的確定性調(diào)度算法[J]. 王恒,陳鵬飛,王平. 電子學(xué)報(bào). 2018(01)
[3]面向物聯(lián)網(wǎng)的無(wú)線傳感器網(wǎng)絡(luò)綜述[J]. 錢志鴻,王義君. 電子與信息學(xué)報(bào). 2013(01)
[4]兩種改進(jìn)的EDF軟實(shí)時(shí)動(dòng)態(tài)調(diào)度算法[J]. 李琦,巴巍. 計(jì)算機(jī)學(xué)報(bào). 2011(05)
[5]基于WSNs的城市污水監(jiān)測(cè)系統(tǒng)研究[J]. 陳強(qiáng),盧啟福,李亭,毛亮,劉國(guó)瑛. 湖南科技學(xué)院學(xué)報(bào). 2011(04)
[6]基于Zig Bee技術(shù)的大壩安全監(jiān)測(cè)WSNs節(jié)點(diǎn)設(shè)計(jì)[J]. 杜小文,褚金奎,繆新穎,郭慶. 傳感器與微系統(tǒng). 2009(12)
[7]基于Metropolis準(zhǔn)則的多步Q學(xué)習(xí)算法與性能仿真[J]. 陳圣磊,吳慧中,肖亮,朱耀琴. 系統(tǒng)仿真學(xué)報(bào). 2007(06)
博士論文
[1]基于無(wú)線傳感器網(wǎng)絡(luò)的事件監(jiān)測(cè)算法研究[D]. 畢冉.哈爾濱工業(yè)大學(xué) 2015
碩士論文
[1]基于無(wú)線傳感器網(wǎng)絡(luò)的數(shù)據(jù)聚合算法研究[D]. 瞿佳雯.南京郵電大學(xué) 2017
[2]基于深度Q網(wǎng)絡(luò)算法與模型的研究[D]. 翟建偉.蘇州大學(xué) 2017
[3]WMN中基于改進(jìn)Dijkstra算法的多約束Qos路由研究[D]. 魯力.湖南師范大學(xué) 2008
[4]基于Q學(xué)習(xí)的Agent智能決策的研究與實(shí)現(xiàn)[D]. 虞靖靚.合肥工業(yè)大學(xué) 2005
本文編號(hào):3482981
【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
機(jī)器學(xué)習(xí)分類圖
圖 2.1 機(jī)器學(xué)習(xí)分類圖Fig 2.1 Classification of machine learning化學(xué)習(xí)的系統(tǒng)主要由智能體和環(huán)境構(gòu)成[44],可用一個(gè)三元組 , A, P 其中( )1 2, , ,mS s s s 表示智能體在當(dāng)前環(huán)境中的所有可狀態(tài)空間;( )1 2, , ,nA a a a 表示智能體在當(dāng)前環(huán)境中的所有可合,即動(dòng)作空間;P 表示智能體從上一個(gè)狀態(tài)轉(zhuǎn)換至下一個(gè)狀態(tài)m,n均為正整數(shù) 如圖 2.2 為強(qiáng)化學(xué)習(xí)模型,智能體是系統(tǒng)的學(xué)過(guò)狀態(tài)感知和動(dòng)作選取與外部環(huán)境進(jìn)行交互 智能體在位置環(huán)狀態(tài)ts ,根據(jù)學(xué)習(xí)策略從動(dòng)作空間 A 中選取動(dòng)作ta ;環(huán)境在狀態(tài)移到狀態(tài)t+1s ,并產(chǎn)生相應(yīng)的獎(jiǎng)勵(lì)或者懲罰回報(bào) r 反饋給智能體和回報(bào)下繼續(xù)學(xué)習(xí),選擇并執(zhí)行下一個(gè)動(dòng)作
:表示狀態(tài)空間(State Space),是智能體感知到的所有可能狀態(tài)的 :表示動(dòng)作空間(Action Space),是智能體在每個(gè)狀態(tài)下可能采取的a :表示系統(tǒng)狀態(tài)的轉(zhuǎn)移概率 表示智能體在當(dāng)前狀態(tài) s 下執(zhí)行其他狀態(tài)的概率分布情況 智能體在狀態(tài) 下執(zhí)行動(dòng)作 ,轉(zhuǎn)移到 P ( s | s ,a )表示; : S A →R ,表示回報(bào)函數(shù) 智能體在狀態(tài) 下執(zhí)行動(dòng)作 時(shí),會(huì)給予的反饋,可以是正向的獎(jiǎng)勵(lì),也可以是反向的懲罰,這個(gè)反饋 R ( s ,a ) DP 的主要特點(diǎn)在與狀態(tài)轉(zhuǎn)移概率 只與當(dāng)前的狀態(tài)和選擇與歷史狀態(tài)和動(dòng)作無(wú)關(guān) 也可以說(shuō),MDP 過(guò)程的下一個(gè)狀態(tài)只與智和選取的動(dòng)作有關(guān),與其他的狀態(tài)和動(dòng)作無(wú)關(guān) MDP 過(guò)程如圖 2.在初始狀態(tài)0s 從動(dòng)作空間 中選取動(dòng)作0a ,動(dòng)作執(zhí)行后,智能體按下一個(gè)狀態(tài)1s ,然后智能體在狀態(tài) 再選取一個(gè)動(dòng)作1a 并執(zhí)行,智能2s ,接下來(lái)重復(fù)上述過(guò)程
【參考文獻(xiàn)】:
期刊論文
[1]無(wú)線網(wǎng)絡(luò)中基于深度Q學(xué)習(xí)的傳輸調(diào)度方案[J]. 朱江,王婷婷,宋永輝,劉亞利. 通信學(xué)報(bào). 2018(04)
[2]面向WIA-PA工業(yè)無(wú)線傳感器網(wǎng)絡(luò)的確定性調(diào)度算法[J]. 王恒,陳鵬飛,王平. 電子學(xué)報(bào). 2018(01)
[3]面向物聯(lián)網(wǎng)的無(wú)線傳感器網(wǎng)絡(luò)綜述[J]. 錢志鴻,王義君. 電子與信息學(xué)報(bào). 2013(01)
[4]兩種改進(jìn)的EDF軟實(shí)時(shí)動(dòng)態(tài)調(diào)度算法[J]. 李琦,巴巍. 計(jì)算機(jī)學(xué)報(bào). 2011(05)
[5]基于WSNs的城市污水監(jiān)測(cè)系統(tǒng)研究[J]. 陳強(qiáng),盧啟福,李亭,毛亮,劉國(guó)瑛. 湖南科技學(xué)院學(xué)報(bào). 2011(04)
[6]基于Zig Bee技術(shù)的大壩安全監(jiān)測(cè)WSNs節(jié)點(diǎn)設(shè)計(jì)[J]. 杜小文,褚金奎,繆新穎,郭慶. 傳感器與微系統(tǒng). 2009(12)
[7]基于Metropolis準(zhǔn)則的多步Q學(xué)習(xí)算法與性能仿真[J]. 陳圣磊,吳慧中,肖亮,朱耀琴. 系統(tǒng)仿真學(xué)報(bào). 2007(06)
博士論文
[1]基于無(wú)線傳感器網(wǎng)絡(luò)的事件監(jiān)測(cè)算法研究[D]. 畢冉.哈爾濱工業(yè)大學(xué) 2015
碩士論文
[1]基于無(wú)線傳感器網(wǎng)絡(luò)的數(shù)據(jù)聚合算法研究[D]. 瞿佳雯.南京郵電大學(xué) 2017
[2]基于深度Q網(wǎng)絡(luò)算法與模型的研究[D]. 翟建偉.蘇州大學(xué) 2017
[3]WMN中基于改進(jìn)Dijkstra算法的多約束Qos路由研究[D]. 魯力.湖南師范大學(xué) 2008
[4]基于Q學(xué)習(xí)的Agent智能決策的研究與實(shí)現(xiàn)[D]. 虞靖靚.合肥工業(yè)大學(xué) 2005
本文編號(hào):3482981
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3482981.html
最近更新
教材專著