基于多智能體Q學(xué)習(xí)的車載通信MAC層信道接入技術(shù)研究
本文選題:車載自組織網(wǎng)絡(luò) + 無(wú)線信道接入。 參考:《南京郵電大學(xué)》2017年碩士論文
【摘要】:車載自組織網(wǎng)絡(luò)(VANET,Vehicular ad-hoc network)作為支持ITS(Intelligent Transportation Systems,智能交通系統(tǒng))應(yīng)用的重要技術(shù),解決安全相關(guān)問(wèn)題時(shí)通常依賴于安全消息的實(shí)時(shí)可靠傳輸。VANET因其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)變化快、節(jié)點(diǎn)高速移動(dòng)的特點(diǎn)在車輛密度較高的網(wǎng)絡(luò)場(chǎng)景中使用傳統(tǒng)的IEEE 802.11p協(xié)議發(fā)送消息很容易發(fā)生碰撞,難以保證安全消息低時(shí)延和高接收率的傳輸,且對(duì)不同網(wǎng)絡(luò)負(fù)載場(chǎng)景不具可擴(kuò)展性。因此,本文針對(duì)信道接入方法的可擴(kuò)展性和公平性的問(wèn)題對(duì)傳統(tǒng)的接入方法進(jìn)行改進(jìn),通過(guò)建立新模型為VANET設(shè)計(jì)高效的MAC協(xié)議,主要工作如下:首先,在車載通信車輛接入無(wú)線信道發(fā)送數(shù)據(jù)過(guò)程中引入Q學(xué)習(xí),為車輛節(jié)點(diǎn)建立智能體Q學(xué)習(xí)模型,提出了基于Q學(xué)習(xí)的動(dòng)態(tài)調(diào)整競(jìng)爭(zhēng)窗口算法(QL-CWmin),推導(dǎo)了車輛節(jié)點(diǎn)在網(wǎng)絡(luò)環(huán)境中進(jìn)行Q學(xué)習(xí)的狀態(tài)——?jiǎng)幼饔成潢P(guān)系和車輛節(jié)點(diǎn)更新累計(jì)獎(jiǎng)賞值的迭代公式,這樣車輛節(jié)點(diǎn)每次需要接入無(wú)線信道發(fā)送數(shù)據(jù)時(shí),就總選擇能使累計(jì)獎(jiǎng)賞值最大的CW值接入無(wú)線信道,在理論分析的基礎(chǔ)上通過(guò)仿真驗(yàn)證了所提出的算法對(duì)提高車輛節(jié)點(diǎn)接入無(wú)線信道的公平性和對(duì)不同網(wǎng)絡(luò)負(fù)載場(chǎng)景的可擴(kuò)展性。其次,針對(duì)單個(gè)車輛節(jié)點(diǎn)在網(wǎng)絡(luò)環(huán)境中進(jìn)行Q學(xué)習(xí)存在僅感知部分網(wǎng)絡(luò)環(huán)境、學(xué)習(xí)搜索空間大效率低、與其他車輛節(jié)點(diǎn)無(wú)交互學(xué)習(xí)的問(wèn)題,為VANET建立多智能體Q學(xué)習(xí)系統(tǒng)模型,提出了基于多智能體Q學(xué)習(xí)的動(dòng)態(tài)調(diào)整競(jìng)爭(zhēng)窗口算法(QL-CWMulti-agent),對(duì)多個(gè)車輛節(jié)點(diǎn)Q學(xué)習(xí)的聯(lián)合狀態(tài)——?jiǎng)幼鲗?duì)映射關(guān)系和車輛節(jié)點(diǎn)根據(jù)聯(lián)合策略更新Q值函數(shù)的迭代表達(dá)式進(jìn)行了推導(dǎo),在前一研究點(diǎn)的基礎(chǔ)上提高車輛節(jié)點(diǎn)接入無(wú)線信道的公平性及算法對(duì)不同網(wǎng)絡(luò)負(fù)載的可擴(kuò)展性。最后,將多智能體學(xué)習(xí)的最終結(jié)果收斂到相關(guān)均衡,根據(jù)eCEQ(Correlated Equilibrium Q,相關(guān)均衡Q學(xué)習(xí))算法(即最大化所有智能體獎(jiǎng)勵(lì)的最小值)使車載自組織網(wǎng)絡(luò)中每個(gè)車輛節(jié)點(diǎn)接入無(wú)線信道成功發(fā)送數(shù)據(jù)的次數(shù)最大化,通過(guò)仿真驗(yàn)證了算法收斂結(jié)果的正確性。
[Abstract]:As an important technology to support the application of Intelligent Transportation Systems (its), the Vehicular ad-hoc network (VANET) usually depends on the real-time and reliable transmission of security messages. The characteristics of high speed mobile nodes are that the traditional IEEE 802.11p protocol is used to send messages easily in the high vehicle density network scenario, so it is difficult to ensure the transmission of security messages with low delay and high reception rate. And it is not extensible for different network load scenarios. Therefore, aiming at the scalability and fairness of channel access methods, this paper improves the traditional access methods and designs an efficient MAC protocol for VANET by establishing a new model. The main work is as follows: first of all, Q learning is introduced in the process of vehicle accessing wireless channel to transmit data, and an agent Q learning model is established for vehicle nodes. A dynamic adjusting competition window algorithm (QL-CWmin) based on Q-learning is proposed. The state-action mapping relation of vehicle nodes for Q-learning in network environment and the iterative formula for updating cumulative reward values of vehicle nodes are derived. So every time a vehicle node needs to access the wireless channel to send data, it always selects the CW value, which can make the maximum cumulative reward value, to access the wireless channel. Based on the theoretical analysis, the proposed algorithm is verified by simulation to improve the fairness of the vehicle node access to the wireless channel and the scalability of different network load scenarios. Secondly, aiming at the problem that a single vehicle node only perceives part of the network environment for Q learning in the network environment, the learning search space is inefficient and there is no interactive learning with other vehicle nodes, a multi-agent Q learning system model is established for VANET. A QL-CW Multi-agent algorithm based on multi-agent Q learning is proposed. The joint state-action pair mapping of Q learning for multiple vehicle nodes and the iterative expression for updating Q value function of vehicle nodes according to joint strategy are derived. On the basis of the former research point, the fairness of the vehicle node access wireless channel and the scalability of the algorithm to different network loads are improved. Finally, the final result of multi-agent learning is converged to the relevant equilibrium. According to the eCEQ (related Equilibrium Q) algorithm (that is, to maximize the minimum value of all the agent awards), the number of successful data transmission by each vehicle node in an ad hoc network is maximized. The correctness of the convergence result is verified by simulation.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TN929.5;U495
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊玉君,程君實(shí),陳佳品;基于替代傳導(dǎo)徑跡的多智能體增強(qiáng)式學(xué)習(xí)[J];上海交通大學(xué)學(xué)報(bào);2003年08期
2 陳雪江,楊東勇;基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作實(shí)現(xiàn)[J];浙江工業(yè)大學(xué)學(xué)報(bào);2004年05期
3 尹世濤;高慧敏;曾建潮;;基于算法集成的調(diào)度系統(tǒng)多智能體實(shí)現(xiàn)框架[J];太原科技大學(xué)學(xué)報(bào);2007年04期
4 張慶民;薛恒新;劉明忠;劉路冰;徐欣;;基于多智能體的分銷鏈預(yù)測(cè)優(yōu)化模型研究[J];計(jì)算機(jī)集成制造系統(tǒng);2007年12期
5 譚應(yīng)清;吳磊杰;;Q-學(xué)習(xí)在多智能體博弈系統(tǒng)中的應(yīng)用[J];中國(guó)電力教育;2008年S1期
6 王超;趙曉哲;康曉予;;面向編隊(duì)協(xié)同防空決策的多智能體規(guī)劃方法[J];艦船電子工程;2009年01期
7 張家明;;基于多智能體的制造聯(lián)盟協(xié)同采購(gòu)體系研究[J];武漢理工大學(xué)學(xué)報(bào);2009年10期
8 王建彬;李震;龐軍;;基于多智能體的虛擬企業(yè)框架的構(gòu)建與實(shí)現(xiàn)[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期
9 張文廣;屈勝利;;目標(biāo)跟蹤多智能體一致控制[J];宇航學(xué)報(bào);2010年09期
10 肖麗;廖曉峰;韋鵬程;李華青;;采用廣義線性局部交互協(xié)議的二階多智能體網(wǎng)絡(luò)一致性[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
相關(guān)會(huì)議論文 前10條
1 劉杰;王月海;王鴻雁;;基于反思——模仿的多智能體協(xié)作策略[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
2 梁泉;許曉鳴;張鐘俊;;一種新型的多智能體系統(tǒng)開(kāi)發(fā)環(huán)境結(jié)構(gòu)[A];1995年中國(guó)控制會(huì)議論文集(下)[C];1995年
3 張根林;李懷祖;;基于多智能體的客戶關(guān)系管理系統(tǒng)的構(gòu)建[A];2002年中國(guó)管理科學(xué)學(xué)術(shù)會(huì)議論文集[C];2002年
4 邱國(guó)霞;張志涌;馬潔;李茂;;多智能體的競(jìng)爭(zhēng)合作策略[A];2005全國(guó)自動(dòng)化新技術(shù)學(xué)術(shù)交流會(huì)論文集(三)[C];2005年
5 王莉;蔡穎;范海蓉;;基于多智能體可重構(gòu)生產(chǎn)系統(tǒng)研究[A];企業(yè)應(yīng)用集成系統(tǒng)與技術(shù)學(xué)術(shù)研究會(huì)論文集[C];2006年
6 李鐵軍;趙海文;李慨;沈志忠;;基于多智能體的機(jī)電系統(tǒng)控制與故障診斷的研究[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(下冊(cè))[C];2003年
7 譚樹(shù)彬;劉建昌;;帶鋼軋制流程多智能體控制策略研究[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年
8 王曉麗;洪奕光;;利用動(dòng)態(tài)多智能體覆蓋跟蹤動(dòng)態(tài)目標(biāo)[A];第五屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
9 任銳;王曉麗;周潯;;基于勢(shì)函數(shù)的多智能體編隊(duì)控制[A];中國(guó)儀器儀表學(xué)會(huì)第十二屆青年學(xué)術(shù)會(huì)議論文集[C];2010年
10 雷曜;;多智能體模擬框架中的復(fù)雜人模型[A];Systems Engineering, Systems Science and Complexity Research--Proceeding of 11th Annual Conference of Systems Engineering Society of China[C];2000年
相關(guān)重要報(bào)紙文章 前3條
1 顏秉光;哈爾濱:清潔衛(wèi)生機(jī)器人會(huì)自動(dòng)掃地更會(huì)自動(dòng)補(bǔ)給[N];新華每日電訊;2006年
2 MAC;巧妙捆綁IP地址與MAC地址[N];計(jì)算機(jī)世界;2004年
3 本報(bào)記者 王春超;亞馬遜推Mac下載商店 正面挑戰(zhàn)蘋果獨(dú)大格局[N];通信信息報(bào);2011年
相關(guān)博士學(xué)位論文 前10條
1 何漢明;基于角色的多智能體社會(huì)模型研究與應(yīng)用[D];西北工業(yè)大學(xué);2006年
2 柴國(guó)飛;多智能體協(xié)同定位與Sink節(jié)點(diǎn)位置隱私保護(hù)研究[D];浙江大學(xué);2015年
3 周博;多智能體的一致性控制及優(yōu)化[D];西南大學(xué);2016年
4 席磊;基于多智能體隨機(jī)一致博弈的智能發(fā)電控制[D];華南理工大學(xué);2016年
5 潘維運(yùn);多智能體網(wǎng)絡(luò)系統(tǒng)的群體行為研究[D];上海大學(xué);2016年
6 李皎潔;具有部分感知能力的多智能體協(xié)同避障控制[D];上海交通大學(xué);2015年
7 杜勝利;基于切換時(shí)滯系統(tǒng)理論的多智能體一致性研究[D];大連理工大學(xué);2016年
8 李樂(lè);多智能體復(fù)雜系統(tǒng)集群控制研究[D];湖南大學(xué);2016年
9 曾志文;非線性、量化和結(jié)構(gòu)約束的多智能體協(xié)同控制研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2017年
10 蘇厚勝;多智能體蜂擁控制問(wèn)題研究[D];上海交通大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 王海;多智能體分層牽制蜂擁研究[D];南京信息工程大學(xué);2015年
2 吳祁陽(yáng);即時(shí)戰(zhàn)略游戲場(chǎng)景中多智能體模型的設(shè)計(jì)與研究[D];南京理工大學(xué);2015年
3 裴一飛;有向數(shù)據(jù)鏈故障情況下多智能體網(wǎng)絡(luò)的有限時(shí)間編隊(duì)控制[D];哈爾濱工業(yè)大學(xué);2015年
4 白潔;模糊多智能體模型的同步性[D];哈爾濱工業(yè)大學(xué);2015年
5 劉全平;基于多智能體和元胞自動(dòng)機(jī)模型的虛擬人群行為研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
6 謝中凱;基于多智能體的城市空間增長(zhǎng)模型研究[D];南京大學(xué);2015年
7 羅超;基于多智能體的高爐故障診斷方法研究[D];東北大學(xué);2013年
8 戴俊;基于采樣控制和量化通信的多智能體一致性問(wèn)題研究[D];安徽工程大學(xué);2015年
9 李歆;多智能體交通擁堵自組織控制策略研究[D];長(zhǎng)沙理工大學(xué);2014年
10 劉慶飛;信息丟包下多智能體的一致性與錨點(diǎn)選擇題研究[D];河南理工大學(xué);2014年
,本文編號(hào):2114623
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2114623.html