基于Q學(xué)習(xí)的震后救援路徑尋優(yōu)算法研究
本文關(guān)鍵詞: 防災(zāi)減災(zāi) 應(yīng)急救援 最優(yōu)路徑 Q學(xué)習(xí) 智能體 可靠性 出處:《石家莊鐵道大學(xué)》2015年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:地震危害巨大,強(qiáng)烈的地震會(huì)使道路兩側(cè)建筑物倒塌從而阻斷道路,使整個(gè)路網(wǎng)遭到破壞。當(dāng)?shù)卣鸢l(fā)生后城市外的救援人員需要將大量救援物資及時(shí)送往災(zāi)區(qū),而城市內(nèi)的人們則需要盡快將受傷的群眾和災(zāi)民送往安全地區(qū)。因此,能否以最快的速度建立救援通道對(duì)于挽救受傷群眾生命,減少財(cái)產(chǎn)損失顯得至關(guān)重要。但是,城市內(nèi)的一些基礎(chǔ)設(shè)施由于受到地震的破壞,使電力、通信等系統(tǒng)部分甚至完全失效,導(dǎo)致災(zāi)區(qū)與外界在短時(shí)間內(nèi)無(wú)法進(jìn)行信息交流,這使得救援工作變的更加困難。本文根據(jù)人工智能的相關(guān)理論結(jié)合城市震后路網(wǎng)的實(shí)際特點(diǎn),把每個(gè)救援隊(duì)看作單個(gè)智能體,建立了基于Q學(xué)習(xí)的城市震后救援路徑尋優(yōu)模型。模型中以城市震后路網(wǎng)作為救援隊(duì)所處環(huán)境,將路網(wǎng)中每個(gè)節(jié)點(diǎn)作為救援隊(duì)的狀態(tài),救援隊(duì)從節(jié)點(diǎn)到相鄰節(jié)點(diǎn)的轉(zhuǎn)移作為一個(gè)動(dòng)作,把路段可靠度作為救援隊(duì)學(xué)習(xí)的回報(bào)值。救援隊(duì)經(jīng)過(guò)一定次數(shù)的學(xué)習(xí)后可以得到每個(gè)狀態(tài)-動(dòng)作對(duì)的折扣累積的路段可靠度,即Q值。根據(jù)Q值大小,救援隊(duì)確定動(dòng)作選取的最優(yōu)策略,通過(guò)該策略救援隊(duì)可以找出一條到達(dá)災(zāi)區(qū)的最優(yōu)路徑。本文以長(zhǎng)春市朝陽(yáng)區(qū)部分路網(wǎng)為例進(jìn)行了實(shí)例計(jì)算,驗(yàn)證了模型的可行性。并且,對(duì)模型參數(shù)進(jìn)行了敏感性分析,結(jié)果表明當(dāng)學(xué)習(xí)率上升,其它參數(shù)不變時(shí),智能體學(xué)習(xí)速度加快;當(dāng)折扣率上升,其它參數(shù)不變時(shí),智能體學(xué)習(xí)速度降低。同時(shí),考慮到地震發(fā)生后往往會(huì)存在多個(gè)救援隊(duì)同時(shí)開(kāi)展救援,建立了基于多智能體通信協(xié)作條件下的震后救援路徑尋優(yōu)模型。模型中以震后道路的破壞信息作為共享信息,救援隊(duì)通過(guò)彼此信息的交流加快學(xué)習(xí)速度。由于在大地震發(fā)生后的最初階段,通信設(shè)施遭到破壞,救援隊(duì)間的通信很少,甚至完全沒(méi)有。經(jīng)過(guò)一定時(shí)間,通信率會(huì)逐漸增加。該模型中救援隊(duì)之間的通信率初始值為零,隨著時(shí)間的推進(jìn)逐步增加。為了驗(yàn)證模型的可行性,同樣以長(zhǎng)春市朝陽(yáng)區(qū)部分路網(wǎng)為例進(jìn)行了實(shí)例分析,結(jié)果表明基于多智能體通信協(xié)作條件下的路徑尋優(yōu)模型可以以更快的速度找到一條較優(yōu)的救援路徑,多智能體的學(xué)習(xí)速度要比單智能體的學(xué)習(xí)速度提高了近三分之一。
[Abstract]:The earthquake is so dangerous that a strong earthquake can collapse buildings on both sides of the road and block the road and damage the entire road network. When the earthquake strikes, rescuers outside the city need to send a lot of relief supplies to the disaster area in time. People in the city need to send injured people and victims to safety as soon as possible. Therefore, it is important to establish rescue channels as quickly as possible in order to save the lives of the injured people and reduce the loss of property. Some of the infrastructure in the city was damaged by the earthquake, which completely invalidated some of the power, communication and other systems, resulting in a lack of information exchange between the disaster areas and the outside world in a short period of time. This makes the rescue work more difficult. According to the theory of artificial intelligence and the actual characteristics of the urban post-earthquake network, each rescue team is regarded as a single agent. Based on Q learning, the model of urban post-earthquake rescue path optimization is established. In the model, the post-earthquake road network is used as the environment of the rescue team, and each node in the road network is taken as the state of the rescue team. The transfer of rescue teams from nodes to adjacent nodes is taken as an action, and the section reliability is regarded as the reward value of the rescue team's learning. After a certain number of times of study, the rescue team can get the cumulative section reliability of each state-action pair discount. That is, Q value. According to the magnitude of Q value, the rescue team determines the optimal strategy of action selection, through which the rescue team can find out an optimal path to the disaster area. This paper takes part of the road network in Chaoyang District, Changchun City, as an example to carry out the calculation. The feasibility of the model is verified. The sensitivity analysis of the model parameters shows that when the learning rate increases and the other parameters remain unchanged, the agent learning speed accelerates, and when the discount rate increases, the other parameters remain the same. At the same time, considering that there are often more than one rescue team carrying out rescue work at the same time after an earthquake occurs, A model of post-earthquake rescue path optimization based on multi-agent communication cooperation is established, in which the damage information of the post-earthquake road is taken as the shared information. Rescue teams speed up their learning by exchanging information with each other. As communications facilities were destroyed in the early stages of the earthquake, there was little or no communication between rescue teams. After a certain period of time, The communication rate will increase gradually. In this model, the initial communication rate between rescue teams is zero, and gradually increases with the advance of time. In order to verify the feasibility of the model, a case study of some road networks in Chaoyang District, Changchun City, is also carried out. The results show that the path optimization model based on multi-agent communication cooperation can find a better rescue path at a faster speed. The learning speed of multi-agent is 1/3 faster than that of single agent.
【學(xué)位授予單位】:石家莊鐵道大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:P315.9;U116.2;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬笑瀟,黃席樾,柴毅,黎昱;一種新的領(lǐng)域智能體:免疫智能體[J];高技術(shù)通訊;2003年01期
2 寇鳳梅;崔劍波;張晶晶;;基于結(jié)構(gòu)優(yōu)化的智能體構(gòu)造方法[J];甘肅科學(xué)學(xué)報(bào);2007年04期
3 辛潤(rùn)勤;羅榮桂;;智能體理論研究述評(píng)[J];科技進(jìn)步與對(duì)策;2007年08期
4 吳康迪;智能體技術(shù)——人工智能的新飛躍[J];科學(xué)對(duì)社會(huì)的影響;2000年01期
5 劉洪,張龍;群體溝通意見(jiàn)模式涌現(xiàn)的因素影響分析[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2004年04期
6 李海燕;張玉英;;基于智能體進(jìn)化算法的路徑規(guī)劃研究[J];科技信息;2008年33期
7 李彤,黃景平,馮珊;基于Agent方法體系的VR仿真研究[J];系統(tǒng)工程理論與實(shí)踐;1998年04期
8 馮珊,唐超閔,君沈沖;用于復(fù)雜系統(tǒng)建模與仿真的面向智能體技術(shù)[J];管理科學(xué)學(xué)報(bào);1999年02期
9 田光進(jìn);鄔建國(guó);;基于智能體模型的土地利用動(dòng)態(tài)模擬研究進(jìn)展[J];生態(tài)學(xué)報(bào);2008年09期
10 王棟;柏彥奇;葛濤;王琳;;面向裝備保障仿真的機(jī)動(dòng)行為模型研究[J];科技廣場(chǎng);2010年05期
相關(guān)會(huì)議論文 前10條
1 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年
2 王建平;田世佑;葉偉;;智能體建模方法研究[A];第13屆中國(guó)系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)年會(huì)論文集[C];2011年
3 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年
4 仵博;寧志宇;吳敏;;一種基于行為的雙層動(dòng)態(tài)智能體結(jié)構(gòu)[A];馬斯特杯2003年中國(guó)機(jī)器人大賽及研討會(huì)論文集[C];2003年
5 孫鐵利;楊永明;趙晶晶;;營(yíng)救智能體的研究與開(kāi)發(fā)[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年
6 遲妍;譚躍進(jìn);;基于知識(shí)表示的作戰(zhàn)智能體模型描述研究[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
7 王三喜;黃建明;張意德;劉洪坤;;基于復(fù)雜適應(yīng)系統(tǒng)理論多智能體模型技術(shù)的分隊(duì)對(duì)抗仿真模型建立[A];中國(guó)運(yùn)籌學(xué)會(huì)第八屆學(xué)術(shù)交流會(huì)論文集[C];2006年
8 曹江麗;;運(yùn)行在非結(jié)構(gòu)化環(huán)境下自主智能體的智能學(xué)習(xí)與控制[A];中國(guó)造船工程學(xué)會(huì)電子技術(shù)學(xué)術(shù)委員會(huì)2006學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
9 楊文;汪小帆;;異質(zhì)影響網(wǎng)絡(luò)中的一致性問(wèn)題[A];第三屆全國(guó)復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2006年
10 張慧;陳眾;;基于智能體分層遞階控制的加熱系統(tǒng)[A];中國(guó)自動(dòng)化學(xué)會(huì)中南六。▍^(qū))2010年第28屆年會(huì)·論文集[C];2010年
相關(guān)重要報(bào)紙文章 前2條
1 洪炳熔;“綠茵場(chǎng)”掀起機(jī)器人大戰(zhàn)[N];大眾科技報(bào);2000年
2 李磊;讓電子政務(wù)更聰明[N];計(jì)算機(jī)世界;2001年
相關(guān)博士學(xué)位論文 前10條
1 曹建福;智能體群組協(xié)同控制若干問(wèn)題研究[D];華東理工大學(xué);2015年
2 吳剛;面向網(wǎng)絡(luò)計(jì)算的移動(dòng)智能體研究與實(shí)現(xiàn)[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年
3 宋一兵;計(jì)算機(jī)生成兵力中智能體技術(shù)與應(yīng)用研究[D];哈爾濱工程大學(xué);2006年
4 石煥;功率驅(qū)動(dòng)移動(dòng)智能體網(wǎng)絡(luò)的同步分析與控制[D];浙江大學(xué);2011年
5 徐U_蕾;未知環(huán)境下移動(dòng)智能體自主導(dǎo)航研究[D];中國(guó)海洋大學(xué);2013年
6 仵博;動(dòng)態(tài)不確定環(huán)境下的智能體序貫決策方法及應(yīng)用研究[D];中南大學(xué);2013年
7 程華農(nóng);面向智能體的化工過(guò)程運(yùn)行系統(tǒng)分析、模型化和集成策略的研究[D];華南理工大學(xué);2002年
8 董娜;面向核環(huán)境管道維修的多智能體遙控焊接系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2010年
9 吳正平;復(fù)雜網(wǎng)絡(luò)建模與一致性及在多移動(dòng)智能體中的應(yīng)用[D];華中科技大學(xué);2007年
10 李響;動(dòng)態(tài)不確定性環(huán)境下的實(shí)時(shí)規(guī)劃系統(tǒng)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 謝康;基于DISC性格模型的人員疏散行為建模與仿真研究[D];北京建筑大學(xué);2015年
2 常宏;基于約束的智能體教室分配系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
3 吳國(guó)鋒;蜂擁算法及其在協(xié)同自動(dòng)駕駛中的應(yīng)用[D];電子科技大學(xué);2015年
4 高曉成;基于Q學(xué)習(xí)的震后救援路徑尋優(yōu)算法研究[D];石家莊鐵道大學(xué);2015年
5 杜娟娟;分布式自治智能體優(yōu)化算法研究[D];中國(guó)石油大學(xué);2009年
6 胡子?jì)?基于智能體系統(tǒng)的Q-學(xué)習(xí)算法的研究與改進(jìn)[D];哈爾濱理工大學(xué);2007年
7 羅健鋒;移動(dòng)智能體系統(tǒng)在網(wǎng)絡(luò)與信息安全中的應(yīng)用研究[D];華中科技大學(xué);2005年
8 密啟慧;基于智能體建模的微博輿論形成研究[D];華中科技大學(xué);2012年
9 歐立勇;基于多智能體技術(shù)的公共檢測(cè)資源協(xié)調(diào)方法及其實(shí)現(xiàn)研究[D];浙江大學(xué);2008年
10 李平;分布式入侵檢測(cè)系統(tǒng)中的移動(dòng)智能體研究[D];電子科技大學(xué);2004年
,本文編號(hào):1505383
本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/1505383.html