基于大數(shù)據(jù)技術(shù)的隨機(jī)森林模型并行化設(shè)計(jì)及實(shí)現(xiàn)
本文關(guān)鍵詞:基于大數(shù)據(jù)技術(shù)的隨機(jī)森林模型并行化設(shè)計(jì)及實(shí)現(xiàn) 出處:《太原理工大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 滑坡災(zāi)害 隨機(jī)森林模型 MapReduce Hadoop大數(shù)據(jù)平臺(tái) 并行計(jì)算
【摘要】:滑坡,屬于一種高發(fā)并且?guī)?lái)嚴(yán)重危害的地質(zhì)災(zāi)害,滑坡帶來(lái)的危害包括巨額的經(jīng)濟(jì)損失以及慘痛的人員傷亡,并且影響社會(huì)的安定;聻(zāi)害在我國(guó)分布范圍較廣,如四川、貴州等地的地質(zhì)構(gòu)造復(fù)雜多樣,是滑坡災(zāi)害的高發(fā)地區(qū)。近幾年來(lái),隨著人類活動(dòng)的大規(guī)模進(jìn)行,崩塌滑坡泥石流等地質(zhì)災(zāi)害發(fā)生頻繁,災(zāi)害的預(yù)防工作尤為重要。因此,提供更加準(zhǔn)確的方法來(lái)進(jìn)行滑坡災(zāi)害的防治,已經(jīng)是非常急迫的任務(wù)。當(dāng)災(zāi)害發(fā)生時(shí),首要任務(wù)是做出正確且快速的應(yīng)急決策,對(duì)于災(zāi)害管理工作而言,如何能對(duì)地質(zhì)災(zāi)害的發(fā)生及發(fā)展做出快速而準(zhǔn)確的評(píng)估工作,是一個(gè)亟待解決的問(wèn)題,所以,研究如何提高地質(zhì)災(zāi)害評(píng)估的效率更具有研究?jī)r(jià)值和現(xiàn)實(shí)意義。本文介紹了研究滑坡的意義、國(guó)內(nèi)外對(duì)于滑坡研究的進(jìn)展和現(xiàn)狀以及云平臺(tái)的相關(guān)知識(shí)和評(píng)估模型的基本理論。選取隨機(jī)森林模型作為實(shí)驗(yàn)?zāi)P?選取山西省2000年以來(lái)的全省地貌、巖土體、地質(zhì)構(gòu)造、地震峰值加速度、坡度、降水量等1:50萬(wàn)基礎(chǔ)資料,搭建了Hadoop大數(shù)據(jù)平臺(tái),利用Map Reduce并行編程框架,通過(guò)此并行計(jì)算框架對(duì)模型進(jìn)行并行化設(shè)計(jì),并對(duì)改進(jìn)后的模型進(jìn)行有效性驗(yàn)證等工作,實(shí)驗(yàn)得到以下結(jié)論:1.在單節(jié)點(diǎn)上對(duì)模型改進(jìn)后的準(zhǔn)確性進(jìn)行驗(yàn)證。并行化改進(jìn)后的隨機(jī)森林模型精度相對(duì)于傳統(tǒng)的串行隨機(jī)森林模型的精度較高,說(shuō)明改進(jìn)后的模型具有一定的可行性與實(shí)用性。2.在Hadoop平臺(tái)上,在機(jī)器數(shù)目不同的情況下,進(jìn)行算法執(zhí)行時(shí)間的比較。當(dāng)選取的滑坡樣本數(shù)據(jù)的總量不變時(shí),平臺(tái)機(jī)器數(shù)目增加,算法執(zhí)行時(shí)間減少,說(shuō)明模型改進(jìn)后的運(yùn)行效率提高。3.進(jìn)而又考慮了不同的樣本總數(shù),在運(yùn)行1臺(tái)、2臺(tái)、3臺(tái)機(jī)器的情況下實(shí)驗(yàn)效果:(1)樣本數(shù)據(jù)規(guī)模較小為Data1時(shí),隨著服務(wù)器數(shù)量的增加,算法在運(yùn)行時(shí)間上相差并不大。這是因?yàn)樵贖adoop平臺(tái)上進(jìn)行并行計(jì)算時(shí),多臺(tái)設(shè)備間要通信以及數(shù)據(jù)交換,而這一過(guò)程對(duì)時(shí)間效率的損耗很大,算法效率時(shí)有下降。(2)當(dāng)樣本數(shù)據(jù)規(guī)模較大時(shí),將單機(jī)情況與1臺(tái)機(jī)器參與運(yùn)算進(jìn)行對(duì)比發(fā)現(xiàn),這一過(guò)程曲線斜率最大,也就是說(shuō)并行化以后的隨機(jī)森林模型的運(yùn)行時(shí)間的顯著減小,說(shuō)明模型效率明顯提高。(3)通過(guò)對(duì)比機(jī)器數(shù)目是1臺(tái)、2臺(tái)、3臺(tái)的情況發(fā)現(xiàn),隨著機(jī)器數(shù)量的增加,改進(jìn)的隨機(jī)森林模型運(yùn)行時(shí)間確實(shí)逐漸下降,但曲線斜率也逐漸減小,說(shuō)明機(jī)器的數(shù)目越多,算法效率越高,但與此同時(shí)設(shè)備間數(shù)據(jù)通信耗時(shí)也在增加,這也是曲線斜率逐漸變小的原因。(4)當(dāng)機(jī)器數(shù)目是2臺(tái)和3臺(tái)時(shí),Data2,Data3,Data4樣本數(shù)據(jù)集的算法運(yùn)行時(shí)間相對(duì)Data1耗時(shí)更少。該現(xiàn)象說(shuō)明,并行化的隨機(jī)森林模型更適用于大規(guī)模數(shù)據(jù),優(yōu)化效果更顯著。本文基本實(shí)現(xiàn)了論文的初衷,即通過(guò)對(duì)評(píng)估模型并行化改進(jìn),評(píng)估效率與精度有所提高,以實(shí)現(xiàn)快速評(píng)估的目的,為今后地質(zhì)災(zāi)害提出快速應(yīng)急決策提供依據(jù)。
[Abstract]:Landslide is a kind of geological disaster which has a high incidence and brings serious harm. The hazards brought by landslide include huge economic losses and heavy casualties. And affect the stability of society. Landslide disasters in China, such as Sichuan, Guizhou and other places in the geological structure is complex and diverse, is a high incidence of landslides in recent years. With the large-scale development of human activities, geological disasters such as landslides and debris flows occur frequently, and the prevention of disasters is particularly important. Therefore, to provide more accurate methods to prevent and cure landslide disasters. It is already a very urgent task. When a disaster occurs, the first task is to make the right and rapid emergency decision, for disaster management. How to make a rapid and accurate evaluation of the occurrence and development of geological disasters is a problem to be solved urgently. The study on how to improve the efficiency of geological hazard assessment has more research value and practical significance. This paper introduces the significance of landslide research. The progress and present situation of landslide research at home and abroad as well as the related knowledge of cloud platform and the basic theory of evaluation model. The random forest model is selected as the experimental model and the geomorphology of Shanxi Province since 2000 is selected. Rock and soil, geological structure, seismic peak acceleration, slope, precipitation and other 1:50 basic data, Hadoop big data platform, using Map Reduce parallel programming framework. The parallel computing framework is used to design the model and verify the validity of the improved model. The experimental results are as follows: 1. The accuracy of the improved model is verified on the single node. The accuracy of the parallel improved stochastic forest model is higher than that of the traditional serial stochastic forest model. The improved model has certain feasibility and practicability. 2. On the Hadoop platform, the number of machines is different. When the total amount of the selected landslide sample data is unchanged, the number of platform machines increases and the algorithm execution time decreases. It shows that the operation efficiency of the improved model is improved. 3. Furthermore, considering the total number of different samples, one unit or two units are running. When the size of the sample data is smaller than that of Data1, the number of servers increases with the increase of the number of servers. The algorithm has no significant difference in running time. This is because when parallel computing is carried out on the Hadoop platform, many devices have to communicate and exchange data, and this process has a great loss of time efficiency. When the size of the sample data is large, the single machine is compared with one machine to take part in the operation, and it is found that the slope of the process curve is the largest. That is to say, the running time of the parallel stochastic forest model is significantly reduced, which shows that the efficiency of the model is obviously improved. With the increase of the number of machines, the running time of the improved stochastic forest model decreases gradually, but the slope of the curve decreases gradually, which indicates that the more the number of machines, the higher the efficiency of the algorithm. But at the same time, data communication between devices is also increasing, which is why the curve slope is gradually decreasing. The running time of the algorithm of Data4 sample data set is less than that of Data1. This phenomenon shows that the parallel stochastic forest model is more suitable for large-scale data. This paper basically realizes the original intention of the paper, that is, by improving the evaluation model, the evaluation efficiency and accuracy are improved, so as to achieve the purpose of rapid evaluation. It provides the basis for the quick emergency decision of geological disaster in the future.
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:P642.22
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬景義;謝邦昌;;擬適應(yīng)再加權(quán)分類隨機(jī)森林[J];統(tǒng)計(jì)與信息論壇;2010年03期
2 張啟敏,聶贊坎;隨機(jī)森林發(fā)展系統(tǒng)解的存在性和唯一性(英文)[J];應(yīng)用數(shù)學(xué);2003年04期
3 李建更;高志坤;;隨機(jī)森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報(bào);2009年01期
4 袁敏;胡秀珍;;隨機(jī)森林方法預(yù)測(cè)膜蛋白類型[J];生物物理學(xué)報(bào);2009年05期
5 方匡南;吳見(jiàn)彬;朱建平;謝邦昌;;隨機(jī)森林方法研究綜述[J];統(tǒng)計(jì)與信息論壇;2011年03期
6 方正;李益洲;肖嘉敏;李功兵;文志寧;李夢(mèng)龍;;基于復(fù)雜網(wǎng)絡(luò)的隨機(jī)森林算法預(yù)測(cè)氨基酸突變對(duì)蛋白質(zhì)穩(wěn)定性的影響(英文)[J];化學(xué)研究與應(yīng)用;2011年05期
7 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期
8 曹正鳳;謝邦昌;紀(jì)宏;;一種隨機(jī)森林的混合算法[J];統(tǒng)計(jì)與決策;2014年04期
9 張光亞;方柏山;;基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機(jī)森林分類模型[J];生物工程學(xué)報(bào);2008年02期
10 馬景義;吳喜之;謝邦昌;;擬自適應(yīng)分類隨機(jī)森林算法[J];數(shù)理統(tǒng)計(jì)與管理;2010年05期
相關(guān)會(huì)議論文 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹(shù)的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
相關(guān)博士學(xué)位論文 前6條
1 張乾;基于隨機(jī)森林的視覺(jué)數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年
2 薛小明;基于時(shí)頻分析與特征約簡(jiǎn)的水電機(jī)組故障診斷方法研究[D];華中科技大學(xué);2016年
3 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
4 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
5 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
6 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年
5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D];西安電子科技大學(xué);2014年
,本文編號(hào):1393162
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1393162.html