基于HBase的多維時(shí)間序列存儲與檢索技術(shù)研究
發(fā)布時(shí)間:2021-03-27 03:49
隨著科技以及經(jīng)濟(jì)實(shí)力的快速發(fā)展,數(shù)據(jù)的傳播速度以及數(shù)據(jù)的存儲量都在顯著增長。由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫對數(shù)據(jù)的完整性及安全性有著一定的要求,這對系統(tǒng)的可用性及伸縮性有著一定影響,并導(dǎo)致系統(tǒng)的數(shù)據(jù)操作速度變慢,數(shù)據(jù)管理變得困難。這些影響在某些對實(shí)時(shí)性有要求的功能模塊或者系統(tǒng)上是不可忽視的。同時(shí)在這幾年,需要進(jìn)行管理的數(shù)據(jù)的維度也在增加。比如,近年來民航的快速發(fā)展,一次航班的飛行,每時(shí)每刻都有成百上千個(gè)傳感器進(jìn)行數(shù)據(jù)采集。在可預(yù)見的未來,民航業(yè)內(nèi)為了飛行效率以及飛行安全,還需要擴(kuò)展更多的數(shù)據(jù)采集維度。這使得民航系統(tǒng)中對于非關(guān)系型數(shù)據(jù)庫的應(yīng)用變得越來越普遍。非關(guān)系型數(shù)據(jù)庫HBase是一個(gè)面向列存儲的分布式存儲系統(tǒng),相對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫而言,HBase的維度擴(kuò)展方便并且提供高并發(fā)讀寫操作的支持。本文選擇HBase存儲系統(tǒng)作為研究對象,針對多維時(shí)序數(shù)據(jù)的特點(diǎn),通過尋找一組最優(yōu)的配置參數(shù),以提升HBase的性能。本文的研究內(nèi)容主要有以下幾個(gè)方面:(1)HBase的配置參數(shù)篩選以及訓(xùn)練樣本的生成。篩選有效的配置參數(shù)并采用隨機(jī)策略生成一系列配置文件。使用YCSB測試工具,收集每個(gè)配置文件對應(yīng)的性能數(shù)據(jù)...
【文章來源】:中國民用航空飛行學(xué)院四川省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
中國民用航空飛行學(xué)院碩士學(xué)位論文7性。此外還可以并行運(yùn)算,因此可以極大地提高模型的訓(xùn)練速度。圖2.1隨機(jī)森林算法流程圖構(gòu)建隨機(jī)森林模型的過程如圖2.1所示。隨機(jī)森林的構(gòu)建步驟如下:(1)對于一個(gè)給定的數(shù)量為N的訓(xùn)練樣本集,我們隨機(jī)且有放回地從訓(xùn)練集中的抽取N個(gè)樣本,構(gòu)成一個(gè)訓(xùn)練集。這樣可以得到若干個(gè)子訓(xùn)練集sub_sampleSets。(2)對sub_sampleSets若干子訓(xùn)練集集合中的每一個(gè)集合分別構(gòu)建決策樹。(3)在構(gòu)建決策樹時(shí),若一個(gè)子訓(xùn)練集中的每個(gè)樣本的特征維度為M,隨機(jī)地從M個(gè)特征中無放回的選取m個(gè)特征子集,其中m通常等于sqrt(M),每次樹進(jìn)行分裂時(shí),從這m個(gè)特征中選擇最優(yōu)的,即選擇一個(gè)信息增益或者信息增益比最大的一個(gè)特征作為劃分下一個(gè)節(jié)點(diǎn)的走向。(4)重復(fù)步驟三,得到若干個(gè)決策樹。(5)將生成的多棵決策樹組合起來,形成隨機(jī)森林。隨機(jī)森林既能處理分類問題,也能處理回歸問題[27]。如果是分類問題,采用投票的機(jī)制來決定最后的預(yù)測結(jié)果;如果是回歸問題,則最終的預(yù)測結(jié)果為所有決策樹預(yù)測結(jié)果的平均值。通過以上步驟,我們可以發(fā)現(xiàn)構(gòu)建隨機(jī)森林的流程中包含了兩個(gè)隨機(jī)過程,即隨機(jī)選擇樣本和隨機(jī)選擇特征。通過引入這兩個(gè)隨機(jī)過程,可以提高隨機(jī)森林的泛化能力,使得模型不容易陷入過擬合。
中國民用航空飛行學(xué)院碩士學(xué)位論文17數(shù)據(jù)的元數(shù)據(jù)信息以及負(fù)責(zé)外部客戶機(jī)的請求響應(yīng)。2.YARN分布式資源管理系統(tǒng)由于老版本HadoopMapReduce框架的JobTracker和TaskTracker機(jī)制在內(nèi)存消耗、可擴(kuò)展性、可靠性以及性能上的不足。所以,Hadoop團(tuán)隊(duì)對Hadoop的MapReduce框架進(jìn)行了重構(gòu),F(xiàn)在新版本的MapReduce框架稱為YARN。YARN是資源管理和任務(wù)調(diào)度的框架,它主要由三部分組成,ResourceManager(RM)、NodeManager(NM)和ApplicationMaster(AM)。ResourceManager負(fù)責(zé)管理、監(jiān)控和分配所有資源;ApplicationMaster負(fù)責(zé)協(xié)調(diào)和調(diào)度每一個(gè)具體的應(yīng)用程序;NodeManager負(fù)責(zé)維護(hù)每一個(gè)節(jié)點(diǎn);YARN的工作流程圖如下圖所示:圖2.5YARN資源管理架構(gòu)圖在YARN上能運(yùn)行多個(gè)大數(shù)據(jù)計(jì)算框架,它能夠進(jìn)行合理的資源調(diào)度來運(yùn)行和維護(hù)各個(gè)計(jì)算框架,比如Spark、MapReduce、Storm等。具體框架如下圖:
本文編號:3102828
【文章來源】:中國民用航空飛行學(xué)院四川省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
中國民用航空飛行學(xué)院碩士學(xué)位論文7性。此外還可以并行運(yùn)算,因此可以極大地提高模型的訓(xùn)練速度。圖2.1隨機(jī)森林算法流程圖構(gòu)建隨機(jī)森林模型的過程如圖2.1所示。隨機(jī)森林的構(gòu)建步驟如下:(1)對于一個(gè)給定的數(shù)量為N的訓(xùn)練樣本集,我們隨機(jī)且有放回地從訓(xùn)練集中的抽取N個(gè)樣本,構(gòu)成一個(gè)訓(xùn)練集。這樣可以得到若干個(gè)子訓(xùn)練集sub_sampleSets。(2)對sub_sampleSets若干子訓(xùn)練集集合中的每一個(gè)集合分別構(gòu)建決策樹。(3)在構(gòu)建決策樹時(shí),若一個(gè)子訓(xùn)練集中的每個(gè)樣本的特征維度為M,隨機(jī)地從M個(gè)特征中無放回的選取m個(gè)特征子集,其中m通常等于sqrt(M),每次樹進(jìn)行分裂時(shí),從這m個(gè)特征中選擇最優(yōu)的,即選擇一個(gè)信息增益或者信息增益比最大的一個(gè)特征作為劃分下一個(gè)節(jié)點(diǎn)的走向。(4)重復(fù)步驟三,得到若干個(gè)決策樹。(5)將生成的多棵決策樹組合起來,形成隨機(jī)森林。隨機(jī)森林既能處理分類問題,也能處理回歸問題[27]。如果是分類問題,采用投票的機(jī)制來決定最后的預(yù)測結(jié)果;如果是回歸問題,則最終的預(yù)測結(jié)果為所有決策樹預(yù)測結(jié)果的平均值。通過以上步驟,我們可以發(fā)現(xiàn)構(gòu)建隨機(jī)森林的流程中包含了兩個(gè)隨機(jī)過程,即隨機(jī)選擇樣本和隨機(jī)選擇特征。通過引入這兩個(gè)隨機(jī)過程,可以提高隨機(jī)森林的泛化能力,使得模型不容易陷入過擬合。
中國民用航空飛行學(xué)院碩士學(xué)位論文17數(shù)據(jù)的元數(shù)據(jù)信息以及負(fù)責(zé)外部客戶機(jī)的請求響應(yīng)。2.YARN分布式資源管理系統(tǒng)由于老版本HadoopMapReduce框架的JobTracker和TaskTracker機(jī)制在內(nèi)存消耗、可擴(kuò)展性、可靠性以及性能上的不足。所以,Hadoop團(tuán)隊(duì)對Hadoop的MapReduce框架進(jìn)行了重構(gòu),F(xiàn)在新版本的MapReduce框架稱為YARN。YARN是資源管理和任務(wù)調(diào)度的框架,它主要由三部分組成,ResourceManager(RM)、NodeManager(NM)和ApplicationMaster(AM)。ResourceManager負(fù)責(zé)管理、監(jiān)控和分配所有資源;ApplicationMaster負(fù)責(zé)協(xié)調(diào)和調(diào)度每一個(gè)具體的應(yīng)用程序;NodeManager負(fù)責(zé)維護(hù)每一個(gè)節(jié)點(diǎn);YARN的工作流程圖如下圖所示:圖2.5YARN資源管理架構(gòu)圖在YARN上能運(yùn)行多個(gè)大數(shù)據(jù)計(jì)算框架,它能夠進(jìn)行合理的資源調(diào)度來運(yùn)行和維護(hù)各個(gè)計(jì)算框架,比如Spark、MapReduce、Storm等。具體框架如下圖:
本文編號:3102828
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/3102828.html
最近更新
教材專著