天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的土壤化學(xué)特征數(shù)據(jù)存儲設(shè)云平臺設(shè)計

發(fā)布時間:2021-04-05 02:32
  針對當(dāng)前土壤化學(xué)特征數(shù)據(jù)海量增長以及共享程度低的問題,結(jié)合hadoop框架,提出一種基于hadoop的土壤數(shù)據(jù)海量存儲平臺。為實現(xiàn)該平臺,采用HBase+HDFS的方式搭建云存儲平臺;針對服務(wù)器負(fù)載均衡問題,提出分區(qū)策略和動態(tài)負(fù)載均衡策略;引入并行化聚類,實現(xiàn)土壤化學(xué)特征數(shù)據(jù)的分類挖掘;最后存儲平臺進(jìn)行驗證,結(jié)果表明平臺在性能和聚類結(jié)果方案,都表現(xiàn)出優(yōu)異性能。 

【文章來源】:粘接. 2020,41(04)

【文章頁數(shù)】:5 頁

【部分圖文】:

基于Hadoop的土壤化學(xué)特征數(shù)據(jù)存儲設(shè)云平臺設(shè)計


圖2聚類算法步驟??Fig.2?Clustering?algorithm?steps??3.2基于Map?Reduce的土壤化學(xué)特征數(shù)據(jù)并行聚類??本文設(shè)計的土壤化學(xué)特征數(shù)據(jù)聚類采用了?Map??

元組,節(jié)點,策略,數(shù)據(jù)


的數(shù)據(jù)量差異性會逐步降低,??在極限狀態(tài)下會無限趨近于〇,從而保證各個節(jié)點的??負(fù)載處于均衡的狀態(tài)。??4.2分區(qū)策略??根據(jù)上述負(fù)載均衡原理,可以得到對應(yīng)的分區(qū)策??略,具體的內(nèi)容如下所示:首先通過Hash算法獲得??初始映射分區(qū),然后按照key值進(jìn)行劃分,得到多個??key值對應(yīng)的組,例如分區(qū)倍數(shù)b=5時,意味著各個??組的分區(qū)數(shù)等于5。然后繼續(xù)對各個分區(qū)的二次分區(qū)??編號進(jìn)行計算,并按照相同的方式形成二次分區(qū)分??配,最后各個節(jié)點對所屬分區(qū)的數(shù)據(jù)進(jìn)行處理,此過??程如圖4所7K。??圖4分區(qū)策略??Fig.4?Partitioning?strategy??根據(jù)分區(qū)內(nèi)的元組集合進(jìn)行劃分,降低Reduce??task執(zhí)行中的負(fù)載,防止在多個節(jié)點中執(zhí)行key值一致??的數(shù)據(jù)。在此過程中需要將分區(qū)數(shù)量控制在一定的范??圍內(nèi),如果數(shù)目過大則會增大Reduce?task訪問數(shù)據(jù)的??頻率,此時會占據(jù)更多的資源,影響到了計算的效率。??4.3動態(tài)負(fù)載均衡策略??另外在數(shù)據(jù)量比較大時,仍然難以保證分區(qū)的負(fù)??載均衡,因此在本文中設(shè)計了對應(yīng)的動態(tài)調(diào)控策略,??采用這種方式能夠?qū)崟r獲取節(jié)點負(fù)載信息,即使數(shù)據(jù)??量較大,仍然可以保證各個節(jié)點的負(fù)載比較均衡,從??而保證較高的處理效率,提升了資源調(diào)度的合理性。??本文設(shè)計的動態(tài)調(diào)控策略旨在于充分利用集群的節(jié)??點,主要是將負(fù)載較大的節(jié)點任務(wù)分配給空閑節(jié)點,??由此保證了各個節(jié)點的負(fù)載均衡。算法的具體原理如??下所7K:所有Reduce?task都需要持續(xù)監(jiān)測各個節(jié)點??的負(fù)載大小,如果有節(jié)點負(fù)載為零,則將高負(fù)載節(jié)點??中的任務(wù)停止,接著將其數(shù)據(jù)劃分成兩片,并將其中?

執(zhí)行時間,數(shù)據(jù),算法


會降低,對應(yīng)的執(zhí)行時間增??大,而采用改進(jìn)的分區(qū)算法則能夠?qū)崿F(xiàn)負(fù)載均衡。??但是在數(shù)據(jù)規(guī)模較小時,二者的執(zhí)行時間差別不明??顯,主要是因為此時改進(jìn)的分區(qū)并不能發(fā)揮負(fù)載均??衡的優(yōu)勢。另外在實驗中發(fā)現(xiàn),在b=3時集群能夠達(dá)??到最佳的性能。??2)在實驗中進(jìn)一步對兩種算法的執(zhí)行效率進(jìn)行??了對比,其中改進(jìn)的分區(qū)算法實現(xiàn)了負(fù)載均衡,即??合理分配各個節(jié)點的作業(yè),使得其負(fù)載處于均衡的??狀態(tài),防止高負(fù)載節(jié)點的存在降低算法執(zhí)行的效??率。在數(shù)據(jù)量大小不同時,兩種算法的執(zhí)行時間如??圖7所示。??1?3??不同數(shù)據(jù)里大小(G)??■K認(rèn)算法■改進(jìn)分區(qū)算法??圖7不同數(shù)據(jù)大小下的作業(yè)執(zhí)行時間??Fig.7?Job?execution?time?under?different?data?sizes??根據(jù)圖7可知,在數(shù)據(jù)量較小時,兩種算法的??執(zhí)行時間沒有明顯的差異;在數(shù)據(jù)量較大時,改??進(jìn)后的分區(qū)算法在執(zhí)行效率上具有明顯的優(yōu)勢,??并且隨著數(shù)據(jù)量的增大,這種優(yōu)勢更加顯著,作??業(yè)執(zhí)行時間相對默認(rèn)算法更低。主要是因為采用??動態(tài)調(diào)控策略有助于改善節(jié)點的負(fù)載,使得各個??節(jié)點的負(fù)載處于均衡狀態(tài),由此降低了作業(yè)的整??體執(zhí)行時間。??5.2聚類結(jié)果??在實驗中選用有機(jī)質(zhì)含量(organgkg)、全氮??(alln)等兩種土壤化學(xué)特征數(shù)據(jù),數(shù)據(jù)量大小是796??條,兩個初始點分別是Ml?(1,?20)、M2?(2,丨0),取??值K=2。運行聚類算法,從而得到如圖8所示的結(jié)果。??1?2?S?4?5?6-??分區(qū)倍數(shù)不同取值??■?1G?■?3G?■?9G?■?27G?■?BIG??圖6不同分區(qū)倍數(shù)

【參考文獻(xiàn)】:
期刊論文
[1]基于支持向量機(jī)的光刻膠粘接芯片存儲安全檢測[J]. 劉芳.  粘接. 2019(09)
[2]基于協(xié)處理器的HBase二級索引方法[J]. 郭紅,周健倩,張瑛瑛,郭昆.  計算機(jī)工程與應(yīng)用. 2019(21)
[3]基于HBase的支持頻繁更新與多用戶并發(fā)的R樹[J]. 王波濤,梁偉,趙凱利,鐘漢輝,張玉圻.  計算機(jī)科學(xué). 2018(07)
[4]電力通信大數(shù)據(jù)并行化聚類算法研究[J]. 曾瑛,李星南,劉新展.  電子技術(shù)應(yīng)用. 2018(05)
[5]Hadoop平臺下基于快速搜索與密度峰值查找的聚類算法[J]. 郭友雄,黃添強(qiáng),林玲鵬,黃維.  福建師大福清分校學(xué)報. 2018(02)
[6]基于Spark的密度聚類算法并行化研究[J]. 朱子龍,李玲娟.  計算機(jī)技術(shù)與發(fā)展. 2018(06)
[7]基于Hadoop架構(gòu)的電力企業(yè)數(shù)據(jù)共享模型研究[J]. 蔣雷雷,代作松,秦賓.  通信電源技術(shù). 2018(01)
[8]SCoS:基于Spark的并行譜聚類算法設(shè)計與實現(xiàn)[J]. 朱光輝,黃圣彬,袁春風(fēng),黃宜華.  計算機(jī)學(xué)報. 2018(04)
[9]分布式多源農(nóng)林物聯(lián)網(wǎng)感知數(shù)據(jù)共享平臺研發(fā)[J]. 陳棟,吳保國,陳天恩,董靜.  農(nóng)業(yè)工程學(xué)報. 2017(S1)
[10]基于J2EE與ArcIMS的城市土壤信息系統(tǒng)的設(shè)計與實現(xiàn)[J]. 白思杰,魏忠義.  土壤. 2011(02)



本文編號:3118963

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/nykj/3118963.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b7859***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com