基于Hadoop的土壤化學(xué)特征數(shù)據(jù)存儲(chǔ)設(shè)云平臺(tái)設(shè)計(jì)
發(fā)布時(shí)間:2021-04-05 02:32
針對(duì)當(dāng)前土壤化學(xué)特征數(shù)據(jù)海量增長(zhǎng)以及共享程度低的問(wèn)題,結(jié)合hadoop框架,提出一種基于hadoop的土壤數(shù)據(jù)海量存儲(chǔ)平臺(tái)。為實(shí)現(xiàn)該平臺(tái),采用HBase+HDFS的方式搭建云存儲(chǔ)平臺(tái);針對(duì)服務(wù)器負(fù)載均衡問(wèn)題,提出分區(qū)策略和動(dòng)態(tài)負(fù)載均衡策略;引入并行化聚類(lèi),實(shí)現(xiàn)土壤化學(xué)特征數(shù)據(jù)的分類(lèi)挖掘;最后存儲(chǔ)平臺(tái)進(jìn)行驗(yàn)證,結(jié)果表明平臺(tái)在性能和聚類(lèi)結(jié)果方案,都表現(xiàn)出優(yōu)異性能。
【文章來(lái)源】:粘接. 2020,41(04)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖2聚類(lèi)算法步驟??Fig.2?Clustering?algorithm?steps??3.2基于Map?Reduce的土壤化學(xué)特征數(shù)據(jù)并行聚類(lèi)??本文設(shè)計(jì)的土壤化學(xué)特征數(shù)據(jù)聚類(lèi)采用了?Map??
的數(shù)據(jù)量差異性會(huì)逐步降低,??在極限狀態(tài)下會(huì)無(wú)限趨近于〇,從而保證各個(gè)節(jié)點(diǎn)的??負(fù)載處于均衡的狀態(tài)。??4.2分區(qū)策略??根據(jù)上述負(fù)載均衡原理,可以得到對(duì)應(yīng)的分區(qū)策??略,具體的內(nèi)容如下所示:首先通過(guò)Hash算法獲得??初始映射分區(qū),然后按照key值進(jìn)行劃分,得到多個(gè)??key值對(duì)應(yīng)的組,例如分區(qū)倍數(shù)b=5時(shí),意味著各個(gè)??組的分區(qū)數(shù)等于5。然后繼續(xù)對(duì)各個(gè)分區(qū)的二次分區(qū)??編號(hào)進(jìn)行計(jì)算,并按照相同的方式形成二次分區(qū)分??配,最后各個(gè)節(jié)點(diǎn)對(duì)所屬分區(qū)的數(shù)據(jù)進(jìn)行處理,此過(guò)??程如圖4所7K。??圖4分區(qū)策略??Fig.4?Partitioning?strategy??根據(jù)分區(qū)內(nèi)的元組集合進(jìn)行劃分,降低Reduce??task執(zhí)行中的負(fù)載,防止在多個(gè)節(jié)點(diǎn)中執(zhí)行key值一致??的數(shù)據(jù)。在此過(guò)程中需要將分區(qū)數(shù)量控制在一定的范??圍內(nèi),如果數(shù)目過(guò)大則會(huì)增大Reduce?task訪問(wèn)數(shù)據(jù)的??頻率,此時(shí)會(huì)占據(jù)更多的資源,影響到了計(jì)算的效率。??4.3動(dòng)態(tài)負(fù)載均衡策略??另外在數(shù)據(jù)量比較大時(shí),仍然難以保證分區(qū)的負(fù)??載均衡,因此在本文中設(shè)計(jì)了對(duì)應(yīng)的動(dòng)態(tài)調(diào)控策略,??采用這種方式能夠?qū)崟r(shí)獲取節(jié)點(diǎn)負(fù)載信息,即使數(shù)據(jù)??量較大,仍然可以保證各個(gè)節(jié)點(diǎn)的負(fù)載比較均衡,從??而保證較高的處理效率,提升了資源調(diào)度的合理性。??本文設(shè)計(jì)的動(dòng)態(tài)調(diào)控策略旨在于充分利用集群的節(jié)??點(diǎn),主要是將負(fù)載較大的節(jié)點(diǎn)任務(wù)分配給空閑節(jié)點(diǎn),??由此保證了各個(gè)節(jié)點(diǎn)的負(fù)載均衡。算法的具體原理如??下所7K:所有Reduce?task都需要持續(xù)監(jiān)測(cè)各個(gè)節(jié)點(diǎn)??的負(fù)載大小,如果有節(jié)點(diǎn)負(fù)載為零,則將高負(fù)載節(jié)點(diǎn)??中的任務(wù)停止,接著將其數(shù)據(jù)劃分成兩片,并將其中?
會(huì)降低,對(duì)應(yīng)的執(zhí)行時(shí)間增??大,而采用改進(jìn)的分區(qū)算法則能夠?qū)崿F(xiàn)負(fù)載均衡。??但是在數(shù)據(jù)規(guī)模較小時(shí),二者的執(zhí)行時(shí)間差別不明??顯,主要是因?yàn)榇藭r(shí)改進(jìn)的分區(qū)并不能發(fā)揮負(fù)載均??衡的優(yōu)勢(shì)。另外在實(shí)驗(yàn)中發(fā)現(xiàn),在b=3時(shí)集群能夠達(dá)??到最佳的性能。??2)在實(shí)驗(yàn)中進(jìn)一步對(duì)兩種算法的執(zhí)行效率進(jìn)行??了對(duì)比,其中改進(jìn)的分區(qū)算法實(shí)現(xiàn)了負(fù)載均衡,即??合理分配各個(gè)節(jié)點(diǎn)的作業(yè),使得其負(fù)載處于均衡的??狀態(tài),防止高負(fù)載節(jié)點(diǎn)的存在降低算法執(zhí)行的效??率。在數(shù)據(jù)量大小不同時(shí),兩種算法的執(zhí)行時(shí)間如??圖7所示。??1?3??不同數(shù)據(jù)里大。ǎ牵??■K認(rèn)算法■改進(jìn)分區(qū)算法??圖7不同數(shù)據(jù)大小下的作業(yè)執(zhí)行時(shí)間??Fig.7?Job?execution?time?under?different?data?sizes??根據(jù)圖7可知,在數(shù)據(jù)量較小時(shí),兩種算法的??執(zhí)行時(shí)間沒(méi)有明顯的差異;在數(shù)據(jù)量較大時(shí),改??進(jìn)后的分區(qū)算法在執(zhí)行效率上具有明顯的優(yōu)勢(shì),??并且隨著數(shù)據(jù)量的增大,這種優(yōu)勢(shì)更加顯著,作??業(yè)執(zhí)行時(shí)間相對(duì)默認(rèn)算法更低。主要是因?yàn)椴捎??動(dòng)態(tài)調(diào)控策略有助于改善節(jié)點(diǎn)的負(fù)載,使得各個(gè)??節(jié)點(diǎn)的負(fù)載處于均衡狀態(tài),由此降低了作業(yè)的整??體執(zhí)行時(shí)間。??5.2聚類(lèi)結(jié)果??在實(shí)驗(yàn)中選用有機(jī)質(zhì)含量(organgkg)、全氮??(alln)等兩種土壤化學(xué)特征數(shù)據(jù),數(shù)據(jù)量大小是796??條,兩個(gè)初始點(diǎn)分別是Ml?(1,?20)、M2?(2,丨0),取??值K=2。運(yùn)行聚類(lèi)算法,從而得到如圖8所示的結(jié)果。??1?2?S?4?5?6-??分區(qū)倍數(shù)不同取值??■?1G?■?3G?■?9G?■?27G?■?BIG??圖6不同分區(qū)倍數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于支持向量機(jī)的光刻膠粘接芯片存儲(chǔ)安全檢測(cè)[J]. 劉芳. 粘接. 2019(09)
[2]基于協(xié)處理器的HBase二級(jí)索引方法[J]. 郭紅,周健倩,張瑛瑛,郭昆. 計(jì)算機(jī)工程與應(yīng)用. 2019(21)
[3]基于HBase的支持頻繁更新與多用戶并發(fā)的R樹(shù)[J]. 王波濤,梁偉,趙凱利,鐘漢輝,張玉圻. 計(jì)算機(jī)科學(xué). 2018(07)
[4]電力通信大數(shù)據(jù)并行化聚類(lèi)算法研究[J]. 曾瑛,李星南,劉新展. 電子技術(shù)應(yīng)用. 2018(05)
[5]Hadoop平臺(tái)下基于快速搜索與密度峰值查找的聚類(lèi)算法[J]. 郭友雄,黃添強(qiáng),林玲鵬,黃維. 福建師大福清分校學(xué)報(bào). 2018(02)
[6]基于Spark的密度聚類(lèi)算法并行化研究[J]. 朱子龍,李玲娟. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[7]基于Hadoop架構(gòu)的電力企業(yè)數(shù)據(jù)共享模型研究[J]. 蔣雷雷,代作松,秦賓. 通信電源技術(shù). 2018(01)
[8]SCoS:基于Spark的并行譜聚類(lèi)算法設(shè)計(jì)與實(shí)現(xiàn)[J]. 朱光輝,黃圣彬,袁春風(fēng),黃宜華. 計(jì)算機(jī)學(xué)報(bào). 2018(04)
[9]分布式多源農(nóng)林物聯(lián)網(wǎng)感知數(shù)據(jù)共享平臺(tái)研發(fā)[J]. 陳棟,吳保國(guó),陳天恩,董靜. 農(nóng)業(yè)工程學(xué)報(bào). 2017(S1)
[10]基于J2EE與ArcIMS的城市土壤信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 白思杰,魏忠義. 土壤. 2011(02)
本文編號(hào):3118963
【文章來(lái)源】:粘接. 2020,41(04)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖2聚類(lèi)算法步驟??Fig.2?Clustering?algorithm?steps??3.2基于Map?Reduce的土壤化學(xué)特征數(shù)據(jù)并行聚類(lèi)??本文設(shè)計(jì)的土壤化學(xué)特征數(shù)據(jù)聚類(lèi)采用了?Map??
的數(shù)據(jù)量差異性會(huì)逐步降低,??在極限狀態(tài)下會(huì)無(wú)限趨近于〇,從而保證各個(gè)節(jié)點(diǎn)的??負(fù)載處于均衡的狀態(tài)。??4.2分區(qū)策略??根據(jù)上述負(fù)載均衡原理,可以得到對(duì)應(yīng)的分區(qū)策??略,具體的內(nèi)容如下所示:首先通過(guò)Hash算法獲得??初始映射分區(qū),然后按照key值進(jìn)行劃分,得到多個(gè)??key值對(duì)應(yīng)的組,例如分區(qū)倍數(shù)b=5時(shí),意味著各個(gè)??組的分區(qū)數(shù)等于5。然后繼續(xù)對(duì)各個(gè)分區(qū)的二次分區(qū)??編號(hào)進(jìn)行計(jì)算,并按照相同的方式形成二次分區(qū)分??配,最后各個(gè)節(jié)點(diǎn)對(duì)所屬分區(qū)的數(shù)據(jù)進(jìn)行處理,此過(guò)??程如圖4所7K。??圖4分區(qū)策略??Fig.4?Partitioning?strategy??根據(jù)分區(qū)內(nèi)的元組集合進(jìn)行劃分,降低Reduce??task執(zhí)行中的負(fù)載,防止在多個(gè)節(jié)點(diǎn)中執(zhí)行key值一致??的數(shù)據(jù)。在此過(guò)程中需要將分區(qū)數(shù)量控制在一定的范??圍內(nèi),如果數(shù)目過(guò)大則會(huì)增大Reduce?task訪問(wèn)數(shù)據(jù)的??頻率,此時(shí)會(huì)占據(jù)更多的資源,影響到了計(jì)算的效率。??4.3動(dòng)態(tài)負(fù)載均衡策略??另外在數(shù)據(jù)量比較大時(shí),仍然難以保證分區(qū)的負(fù)??載均衡,因此在本文中設(shè)計(jì)了對(duì)應(yīng)的動(dòng)態(tài)調(diào)控策略,??采用這種方式能夠?qū)崟r(shí)獲取節(jié)點(diǎn)負(fù)載信息,即使數(shù)據(jù)??量較大,仍然可以保證各個(gè)節(jié)點(diǎn)的負(fù)載比較均衡,從??而保證較高的處理效率,提升了資源調(diào)度的合理性。??本文設(shè)計(jì)的動(dòng)態(tài)調(diào)控策略旨在于充分利用集群的節(jié)??點(diǎn),主要是將負(fù)載較大的節(jié)點(diǎn)任務(wù)分配給空閑節(jié)點(diǎn),??由此保證了各個(gè)節(jié)點(diǎn)的負(fù)載均衡。算法的具體原理如??下所7K:所有Reduce?task都需要持續(xù)監(jiān)測(cè)各個(gè)節(jié)點(diǎn)??的負(fù)載大小,如果有節(jié)點(diǎn)負(fù)載為零,則將高負(fù)載節(jié)點(diǎn)??中的任務(wù)停止,接著將其數(shù)據(jù)劃分成兩片,并將其中?
會(huì)降低,對(duì)應(yīng)的執(zhí)行時(shí)間增??大,而采用改進(jìn)的分區(qū)算法則能夠?qū)崿F(xiàn)負(fù)載均衡。??但是在數(shù)據(jù)規(guī)模較小時(shí),二者的執(zhí)行時(shí)間差別不明??顯,主要是因?yàn)榇藭r(shí)改進(jìn)的分區(qū)并不能發(fā)揮負(fù)載均??衡的優(yōu)勢(shì)。另外在實(shí)驗(yàn)中發(fā)現(xiàn),在b=3時(shí)集群能夠達(dá)??到最佳的性能。??2)在實(shí)驗(yàn)中進(jìn)一步對(duì)兩種算法的執(zhí)行效率進(jìn)行??了對(duì)比,其中改進(jìn)的分區(qū)算法實(shí)現(xiàn)了負(fù)載均衡,即??合理分配各個(gè)節(jié)點(diǎn)的作業(yè),使得其負(fù)載處于均衡的??狀態(tài),防止高負(fù)載節(jié)點(diǎn)的存在降低算法執(zhí)行的效??率。在數(shù)據(jù)量大小不同時(shí),兩種算法的執(zhí)行時(shí)間如??圖7所示。??1?3??不同數(shù)據(jù)里大。ǎ牵??■K認(rèn)算法■改進(jìn)分區(qū)算法??圖7不同數(shù)據(jù)大小下的作業(yè)執(zhí)行時(shí)間??Fig.7?Job?execution?time?under?different?data?sizes??根據(jù)圖7可知,在數(shù)據(jù)量較小時(shí),兩種算法的??執(zhí)行時(shí)間沒(méi)有明顯的差異;在數(shù)據(jù)量較大時(shí),改??進(jìn)后的分區(qū)算法在執(zhí)行效率上具有明顯的優(yōu)勢(shì),??并且隨著數(shù)據(jù)量的增大,這種優(yōu)勢(shì)更加顯著,作??業(yè)執(zhí)行時(shí)間相對(duì)默認(rèn)算法更低。主要是因?yàn)椴捎??動(dòng)態(tài)調(diào)控策略有助于改善節(jié)點(diǎn)的負(fù)載,使得各個(gè)??節(jié)點(diǎn)的負(fù)載處于均衡狀態(tài),由此降低了作業(yè)的整??體執(zhí)行時(shí)間。??5.2聚類(lèi)結(jié)果??在實(shí)驗(yàn)中選用有機(jī)質(zhì)含量(organgkg)、全氮??(alln)等兩種土壤化學(xué)特征數(shù)據(jù),數(shù)據(jù)量大小是796??條,兩個(gè)初始點(diǎn)分別是Ml?(1,?20)、M2?(2,丨0),取??值K=2。運(yùn)行聚類(lèi)算法,從而得到如圖8所示的結(jié)果。??1?2?S?4?5?6-??分區(qū)倍數(shù)不同取值??■?1G?■?3G?■?9G?■?27G?■?BIG??圖6不同分區(qū)倍數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于支持向量機(jī)的光刻膠粘接芯片存儲(chǔ)安全檢測(cè)[J]. 劉芳. 粘接. 2019(09)
[2]基于協(xié)處理器的HBase二級(jí)索引方法[J]. 郭紅,周健倩,張瑛瑛,郭昆. 計(jì)算機(jī)工程與應(yīng)用. 2019(21)
[3]基于HBase的支持頻繁更新與多用戶并發(fā)的R樹(shù)[J]. 王波濤,梁偉,趙凱利,鐘漢輝,張玉圻. 計(jì)算機(jī)科學(xué). 2018(07)
[4]電力通信大數(shù)據(jù)并行化聚類(lèi)算法研究[J]. 曾瑛,李星南,劉新展. 電子技術(shù)應(yīng)用. 2018(05)
[5]Hadoop平臺(tái)下基于快速搜索與密度峰值查找的聚類(lèi)算法[J]. 郭友雄,黃添強(qiáng),林玲鵬,黃維. 福建師大福清分校學(xué)報(bào). 2018(02)
[6]基于Spark的密度聚類(lèi)算法并行化研究[J]. 朱子龍,李玲娟. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[7]基于Hadoop架構(gòu)的電力企業(yè)數(shù)據(jù)共享模型研究[J]. 蔣雷雷,代作松,秦賓. 通信電源技術(shù). 2018(01)
[8]SCoS:基于Spark的并行譜聚類(lèi)算法設(shè)計(jì)與實(shí)現(xiàn)[J]. 朱光輝,黃圣彬,袁春風(fēng),黃宜華. 計(jì)算機(jī)學(xué)報(bào). 2018(04)
[9]分布式多源農(nóng)林物聯(lián)網(wǎng)感知數(shù)據(jù)共享平臺(tái)研發(fā)[J]. 陳棟,吳保國(guó),陳天恩,董靜. 農(nóng)業(yè)工程學(xué)報(bào). 2017(S1)
[10]基于J2EE與ArcIMS的城市土壤信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 白思杰,魏忠義. 土壤. 2011(02)
本文編號(hào):3118963
本文鏈接:http://sikaile.net/kejilunwen/nykj/3118963.html
最近更新
教材專著