云環(huán)境下大數(shù)據(jù)遷移與存儲(chǔ)研究
發(fā)布時(shí)間:2022-01-07 05:34
為了應(yīng)對(duì)快速數(shù)據(jù)增長(zhǎng)對(duì)在線業(yè)務(wù)運(yùn)營(yíng)平臺(tái)的壓力,本論文設(shè)計(jì)實(shí)現(xiàn)了一種云平臺(tái)上大數(shù)據(jù)遷移存儲(chǔ)系統(tǒng)。該系統(tǒng)針對(duì)企業(yè)日常運(yùn)營(yíng)管理數(shù)據(jù),實(shí)現(xiàn)了一種數(shù)據(jù)遷移方案,并優(yōu)化了基于Hadoop平臺(tái)的數(shù)據(jù)存儲(chǔ)方案,F(xiàn)有業(yè)務(wù)運(yùn)營(yíng)平臺(tái)數(shù)據(jù)通常是存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),結(jié)合結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)和存儲(chǔ)環(huán)境,綜合考慮遷移效率、成本等問(wèn)題,本文采用了基于Sqoop的數(shù)據(jù)遷移系統(tǒng)設(shè)計(jì),并從數(shù)據(jù)量大小、字段劃分類(lèi)型、Map任務(wù)數(shù)三個(gè)方面對(duì)遷移性能進(jìn)行分析,此種設(shè)計(jì)能夠在系統(tǒng)簡(jiǎn)潔流暢穩(wěn)定運(yùn)行的前提下充分保重?cái)?shù)據(jù)遷移的安全性,同時(shí)能夠保證數(shù)據(jù)到達(dá)遷移目的存儲(chǔ)系統(tǒng)后能夠自動(dòng)化歸檔。Hadoop平臺(tái)提供了HDFS分布式文件存儲(chǔ)系統(tǒng),同時(shí)又有MapReduce分布式計(jì)算框架的支撐,在此基礎(chǔ)之上,本文采用了Hadoop的兩個(gè)數(shù)據(jù)管理組件:HBase和Hive,通過(guò)分析各自優(yōu)缺點(diǎn),取長(zhǎng)補(bǔ)短,實(shí)現(xiàn)了基于HBase和Hive的數(shù)據(jù)整合存儲(chǔ)系統(tǒng),并對(duì)比分析單獨(dú)使用Hive和使用整合查詢系統(tǒng)的查詢性能,該系統(tǒng)能在不破壞組件各自功能完整性的情況下更好的發(fā)揮數(shù)據(jù)查詢性能。經(jīng)過(guò)測(cè)試,系統(tǒng)能夠完整的實(shí)現(xiàn)數(shù)據(jù)的遷移,并且基于HBase和Hive的整合存儲(chǔ)...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中智云硬件架構(gòu)
第二章相關(guān)技術(shù)分析13圖2.3中智云平臺(tái)認(rèn)證云平臺(tái)主要包含了項(xiàng)目和身份管理模塊,管理員賬號(hào)下還包含管理員模塊。項(xiàng)目模塊中包含著計(jì)算和網(wǎng)絡(luò)服務(wù)的相關(guān)信息,我們可以通過(guò)計(jì)算服務(wù)的云主機(jī)數(shù)量查看本用戶創(chuàng)建的云主機(jī)信息,如圖2.4所示。本論文后續(xù)章節(jié)中使用到的大數(shù)據(jù)平臺(tái)服務(wù)器主機(jī)都是通過(guò)此云平臺(tái)創(chuàng)建的云主機(jī)。圖2.4云主機(jī)2.2Hadoop生態(tài)系統(tǒng)簡(jiǎn)介廣義的Hadoop是指Apache基金會(huì)下的一個(gè)處理大數(shù)據(jù)的分布式軟件平臺(tái)。Hadoop自從2006年面世以來(lái),技術(shù)發(fā)展迅猛,其技術(shù)生態(tài)圈也日益壯大,從最初只有HDFS和MapReduce兩個(gè)組件,發(fā)展到當(dāng)前多達(dá)六十多個(gè)組件,覆蓋范圍包含了從數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎到數(shù)據(jù)訪問(wèn)框架等各個(gè)方面[27]。Hadoop的本地化計(jì)算理念、彈性的多層級(jí)架構(gòu)、高效的分布式計(jì)算框架,在提供了前所未有的計(jì)算能力的同時(shí),也大大降低了計(jì)算成本,使其在大規(guī)模數(shù)據(jù)處理分析上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)其他產(chǎn)品,不但被廣泛應(yīng)用于各個(gè)行業(yè)的數(shù)據(jù)分析和處理,更已成為各大企業(yè)數(shù)據(jù)平臺(tái)的首眩Hadoop平臺(tái)最為核心的兩個(gè)模塊是HDFS和MapReduce,其中HDFS是一種分布式文件系統(tǒng),為整個(gè)Hadoop系統(tǒng)提供底層的存儲(chǔ)支撐,而MapReduce則
第二章相關(guān)技術(shù)分析13圖2.3中智云平臺(tái)認(rèn)證云平臺(tái)主要包含了項(xiàng)目和身份管理模塊,管理員賬號(hào)下還包含管理員模塊。項(xiàng)目模塊中包含著計(jì)算和網(wǎng)絡(luò)服務(wù)的相關(guān)信息,我們可以通過(guò)計(jì)算服務(wù)的云主機(jī)數(shù)量查看本用戶創(chuàng)建的云主機(jī)信息,如圖2.4所示。本論文后續(xù)章節(jié)中使用到的大數(shù)據(jù)平臺(tái)服務(wù)器主機(jī)都是通過(guò)此云平臺(tái)創(chuàng)建的云主機(jī)。圖2.4云主機(jī)2.2Hadoop生態(tài)系統(tǒng)簡(jiǎn)介廣義的Hadoop是指Apache基金會(huì)下的一個(gè)處理大數(shù)據(jù)的分布式軟件平臺(tái)。Hadoop自從2006年面世以來(lái),技術(shù)發(fā)展迅猛,其技術(shù)生態(tài)圈也日益壯大,從最初只有HDFS和MapReduce兩個(gè)組件,發(fā)展到當(dāng)前多達(dá)六十多個(gè)組件,覆蓋范圍包含了從數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎到數(shù)據(jù)訪問(wèn)框架等各個(gè)方面[27]。Hadoop的本地化計(jì)算理念、彈性的多層級(jí)架構(gòu)、高效的分布式計(jì)算框架,在提供了前所未有的計(jì)算能力的同時(shí),也大大降低了計(jì)算成本,使其在大規(guī)模數(shù)據(jù)處理分析上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)其他產(chǎn)品,不但被廣泛應(yīng)用于各個(gè)行業(yè)的數(shù)據(jù)分析和處理,更已成為各大企業(yè)數(shù)據(jù)平臺(tái)的首眩Hadoop平臺(tái)最為核心的兩個(gè)模塊是HDFS和MapReduce,其中HDFS是一種分布式文件系統(tǒng),為整個(gè)Hadoop系統(tǒng)提供底層的存儲(chǔ)支撐,而MapReduce則
【參考文獻(xiàn)】:
期刊論文
[1]淺談云計(jì)算的發(fā)展與挑戰(zhàn)[J]. 夏銘遠(yuǎn). 中國(guó)新通信. 2018(15)
[2]云計(jì)算發(fā)展現(xiàn)狀及趨勢(shì)研究[J]. 李曼曼. 無(wú)線互聯(lián)科技. 2018(05)
[3]大數(shù)據(jù)的存儲(chǔ)管理技術(shù)[J]. 歐艷鵬. 電子技術(shù)與軟件工程. 2017(21)
[4]云計(jì)算研究現(xiàn)狀綜述[J]. 曾旭禹. 中國(guó)新通信. 2015(12)
[5]基于MapReduce的Hadoop大表導(dǎo)入編程模型[J]. 陳吉榮,樂(lè)嘉錦. 計(jì)算機(jī)應(yīng)用. 2013(09)
博士論文
[1]模塊化數(shù)據(jù)中心網(wǎng)拓?fù)浣Y(jié)構(gòu)及特性的研究[D]. 韓冬.華南理工大學(xué) 2017
碩士論文
[1]基于提升樹(shù)的作物生長(zhǎng)預(yù)測(cè)模型的研究與系統(tǒng)構(gòu)建[D]. 賴新明.北京交通大學(xué) 2017
[2]基于Hadoop的海量圖片檢索平臺(tái)的構(gòu)建與研究[D]. 王偉晨.內(nèi)蒙古農(nóng)業(yè)大學(xué) 2017
[3]高性能和高可用分布式鍵值存儲(chǔ)系統(tǒng)的研究與設(shè)計(jì)[D]. 廖巖.華南理工大學(xué) 2017
[4]Linux容器防護(hù)技術(shù)研究[D]. 魏小鋒.解放軍信息工程大學(xué) 2017
[5]海量動(dòng)漫資源中小文件存儲(chǔ)技術(shù)研究與應(yīng)用[D]. 周瑩.東北大學(xué) 2017
[6]基于物聯(lián)網(wǎng)的海洋平臺(tái)監(jiān)測(cè)數(shù)據(jù)管理研究[D]. 包樂(lè)爾.大連理工大學(xué) 2016
[7]混合式鍵值大數(shù)據(jù)存儲(chǔ)系統(tǒng)的研究[D]. 朱王兵.華南理工大學(xué) 2016
[8]針對(duì)內(nèi)部管理員與外包商安全風(fēng)險(xiǎn)的可控云計(jì)算平臺(tái)關(guān)鍵技術(shù)研究[D]. 向林波.北京郵電大學(xué) 2016
[9]低秩線性方程組與單變量多項(xiàng)式安全云外包計(jì)算方案[D]. 王婷.西安電子科技大學(xué) 2016
[10]基于大數(shù)據(jù)的信息物理融合系統(tǒng)的分析與設(shè)計(jì)方法[D]. 黎楚乾.廣東工業(yè)大學(xué) 2015
本文編號(hào):3573917
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中智云硬件架構(gòu)
第二章相關(guān)技術(shù)分析13圖2.3中智云平臺(tái)認(rèn)證云平臺(tái)主要包含了項(xiàng)目和身份管理模塊,管理員賬號(hào)下還包含管理員模塊。項(xiàng)目模塊中包含著計(jì)算和網(wǎng)絡(luò)服務(wù)的相關(guān)信息,我們可以通過(guò)計(jì)算服務(wù)的云主機(jī)數(shù)量查看本用戶創(chuàng)建的云主機(jī)信息,如圖2.4所示。本論文后續(xù)章節(jié)中使用到的大數(shù)據(jù)平臺(tái)服務(wù)器主機(jī)都是通過(guò)此云平臺(tái)創(chuàng)建的云主機(jī)。圖2.4云主機(jī)2.2Hadoop生態(tài)系統(tǒng)簡(jiǎn)介廣義的Hadoop是指Apache基金會(huì)下的一個(gè)處理大數(shù)據(jù)的分布式軟件平臺(tái)。Hadoop自從2006年面世以來(lái),技術(shù)發(fā)展迅猛,其技術(shù)生態(tài)圈也日益壯大,從最初只有HDFS和MapReduce兩個(gè)組件,發(fā)展到當(dāng)前多達(dá)六十多個(gè)組件,覆蓋范圍包含了從數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎到數(shù)據(jù)訪問(wèn)框架等各個(gè)方面[27]。Hadoop的本地化計(jì)算理念、彈性的多層級(jí)架構(gòu)、高效的分布式計(jì)算框架,在提供了前所未有的計(jì)算能力的同時(shí),也大大降低了計(jì)算成本,使其在大規(guī)模數(shù)據(jù)處理分析上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)其他產(chǎn)品,不但被廣泛應(yīng)用于各個(gè)行業(yè)的數(shù)據(jù)分析和處理,更已成為各大企業(yè)數(shù)據(jù)平臺(tái)的首眩Hadoop平臺(tái)最為核心的兩個(gè)模塊是HDFS和MapReduce,其中HDFS是一種分布式文件系統(tǒng),為整個(gè)Hadoop系統(tǒng)提供底層的存儲(chǔ)支撐,而MapReduce則
第二章相關(guān)技術(shù)分析13圖2.3中智云平臺(tái)認(rèn)證云平臺(tái)主要包含了項(xiàng)目和身份管理模塊,管理員賬號(hào)下還包含管理員模塊。項(xiàng)目模塊中包含著計(jì)算和網(wǎng)絡(luò)服務(wù)的相關(guān)信息,我們可以通過(guò)計(jì)算服務(wù)的云主機(jī)數(shù)量查看本用戶創(chuàng)建的云主機(jī)信息,如圖2.4所示。本論文后續(xù)章節(jié)中使用到的大數(shù)據(jù)平臺(tái)服務(wù)器主機(jī)都是通過(guò)此云平臺(tái)創(chuàng)建的云主機(jī)。圖2.4云主機(jī)2.2Hadoop生態(tài)系統(tǒng)簡(jiǎn)介廣義的Hadoop是指Apache基金會(huì)下的一個(gè)處理大數(shù)據(jù)的分布式軟件平臺(tái)。Hadoop自從2006年面世以來(lái),技術(shù)發(fā)展迅猛,其技術(shù)生態(tài)圈也日益壯大,從最初只有HDFS和MapReduce兩個(gè)組件,發(fā)展到當(dāng)前多達(dá)六十多個(gè)組件,覆蓋范圍包含了從數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎到數(shù)據(jù)訪問(wèn)框架等各個(gè)方面[27]。Hadoop的本地化計(jì)算理念、彈性的多層級(jí)架構(gòu)、高效的分布式計(jì)算框架,在提供了前所未有的計(jì)算能力的同時(shí),也大大降低了計(jì)算成本,使其在大規(guī)模數(shù)據(jù)處理分析上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)其他產(chǎn)品,不但被廣泛應(yīng)用于各個(gè)行業(yè)的數(shù)據(jù)分析和處理,更已成為各大企業(yè)數(shù)據(jù)平臺(tái)的首眩Hadoop平臺(tái)最為核心的兩個(gè)模塊是HDFS和MapReduce,其中HDFS是一種分布式文件系統(tǒng),為整個(gè)Hadoop系統(tǒng)提供底層的存儲(chǔ)支撐,而MapReduce則
【參考文獻(xiàn)】:
期刊論文
[1]淺談云計(jì)算的發(fā)展與挑戰(zhàn)[J]. 夏銘遠(yuǎn). 中國(guó)新通信. 2018(15)
[2]云計(jì)算發(fā)展現(xiàn)狀及趨勢(shì)研究[J]. 李曼曼. 無(wú)線互聯(lián)科技. 2018(05)
[3]大數(shù)據(jù)的存儲(chǔ)管理技術(shù)[J]. 歐艷鵬. 電子技術(shù)與軟件工程. 2017(21)
[4]云計(jì)算研究現(xiàn)狀綜述[J]. 曾旭禹. 中國(guó)新通信. 2015(12)
[5]基于MapReduce的Hadoop大表導(dǎo)入編程模型[J]. 陳吉榮,樂(lè)嘉錦. 計(jì)算機(jī)應(yīng)用. 2013(09)
博士論文
[1]模塊化數(shù)據(jù)中心網(wǎng)拓?fù)浣Y(jié)構(gòu)及特性的研究[D]. 韓冬.華南理工大學(xué) 2017
碩士論文
[1]基于提升樹(shù)的作物生長(zhǎng)預(yù)測(cè)模型的研究與系統(tǒng)構(gòu)建[D]. 賴新明.北京交通大學(xué) 2017
[2]基于Hadoop的海量圖片檢索平臺(tái)的構(gòu)建與研究[D]. 王偉晨.內(nèi)蒙古農(nóng)業(yè)大學(xué) 2017
[3]高性能和高可用分布式鍵值存儲(chǔ)系統(tǒng)的研究與設(shè)計(jì)[D]. 廖巖.華南理工大學(xué) 2017
[4]Linux容器防護(hù)技術(shù)研究[D]. 魏小鋒.解放軍信息工程大學(xué) 2017
[5]海量動(dòng)漫資源中小文件存儲(chǔ)技術(shù)研究與應(yīng)用[D]. 周瑩.東北大學(xué) 2017
[6]基于物聯(lián)網(wǎng)的海洋平臺(tái)監(jiān)測(cè)數(shù)據(jù)管理研究[D]. 包樂(lè)爾.大連理工大學(xué) 2016
[7]混合式鍵值大數(shù)據(jù)存儲(chǔ)系統(tǒng)的研究[D]. 朱王兵.華南理工大學(xué) 2016
[8]針對(duì)內(nèi)部管理員與外包商安全風(fēng)險(xiǎn)的可控云計(jì)算平臺(tái)關(guān)鍵技術(shù)研究[D]. 向林波.北京郵電大學(xué) 2016
[9]低秩線性方程組與單變量多項(xiàng)式安全云外包計(jì)算方案[D]. 王婷.西安電子科技大學(xué) 2016
[10]基于大數(shù)據(jù)的信息物理融合系統(tǒng)的分析與設(shè)計(jì)方法[D]. 黎楚乾.廣東工業(yè)大學(xué) 2015
本文編號(hào):3573917
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3573917.html
最近更新
教材專(zhuān)著