基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
本文選題:信息孤島 + 海量數(shù)據(jù); 參考:《西安科技大學(xué)》2015年碩士論文
【摘要】:煤炭在我國能源消費(fèi)中占有很大比重,而大型國有煤炭企業(yè)在我國煤炭生產(chǎn)領(lǐng)域掌握著統(tǒng)治地位,為保障我國的能源安全、經(jīng)濟(jì)發(fā)展和社會(huì)穩(wěn)定做出了突出貢獻(xiàn)。為了提高企業(yè)的生產(chǎn)效率、降低企業(yè)運(yùn)營成本、預(yù)防煤礦安全事故,煤炭企業(yè)紛紛建立了自己的信息化系統(tǒng)。但由于在建設(shè)時(shí)沒有進(jìn)行合理的規(guī)劃,不同信息化系統(tǒng)之間數(shù)據(jù)不能共享,在企業(yè)內(nèi)部形成眾多“信息孤島”。一些煤炭企業(yè)為了打破“信息孤島”,陸續(xù)建立起了數(shù)據(jù)共享平臺(tái),但這些數(shù)據(jù)共享平臺(tái)無法滿足當(dāng)前煤炭企業(yè)信息化系統(tǒng)中的海量數(shù)據(jù)處理需求。Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),依靠集群的方式在廉價(jià)機(jī)器上提供高速運(yùn)算和海量存儲(chǔ)。Hadoop使運(yùn)行和處理大數(shù)據(jù)更加方便,為解決煤炭企業(yè)數(shù)據(jù)中心存在的問題提供了一條有效的途徑。論文通過對(duì)于煤炭企業(yè)數(shù)據(jù)中心所面臨的大數(shù)據(jù)處理難題的研究和分析,首先建立了煤炭企業(yè)數(shù)據(jù)共享模型,該模型在Hadoop上建立一個(gè)數(shù)據(jù)倉庫,從源數(shù)據(jù)庫按照要求抽取的數(shù)據(jù)經(jīng)過數(shù)據(jù)集成后存儲(chǔ)于數(shù)據(jù)倉庫中,通過向外提供統(tǒng)一的數(shù)據(jù)接口,為用戶提供數(shù)據(jù)訪問和數(shù)據(jù)分析的服務(wù)。其次,針對(duì)某煤炭企業(yè)的實(shí)際需求,以該煤炭企業(yè)的生產(chǎn)數(shù)據(jù)為例,完成了數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)。完成了Hadoop平臺(tái)和服務(wù)器端數(shù)據(jù)模型的設(shè)計(jì)。對(duì)應(yīng)用Sqoop進(jìn)行數(shù)據(jù)抽取的過程進(jìn)行了闡述。定義了數(shù)據(jù)清洗和轉(zhuǎn)換的要求和方法。詳細(xì)介紹了應(yīng)用的并行FP-Growth算法的算法流程,并設(shè)計(jì)了幾個(gè)簡單示例應(yīng)用。最后,對(duì)平臺(tái)功能進(jìn)行了力所能及的實(shí)現(xiàn)。依據(jù)設(shè)計(jì)要求,通過Sqoop將數(shù)據(jù)從源數(shù)據(jù)庫中抽取出來,放入Hive數(shù)據(jù)倉庫中。Hive和Eclipse集成,在Eclipse下編程實(shí)現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換和加載。應(yīng)用Eclipse調(diào)用Mahout的并行FP-Growth方法進(jìn)行數(shù)據(jù)分析,并將結(jié)果保存在數(shù)據(jù)庫中。將數(shù)據(jù)處理結(jié)果導(dǎo)入到平臺(tái)數(shù)據(jù)庫中,并基于Spring架構(gòu),在服務(wù)器端完成了示例應(yīng)用的開發(fā);贖adoop的煤炭企業(yè)數(shù)據(jù)共享平臺(tái),利用Hadoop平臺(tái)采用成熟的開源的技術(shù),擁有強(qiáng)大的處理能力和高穩(wěn)定性,不僅提高了實(shí)現(xiàn)數(shù)據(jù)共享的效率,同時(shí)可以滿足對(duì)這些數(shù)據(jù)進(jìn)行分析和處理的需求,而且降低了企業(yè)數(shù)據(jù)中心的運(yùn)營成本。該平臺(tái)有效的解決了煤炭企業(yè)信息系統(tǒng)中普遍存在的“信息孤島”和海量數(shù)據(jù)的問題,煤炭企業(yè)可以基于此平臺(tái)進(jìn)一步開發(fā)特定的功能應(yīng)用,為企業(yè)生產(chǎn)經(jīng)營提供幫助。
[Abstract]:Coal occupies a large proportion in China's energy consumption, while large state-owned coal enterprises hold a dominant position in the field of coal production in China, which has made outstanding contributions to ensuring the energy security, economic development and social stability of our country. In order to improve the production efficiency, reduce the operation cost and prevent coal mine safety accidents, coal enterprises have established their own information systems. However, due to the lack of reasonable planning in construction, the data between different information systems can not be shared, forming a large number of "information isolated islands" in the enterprise. In order to break the "information island", some coal enterprises have set up a data-sharing platform one after another. However, these data sharing platforms can not meet the needs of mass data processing in the current information system of coal enterprises. Hadoop is a distributed system infrastructure. Relying on cluster to provide high speed operation and mass storage. Hadoop makes it more convenient to run and process big data on cheap machines. It provides an effective way to solve the problems existing in data centers of coal enterprises. Based on the research and analysis of the big data processing problem faced by the coal enterprise data center, this paper first establishes the coal enterprise data sharing model, and the model establishes a data warehouse on Hadoop. The data extracted from the source database is stored in the data warehouse after data integration. By providing a unified data interface, the data access and data analysis services are provided for the users. Secondly, according to the actual demand of a coal enterprise, taking the production data of the coal enterprise as an example, the design of the data sharing platform is completed. The design of Hadoop platform and server-side data model is completed. The process of data extraction using Sqoop is described. The requirements and methods of data cleaning and conversion are defined. The algorithm flow of parallel FP-Growth algorithm is introduced in detail, and several simple examples are designed. Finally, the platform function can be realized. According to the design requirements, the data is extracted from the source database through Sqoop, and put into the Hive data warehouse. Hive integrates with Eclipse, and the data is cleaned, transformed and loaded by programming under Eclipse. Using Eclipse to call Mahout's parallel FP-Growth method to analyze the data and save the results in the database. The data processing result is imported into the platform database, and based on Spring architecture, the example application is developed on the server side. The coal enterprise data sharing platform based on Hadoop, using Hadoop platform with mature open source technology, has strong processing ability and high stability, which not only improves the efficiency of data sharing, but also improves the efficiency of data sharing. At the same time, it can meet the needs of data analysis and processing, and reduce the operating cost of enterprise data center. The platform effectively solves the problems of "information isolated island" and massive data in the information system of coal enterprises. Coal enterprises can further develop specific functional applications based on this platform to provide help for production and management of enterprises.
【學(xué)位授予單位】:西安科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:F426.21;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 楊斌;檀傈錳;田勇;張利欣;金瑩;;材料腐蝕數(shù)據(jù)共享平臺(tái)構(gòu)建方法研究[J];中國腐蝕與防護(hù)學(xué)報(bào);2011年03期
2 趙衛(wèi)利;陳曉毅;靳紅;;科學(xué)數(shù)據(jù)共享平臺(tái),支撐優(yōu)勢(shì)產(chǎn)業(yè)發(fā)展研究[J];科技與經(jīng)濟(jì);2008年02期
3 方利;王文杰;高振記;王明浩;花潔;曾秀俐;;基于SOA的環(huán)境科學(xué)數(shù)據(jù)共享平臺(tái)設(shè)計(jì)與實(shí)踐[J];環(huán)境工程技術(shù)學(xué)報(bào);2014年04期
4 華麗;楚世國;吳國年;魏發(fā)燦;黃曉創(chuàng);張玉鋒;;耐火材料科學(xué)數(shù)據(jù)共享平臺(tái)的開發(fā)及應(yīng)用[J];耐火材料;2009年05期
5 ;[J];;年期
相關(guān)會(huì)議論文 前6條
1 劉德培;尹嶺;;國家人口健康科學(xué)數(shù)據(jù)共享平臺(tái)[A];中國生物醫(yī)學(xué)工程學(xué)會(huì)成立30周年紀(jì)念大會(huì)暨2010中國生物醫(yī)學(xué)工程學(xué)會(huì)學(xué)術(shù)大會(huì)壁報(bào)展示論文[C];2010年
2 于洪偉;金永利;葛智剛;;核數(shù)據(jù)共享平臺(tái)的研究[A];第十二屆全國核物理大會(huì)暨第七屆會(huì)員代表大會(huì)論文摘要集[C];2004年
3 閆銘玉;宋揚(yáng);;先進(jìn)制造與自動(dòng)化科學(xué)數(shù)據(jù)共享平臺(tái)設(shè)計(jì)及實(shí)現(xiàn)[A];先進(jìn)制造技術(shù)高層論壇暨第六屆制造業(yè)自動(dòng)化與信息化技術(shù)研討會(huì)論文集[C];2007年
4 劉逸敏;;面向醫(yī)學(xué)數(shù)據(jù)共享平臺(tái)的協(xié)同管理架構(gòu)[A];中華醫(yī)學(xué)會(huì)醫(yī)學(xué)工程學(xué)分會(huì)第十次學(xué)術(shù)年會(huì)暨2009中華臨床醫(yī)學(xué)工程及數(shù)字醫(yī)學(xué)大會(huì)論文集[C];2009年
5 羅朝宇;衣豐超;袁興剛;陳滿意;;基于一體化平臺(tái)數(shù)據(jù)中心的數(shù)據(jù)共享平臺(tái)在電力企業(yè)的應(yīng)用[A];2013電力行業(yè)信息化年會(huì)論文集[C];2013年
6 謝垂民;黃海峰;王核;;GIS技術(shù)在外經(jīng)貿(mào)信息化中的應(yīng)用嘗試[A];中國測(cè)繪學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前8條
1 記者 冷德熙;我國人口與健康數(shù)據(jù)共享平臺(tái)進(jìn)入運(yùn)行階段[N];科技日?qǐng)?bào);2010年
2 劉泉平;搭建數(shù)據(jù)共享平臺(tái) 促進(jìn)社會(huì)科學(xué)的交流與發(fā)展[N];中國社會(huì)科學(xué)院院報(bào);2007年
3 張中寶;省數(shù)據(jù)共享平臺(tái)一期正式運(yùn)行[N];海南日?qǐng)?bào);2008年
4 朱彥斌 李王軍 記者 宋偉;科技部專家視察市醫(yī)院新型農(nóng)村遠(yuǎn)程數(shù)據(jù)共享平臺(tái)準(zhǔn)備情況[N];延安日?qǐng)?bào);2011年
5 記者 劉鵬;江西打造水利數(shù)據(jù)共享平臺(tái)[N];中國水利報(bào);2012年
6 徐維榮邋戴紅軍;六合地稅搭建數(shù)據(jù)共享平臺(tái)[N];中國稅務(wù)報(bào);2008年
7 通訊員 陳強(qiáng);我市被評(píng)選為全國智慧城市試點(diǎn)[N];四平日?qǐng)?bào);2013年
8 韶關(guān)日?qǐng)?bào)記者 李陶猛 通訊員 李文柱;我市信息化建設(shè)首獲國家級(jí)金獎(jiǎng)[N];韶關(guān)日?qǐng)?bào);2012年
相關(guān)博士學(xué)位論文 前2條
1 趙勝鋼;國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享平臺(tái)體系結(jié)構(gòu)研究[D];中國農(nóng)業(yè)科學(xué)院;2009年
2 陳學(xué)君;甘肅省氣象科學(xué)數(shù)據(jù)共享平臺(tái)及其應(yīng)用研究[D];蘭州大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 唐維維;基于云計(jì)算的區(qū)域醫(yī)療信息數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國人民解放軍醫(yī)學(xué)院;2015年
2 秦旭珊;基于Django的氣象數(shù)據(jù)共享平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)[D];電子科技大學(xué);2015年
3 鄒森忠;空間數(shù)據(jù)共享平臺(tái)的數(shù)據(jù)交換與檢索及應(yīng)用模型研究[D];中國地質(zhì)大學(xué)(北京);2013年
4 趙嘉;基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D];西安科技大學(xué);2015年
5 周們;網(wǎng)絡(luò)化醫(yī)院感染監(jiān)測(cè)數(shù)據(jù)共享平臺(tái)的研究與實(shí)現(xiàn)[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2010年
6 肖凱;基于元數(shù)據(jù)的湖泊—流域數(shù)據(jù)共享平臺(tái)研究[D];南京大學(xué);2011年
7 錢大君;崇明島生態(tài)環(huán)境數(shù)據(jù)共享平臺(tái)開發(fā)研究[D];華東師范大學(xué);2008年
8 李杰;海洋數(shù)據(jù)共享平臺(tái)關(guān)鍵技術(shù)研究與開發(fā)[D];天津大學(xué);2008年
9 程渭;空間環(huán)境科學(xué)數(shù)據(jù)共享平臺(tái)研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
10 戴瓊潔;陜西省科學(xué)數(shù)據(jù)共享平臺(tái)運(yùn)行機(jī)制研究[D];西安電子科技大學(xué);2011年
,本文編號(hào):2112581
本文鏈接:http://sikaile.net/kejilunwen/kuangye/2112581.html