基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享平臺設(shè)計與實現(xiàn)
本文選題:信息孤島 + 海量數(shù)據(jù); 參考:《西安科技大學》2015年碩士論文
【摘要】:煤炭在我國能源消費中占有很大比重,而大型國有煤炭企業(yè)在我國煤炭生產(chǎn)領(lǐng)域掌握著統(tǒng)治地位,為保障我國的能源安全、經(jīng)濟發(fā)展和社會穩(wěn)定做出了突出貢獻。為了提高企業(yè)的生產(chǎn)效率、降低企業(yè)運營成本、預防煤礦安全事故,煤炭企業(yè)紛紛建立了自己的信息化系統(tǒng)。但由于在建設(shè)時沒有進行合理的規(guī)劃,不同信息化系統(tǒng)之間數(shù)據(jù)不能共享,在企業(yè)內(nèi)部形成眾多“信息孤島”。一些煤炭企業(yè)為了打破“信息孤島”,陸續(xù)建立起了數(shù)據(jù)共享平臺,但這些數(shù)據(jù)共享平臺無法滿足當前煤炭企業(yè)信息化系統(tǒng)中的海量數(shù)據(jù)處理需求。Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),依靠集群的方式在廉價機器上提供高速運算和海量存儲。Hadoop使運行和處理大數(shù)據(jù)更加方便,為解決煤炭企業(yè)數(shù)據(jù)中心存在的問題提供了一條有效的途徑。論文通過對于煤炭企業(yè)數(shù)據(jù)中心所面臨的大數(shù)據(jù)處理難題的研究和分析,首先建立了煤炭企業(yè)數(shù)據(jù)共享模型,該模型在Hadoop上建立一個數(shù)據(jù)倉庫,從源數(shù)據(jù)庫按照要求抽取的數(shù)據(jù)經(jīng)過數(shù)據(jù)集成后存儲于數(shù)據(jù)倉庫中,通過向外提供統(tǒng)一的數(shù)據(jù)接口,為用戶提供數(shù)據(jù)訪問和數(shù)據(jù)分析的服務(wù)。其次,針對某煤炭企業(yè)的實際需求,以該煤炭企業(yè)的生產(chǎn)數(shù)據(jù)為例,完成了數(shù)據(jù)共享平臺的設(shè)計。完成了Hadoop平臺和服務(wù)器端數(shù)據(jù)模型的設(shè)計。對應用Sqoop進行數(shù)據(jù)抽取的過程進行了闡述。定義了數(shù)據(jù)清洗和轉(zhuǎn)換的要求和方法。詳細介紹了應用的并行FP-Growth算法的算法流程,并設(shè)計了幾個簡單示例應用。最后,對平臺功能進行了力所能及的實現(xiàn)。依據(jù)設(shè)計要求,通過Sqoop將數(shù)據(jù)從源數(shù)據(jù)庫中抽取出來,放入Hive數(shù)據(jù)倉庫中。Hive和Eclipse集成,在Eclipse下編程實現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換和加載。應用Eclipse調(diào)用Mahout的并行FP-Growth方法進行數(shù)據(jù)分析,并將結(jié)果保存在數(shù)據(jù)庫中。將數(shù)據(jù)處理結(jié)果導入到平臺數(shù)據(jù)庫中,并基于Spring架構(gòu),在服務(wù)器端完成了示例應用的開發(fā);贖adoop的煤炭企業(yè)數(shù)據(jù)共享平臺,利用Hadoop平臺采用成熟的開源的技術(shù),擁有強大的處理能力和高穩(wěn)定性,不僅提高了實現(xiàn)數(shù)據(jù)共享的效率,同時可以滿足對這些數(shù)據(jù)進行分析和處理的需求,而且降低了企業(yè)數(shù)據(jù)中心的運營成本。該平臺有效的解決了煤炭企業(yè)信息系統(tǒng)中普遍存在的“信息孤島”和海量數(shù)據(jù)的問題,煤炭企業(yè)可以基于此平臺進一步開發(fā)特定的功能應用,為企業(yè)生產(chǎn)經(jīng)營提供幫助。
[Abstract]:Coal occupies a large proportion in China's energy consumption, while large state-owned coal enterprises hold a dominant position in the field of coal production in China, which has made outstanding contributions to ensuring the energy security, economic development and social stability of our country. In order to improve the production efficiency, reduce the operation cost and prevent coal mine safety accidents, coal enterprises have established their own information systems. However, due to the lack of reasonable planning in construction, the data between different information systems can not be shared, forming a large number of "information isolated islands" in the enterprise. In order to break the "information island", some coal enterprises have set up a data-sharing platform one after another. However, these data sharing platforms can not meet the needs of mass data processing in the current information system of coal enterprises. Hadoop is a distributed system infrastructure. Relying on cluster to provide high speed operation and mass storage. Hadoop makes it more convenient to run and process big data on cheap machines. It provides an effective way to solve the problems existing in data centers of coal enterprises. Based on the research and analysis of the big data processing problem faced by the coal enterprise data center, this paper first establishes the coal enterprise data sharing model, and the model establishes a data warehouse on Hadoop. The data extracted from the source database is stored in the data warehouse after data integration. By providing a unified data interface, the data access and data analysis services are provided for the users. Secondly, according to the actual demand of a coal enterprise, taking the production data of the coal enterprise as an example, the design of the data sharing platform is completed. The design of Hadoop platform and server-side data model is completed. The process of data extraction using Sqoop is described. The requirements and methods of data cleaning and conversion are defined. The algorithm flow of parallel FP-Growth algorithm is introduced in detail, and several simple examples are designed. Finally, the platform function can be realized. According to the design requirements, the data is extracted from the source database through Sqoop, and put into the Hive data warehouse. Hive integrates with Eclipse, and the data is cleaned, transformed and loaded by programming under Eclipse. Using Eclipse to call Mahout's parallel FP-Growth method to analyze the data and save the results in the database. The data processing result is imported into the platform database, and based on Spring architecture, the example application is developed on the server side. The coal enterprise data sharing platform based on Hadoop, using Hadoop platform with mature open source technology, has strong processing ability and high stability, which not only improves the efficiency of data sharing, but also improves the efficiency of data sharing. At the same time, it can meet the needs of data analysis and processing, and reduce the operating cost of enterprise data center. The platform effectively solves the problems of "information isolated island" and massive data in the information system of coal enterprises. Coal enterprises can further develop specific functional applications based on this platform to provide help for production and management of enterprises.
【學位授予單位】:西安科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:F426.21;TP311.13
【相似文獻】
相關(guān)期刊論文 前5條
1 楊斌;檀傈錳;田勇;張利欣;金瑩;;材料腐蝕數(shù)據(jù)共享平臺構(gòu)建方法研究[J];中國腐蝕與防護學報;2011年03期
2 趙衛(wèi)利;陳曉毅;靳紅;;科學數(shù)據(jù)共享平臺,支撐優(yōu)勢產(chǎn)業(yè)發(fā)展研究[J];科技與經(jīng)濟;2008年02期
3 方利;王文杰;高振記;王明浩;花潔;曾秀俐;;基于SOA的環(huán)境科學數(shù)據(jù)共享平臺設(shè)計與實踐[J];環(huán)境工程技術(shù)學報;2014年04期
4 華麗;楚世國;吳國年;魏發(fā)燦;黃曉創(chuàng);張玉鋒;;耐火材料科學數(shù)據(jù)共享平臺的開發(fā)及應用[J];耐火材料;2009年05期
5 ;[J];;年期
相關(guān)會議論文 前6條
1 劉德培;尹嶺;;國家人口健康科學數(shù)據(jù)共享平臺[A];中國生物醫(yī)學工程學會成立30周年紀念大會暨2010中國生物醫(yī)學工程學會學術(shù)大會壁報展示論文[C];2010年
2 于洪偉;金永利;葛智剛;;核數(shù)據(jù)共享平臺的研究[A];第十二屆全國核物理大會暨第七屆會員代表大會論文摘要集[C];2004年
3 閆銘玉;宋揚;;先進制造與自動化科學數(shù)據(jù)共享平臺設(shè)計及實現(xiàn)[A];先進制造技術(shù)高層論壇暨第六屆制造業(yè)自動化與信息化技術(shù)研討會論文集[C];2007年
4 劉逸敏;;面向醫(yī)學數(shù)據(jù)共享平臺的協(xié)同管理架構(gòu)[A];中華醫(yī)學會醫(yī)學工程學分會第十次學術(shù)年會暨2009中華臨床醫(yī)學工程及數(shù)字醫(yī)學大會論文集[C];2009年
5 羅朝宇;衣豐超;袁興剛;陳滿意;;基于一體化平臺數(shù)據(jù)中心的數(shù)據(jù)共享平臺在電力企業(yè)的應用[A];2013電力行業(yè)信息化年會論文集[C];2013年
6 謝垂民;黃海峰;王核;;GIS技術(shù)在外經(jīng)貿(mào)信息化中的應用嘗試[A];中國測繪學會2006年學術(shù)年會論文集[C];2006年
相關(guān)重要報紙文章 前8條
1 記者 冷德熙;我國人口與健康數(shù)據(jù)共享平臺進入運行階段[N];科技日報;2010年
2 劉泉平;搭建數(shù)據(jù)共享平臺 促進社會科學的交流與發(fā)展[N];中國社會科學院院報;2007年
3 張中寶;省數(shù)據(jù)共享平臺一期正式運行[N];海南日報;2008年
4 朱彥斌 李王軍 記者 宋偉;科技部專家視察市醫(yī)院新型農(nóng)村遠程數(shù)據(jù)共享平臺準備情況[N];延安日報;2011年
5 記者 劉鵬;江西打造水利數(shù)據(jù)共享平臺[N];中國水利報;2012年
6 徐維榮邋戴紅軍;六合地稅搭建數(shù)據(jù)共享平臺[N];中國稅務(wù)報;2008年
7 通訊員 陳強;我市被評選為全國智慧城市試點[N];四平日報;2013年
8 韶關(guān)日報記者 李陶猛 通訊員 李文柱;我市信息化建設(shè)首獲國家級金獎[N];韶關(guān)日報;2012年
相關(guān)博士學位論文 前2條
1 趙勝鋼;國家農(nóng)業(yè)科學數(shù)據(jù)共享平臺體系結(jié)構(gòu)研究[D];中國農(nóng)業(yè)科學院;2009年
2 陳學君;甘肅省氣象科學數(shù)據(jù)共享平臺及其應用研究[D];蘭州大學;2009年
相關(guān)碩士學位論文 前10條
1 唐維維;基于云計算的區(qū)域醫(yī)療信息數(shù)據(jù)共享平臺的設(shè)計與實現(xiàn)[D];中國人民解放軍醫(yī)學院;2015年
2 秦旭珊;基于Django的氣象數(shù)據(jù)共享平臺的設(shè)計和實現(xiàn)[D];電子科技大學;2015年
3 鄒森忠;空間數(shù)據(jù)共享平臺的數(shù)據(jù)交換與檢索及應用模型研究[D];中國地質(zhì)大學(北京);2013年
4 趙嘉;基于Hadoop的煤炭企業(yè)數(shù)據(jù)共享平臺設(shè)計與實現(xiàn)[D];西安科技大學;2015年
5 周們;網(wǎng)絡(luò)化醫(yī)院感染監(jiān)測數(shù)據(jù)共享平臺的研究與實現(xiàn)[D];中國人民解放軍軍事醫(yī)學科學院;2010年
6 肖凱;基于元數(shù)據(jù)的湖泊—流域數(shù)據(jù)共享平臺研究[D];南京大學;2011年
7 錢大君;崇明島生態(tài)環(huán)境數(shù)據(jù)共享平臺開發(fā)研究[D];華東師范大學;2008年
8 李杰;海洋數(shù)據(jù)共享平臺關(guān)鍵技術(shù)研究與開發(fā)[D];天津大學;2008年
9 程渭;空間環(huán)境科學數(shù)據(jù)共享平臺研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年
10 戴瓊潔;陜西省科學數(shù)據(jù)共享平臺運行機制研究[D];西安電子科技大學;2011年
,本文編號:2112581
本文鏈接:http://sikaile.net/kejilunwen/kuangye/2112581.html