一種基于Hadoop平臺Dump模塊的設(shè)計與實現(xiàn)

發(fā)布時間：2018-03-21 03:39

本文選題：Dump　切入點：數(shù)據(jù)處理　出處：《北京郵電大學》2012年碩士論文　論文類型：學位論文

【摘要】：隨著互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,與用戶相關(guān)的信息和數(shù)據(jù)呈現(xiàn)出大規(guī)模的增長趨勢,與此同時,針對有價值的數(shù)據(jù)進行導出、分析和處理也成為各大公司所面對的一個課題。傳統(tǒng)的數(shù)據(jù)導出采用單機Dump1的方式來進行,針對數(shù)據(jù)庫中庫表的關(guān)聯(lián)通常由Server端來完成,Client端負責對獲取到的數(shù)據(jù)做進一步的分析和處理,然而,隨著公司業(yè)務的發(fā)展和數(shù)據(jù)爆發(fā)式的增長,這種單機版的方式已經(jīng)無法適應系統(tǒng)對性能的要求,某種程度上,成為制約業(yè)務發(fā)展的瓶頸,需要一種更加合理的架構(gòu)實現(xiàn)來替代。 Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,使用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng),簡稱HDFS。 HDFS有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。本文從企業(yè)應用的角度出發(fā),以淘寶直通車廣告系統(tǒng)的業(yè)務背景為例,分析了當前數(shù)據(jù)在Dump和后續(xù)處理過程中所面臨的問題和瓶頸,歸納總結(jié)了Hadoop平臺下進行相關(guān)程序開發(fā)的技術(shù)要點,在此基礎(chǔ)上,針對所面臨的業(yè)務需求,將整個任務分解成了幾個重要的功能模塊,并分別給出了其在Hadoop平臺相應的解決方案,完成了程序結(jié)構(gòu)的設(shè)計和全部代碼的實現(xiàn)。不但從架構(gòu)上很好的解決了單機Dump所面臨的各種問題,而且,使得整個系統(tǒng)具備了更好的穩(wěn)定性、更高的可擴展性和易維護性,并在較長的一段時間內(nèi),能夠應對業(yè)務快速發(fā)展和數(shù)據(jù)大規(guī)模增長的需要。本文在最后系統(tǒng)分析了Hadoop平臺底層的工作機制和運行原理,并針對線上系統(tǒng)進行了相應的參數(shù)調(diào)優(yōu),有效降低了設(shè)備的負載,取得了良好的效果。
[Abstract]:With the rapid development of the Internet industry, the information and data related to users have shown a large-scale growth trend. At the same time, the export, analysis and processing of valuable data has become a topic faced by large companies. The traditional data export is carried out by single machine Dump1. The database table association is usually completed by the Server terminal, which is responsible for the further analysis and processing of the acquired data. With the development of company business and the growth of data explosion, this single version of the system can no longer meet the performance requirements of the system. To some extent, it has become a bottleneck restricting the development of business, and needs a more reasonable architecture to replace it. Hadoop is a distributed system infrastructure developed by the Apache Foundation. It is a software framework that can process a large amount of data in a distributed way. A distributed file system, HDFS. HDFS, is implemented by fully utilizing the power of cluster, high speed operation and storage. Hadoop. HDFS. HDFS has the characteristics of high fault tolerance. And it is designed to be deployed on low cost hardware, and it provides high transmission rate to access the application data, which is suitable for those applications with large data sets. From the point of view of enterprise application, taking the business background of Taobao through train advertising system as an example, this paper analyzes the problems and bottlenecks faced by the current data in the process of Dump and subsequent processing. This paper summarizes the technical points of the related program development under the Hadoop platform. On this basis, the whole task is decomposed into several important function modules according to the business requirements. The corresponding solutions in Hadoop platform are given respectively, and the design of the program structure and the implementation of all the codes are completed. Not only all kinds of problems faced by the single machine Dump are solved very well from the architecture, but also, The whole system has better stability, higher scalability and maintainability, and in a longer period of time, it can meet the needs of rapid development of business and large-scale growth of data. At the end of this paper, the working mechanism and operation principle of Hadoop platform are systematically analyzed, and the corresponding parameters are optimized for the on-line system, which effectively reduces the load of the equipment and achieves good results.
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2012
【分類號】：TP311.52

【相似文獻】

相關(guān)期刊論文前10條

1 余楚禮;肖迎元;尹波;;一種基于Hadoop的并行關(guān)聯(lián)規(guī)則算法[J];天津理工大學學報;2011年01期

2 曹英忠;謝曉蘭;趙鵬;;基于Hadoop的云存儲實踐[J];現(xiàn)代計算機(專業(yè)版);2011年24期

3 周軼男;王宇;;Hadoop文件系統(tǒng)性能分析[J];電子技術(shù);2011年05期

4 李克然;劉東蘇;鄧媛;;電子商務環(huán)境下海量數(shù)據(jù)存儲模型[J];情報雜志;2010年S2期

5 高宏卿;翟炎杰;;基于Hadoop的移動學習模型研究[J];中國電化教育;2011年01期

6 鄭欣杰;朱程榮;熊齊邦;;基于MapReduce的分布式光線跟蹤的設(shè)計與實現(xiàn)[J];計算機工程;2007年22期

7 吳寶貴;丁振國;;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書情報技術(shù);2007年08期

8 ;ATI聯(lián)手華碩推顯卡芯片[J];每周電腦報;2003年39期

9 付軍;;IDT要做網(wǎng)絡(luò)通信領(lǐng)域的領(lǐng)導者[J];集成電路應用;2004年11期

10 ;Silicon Image公布低成本儲存架構(gòu),面向小業(yè)務用戶[J];集成電路應用;2004年12期

相關(guān)會議論文前10條

1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術(shù)研究與實現(xiàn)[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年

2 金松昌;方濱興;楊樹強;賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年

3 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年

4 林佳燁;;云計算在電信行業(yè)數(shù)據(jù)分析領(lǐng)域的應用[A];廣東通信2010青年論壇優(yōu)秀論文集[C];2010年

5 張大華;丁輝;吳向陽;趙毅強;孫毓忠;;面向智能電網(wǎng)的電力云計算架構(gòu)[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年

6 肖晴;;移動互聯(lián)網(wǎng)業(yè)務“云+端”架構(gòu)的探索與實踐[A];中國通信學會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集（上冊）[C];2011年

7 顧建國;朱光榮;;基于全臺網(wǎng)架構(gòu)的“大媒資”系統(tǒng)設(shè)計及實踐[A];2011中國電影電視技術(shù)學會影視技術(shù)文集[C];2011年

8 潘建;;核物理裝置計算機控制系統(tǒng)的架構(gòu)選擇與比較[A];第十五屆全國核電子學與核探測技術(shù)學術(shù)年會論文集[C];2010年

9 許威;朱順痣;繆克華;王穎;李茂青;;同步/異步ETL架構(gòu)的比較[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集（技術(shù)報告篇）[C];2006年

10 趙樹璋;;SaaS架構(gòu)現(xiàn)狀及發(fā)展趨勢[A];湖北省通信學會、武漢通信學會2009年學術(shù)年會論文集[C];2009年

相關(guān)重要報紙文章前10條

1 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機世界;2011年

2 本報記者馬文方;Hadoop：云中起舞的小象[N];中國計算機報;2010年

3 本報記者周源;共享IT架構(gòu)選購之道[N];網(wǎng)絡(luò)世界;2010年

4 本報記者鄒大斌;QNX:微內(nèi)核架構(gòu)奠定安全基礎(chǔ)[N];計算機世界;2011年

5 《網(wǎng)絡(luò)世界》記者于翔;混合交付：云只是途徑之一[N];網(wǎng)絡(luò)世界;2011年

6 本報記者趙謹娜;IBM X架構(gòu)：技術(shù)為本用戶為先[N];中國計算機報;2001年

7 記者于新春;業(yè)內(nèi)人士呼吁建立新型市場架構(gòu)[N];國際商報;2001年

8 劉杰;思杰陶欣：綠色IT架構(gòu)要“瞻前顧后”[N];中國企業(yè)報;2010年

9 拉毛東治　李婷;青海公司SG—ERP架構(gòu)管控項目開建[N];國家電網(wǎng)報;2011年

10 記者韓曉民;深圳架構(gòu)城區(qū)統(tǒng)一信息平臺[N];人民郵電;2001年

相關(guān)博士學位論文前10條

1 楊鵬;居民電子健康檔案文檔架構(gòu)與數(shù)據(jù)元組的研究與實踐[D];第四軍醫(yī)大學;2012年

2 曲世軍;中國房地產(chǎn)金融風險判斷及防范體系架構(gòu)研究[D];東北師范大學;2008年

3 崔巍;虛擬企業(yè)伙伴選擇與業(yè)務過程建模方法研究[D];山東大學;2009年

4 朱強;基于對等網(wǎng)絡(luò)架構(gòu)的新型控制系統(tǒng)研究與實現(xiàn)[D];上海大學;2011年

5 余小高;電子商務環(huán)境中分布式數(shù)據(jù)挖掘的研究[D];武漢理工大學;2007年

6 詹騫;基于Ajax/REST的GIS WEB服務研究與實現(xiàn)[D];中國地質(zhì)大學（北京）;2008年

7 張蓉;結(jié)構(gòu)化對等計算機系統(tǒng)中的查詢處理[D];復旦大學;2007年

8 張學全;基于FPGA的星載圖像壓縮系統(tǒng)實現(xiàn)方法研究[D];中國科學院研究生院（空間科學與應用研究中心）;2009年

9 王毅;面向用戶的整車制造二維供應鏈及其信息集成研究[D];重慶大學;2010年

10 王超;異構(gòu)多核可重構(gòu)片上系統(tǒng)關(guān)鍵技術(shù)研究[D];中國科學技術(shù)大學;2011年

相關(guān)碩士學位論文前10條

1 陳殿偉;基于Hadoop的虛擬篩選海量數(shù)據(jù)存儲及結(jié)果處理的設(shè)計和實現(xiàn)[D];蘭州大學;2012年

2 楊帆;Hadoop平臺高可用性方案的設(shè)計與實現(xiàn)[D];北京郵電大學;2012年

3 余楚禮;基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D];天津理工大學;2011年

4 楊宸鑄;基于HADOOP的數(shù)據(jù)挖掘研究[D];重慶大學;2010年

5 陳劍銳;基于Hadoop海量數(shù)據(jù)存儲仿真平臺的研究與設(shè)計[D];華南理工大學;2011年

6 余正祥;基于hadoop平臺作業(yè)調(diào)度算法的研究[D];云南大學;2011年

7 郭逸重;Hadoop分布式數(shù)據(jù)清洗方案[D];華南理工大學;2012年

8 白云龍;基于Hadoop的數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];北京郵電大學;2011年

9 黃振奎;一種基于Hadoop平臺Dump模塊的設(shè)計與實現(xiàn)[D];北京郵電大學;2012年

10 邰建華;Hadoop平臺下的海量數(shù)據(jù)存儲技術(shù)研究[D];東北石油大學;2012年

，

本文編號：1642098

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1642098.html

上一篇：深圳中小廣告企業(yè)面臨的危機和發(fā)展對策
下一篇：試論現(xiàn)代電影廣告的基本概念和表現(xiàn)形式——中國現(xiàn)代電影廣告的形成與發(fā)展初探之三

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于Hadoop平臺Dump模塊的設(shè)計與實現(xiàn)