一種基于Hadoop平臺(tái)Dump模塊的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:Dump 切入點(diǎn):數(shù)據(jù)處理 出處:《北京郵電大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,與用戶相關(guān)的信息和數(shù)據(jù)呈現(xiàn)出大規(guī)模的增長(zhǎng)趨勢(shì),與此同時(shí),針對(duì)有價(jià)值的數(shù)據(jù)進(jìn)行導(dǎo)出、分析和處理也成為各大公司所面對(duì)的一個(gè)課題。 傳統(tǒng)的數(shù)據(jù)導(dǎo)出采用單機(jī)Dump1的方式來進(jìn)行,針對(duì)數(shù)據(jù)庫(kù)中庫(kù)表的關(guān)聯(lián)通常由Server端來完成,Client端負(fù)責(zé)對(duì)獲取到的數(shù)據(jù)做進(jìn)一步的分析和處理,然而,隨著公司業(yè)務(wù)的發(fā)展和數(shù)據(jù)爆發(fā)式的增長(zhǎng),這種單機(jī)版的方式已經(jīng)無法適應(yīng)系統(tǒng)對(duì)性能的要求,某種程度上,成為制約業(yè)務(wù)發(fā)展的瓶頸,需要一種更加合理的架構(gòu)實(shí)現(xiàn)來替代。 Hadoop是一個(gè)由Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,使用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng),簡(jiǎn)稱HDFS。 HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。 本文從企業(yè)應(yīng)用的角度出發(fā),以淘寶直通車廣告系統(tǒng)的業(yè)務(wù)背景為例,分析了當(dāng)前數(shù)據(jù)在Dump和后續(xù)處理過程中所面臨的問題和瓶頸,歸納總結(jié)了Hadoop平臺(tái)下進(jìn)行相關(guān)程序開發(fā)的技術(shù)要點(diǎn),在此基礎(chǔ)上,針對(duì)所面臨的業(yè)務(wù)需求,將整個(gè)任務(wù)分解成了幾個(gè)重要的功能模塊,并分別給出了其在Hadoop平臺(tái)相應(yīng)的解決方案,完成了程序結(jié)構(gòu)的設(shè)計(jì)和全部代碼的實(shí)現(xiàn)。不但從架構(gòu)上很好的解決了單機(jī)Dump所面臨的各種問題,而且,使得整個(gè)系統(tǒng)具備了更好的穩(wěn)定性、更高的可擴(kuò)展性和易維護(hù)性,并在較長(zhǎng)的一段時(shí)間內(nèi),能夠應(yīng)對(duì)業(yè)務(wù)快速發(fā)展和數(shù)據(jù)大規(guī)模增長(zhǎng)的需要。 本文在最后系統(tǒng)分析了Hadoop平臺(tái)底層的工作機(jī)制和運(yùn)行原理,并針對(duì)線上系統(tǒng)進(jìn)行了相應(yīng)的參數(shù)調(diào)優(yōu),有效降低了設(shè)備的負(fù)載,取得了良好的效果。
[Abstract]:With the rapid development of the Internet industry, the information and data related to users have shown a large-scale growth trend. At the same time, the export, analysis and processing of valuable data has become a topic faced by large companies. The traditional data export is carried out by single machine Dump1. The database table association is usually completed by the Server terminal, which is responsible for the further analysis and processing of the acquired data. With the development of company business and the growth of data explosion, this single version of the system can no longer meet the performance requirements of the system. To some extent, it has become a bottleneck restricting the development of business, and needs a more reasonable architecture to replace it. Hadoop is a distributed system infrastructure developed by the Apache Foundation. It is a software framework that can process a large amount of data in a distributed way. A distributed file system, HDFS. HDFS, is implemented by fully utilizing the power of cluster, high speed operation and storage. Hadoop. HDFS. HDFS has the characteristics of high fault tolerance. And it is designed to be deployed on low cost hardware, and it provides high transmission rate to access the application data, which is suitable for those applications with large data sets. From the point of view of enterprise application, taking the business background of Taobao through train advertising system as an example, this paper analyzes the problems and bottlenecks faced by the current data in the process of Dump and subsequent processing. This paper summarizes the technical points of the related program development under the Hadoop platform. On this basis, the whole task is decomposed into several important function modules according to the business requirements. The corresponding solutions in Hadoop platform are given respectively, and the design of the program structure and the implementation of all the codes are completed. Not only all kinds of problems faced by the single machine Dump are solved very well from the architecture, but also, The whole system has better stability, higher scalability and maintainability, and in a longer period of time, it can meet the needs of rapid development of business and large-scale growth of data. At the end of this paper, the working mechanism and operation principle of Hadoop platform are systematically analyzed, and the corresponding parameters are optimized for the on-line system, which effectively reduces the load of the equipment and achieves good results.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP311.52
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 余楚禮;肖迎元;尹波;;一種基于Hadoop的并行關(guān)聯(lián)規(guī)則算法[J];天津理工大學(xué)學(xué)報(bào);2011年01期
2 曹英忠;謝曉蘭;趙鵬;;基于Hadoop的云存儲(chǔ)實(shí)踐[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2011年24期
3 周軼男;王宇;;Hadoop文件系統(tǒng)性能分析[J];電子技術(shù);2011年05期
4 李克然;劉東蘇;鄧媛;;電子商務(wù)環(huán)境下海量數(shù)據(jù)存儲(chǔ)模型[J];情報(bào)雜志;2010年S2期
5 高宏卿;翟炎杰;;基于Hadoop的移動(dòng)學(xué)習(xí)模型研究[J];中國(guó)電化教育;2011年01期
6 鄭欣杰;朱程榮;熊齊邦;;基于MapReduce的分布式光線跟蹤的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2007年22期
7 吳寶貴;丁振國(guó);;基于Map/Reduce的分布式搜索引擎研究[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期
8 ;ATI聯(lián)手華碩推顯卡芯片[J];每周電腦報(bào);2003年39期
9 付軍;;IDT要做網(wǎng)絡(luò)通信領(lǐng)域的領(lǐng)導(dǎo)者[J];集成電路應(yīng)用;2004年11期
10 ;Silicon Image公布低成本儲(chǔ)存架構(gòu),面向小業(yè)務(wù)用戶[J];集成電路應(yīng)用;2004年12期
相關(guān)會(huì)議論文 前10條
1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實(shí)體識(shí)別技術(shù)研究與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
2 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
3 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺(tái)研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
4 林佳燁;;云計(jì)算在電信行業(yè)數(shù)據(jù)分析領(lǐng)域的應(yīng)用[A];廣東通信2010青年論壇優(yōu)秀論文集[C];2010年
5 張大華;丁輝;吳向陽(yáng);趙毅強(qiáng);孫毓忠;;面向智能電網(wǎng)的電力云計(jì)算架構(gòu)[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
6 肖晴;;移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)“云+端”架構(gòu)的探索與實(shí)踐[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年
7 顧建國(guó);朱光榮;;基于全臺(tái)網(wǎng)架構(gòu)的“大媒資”系統(tǒng)設(shè)計(jì)及實(shí)踐[A];2011中國(guó)電影電視技術(shù)學(xué)會(huì)影視技術(shù)文集[C];2011年
8 潘建;;核物理裝置計(jì)算機(jī)控制系統(tǒng)的架構(gòu)選擇與比較[A];第十五屆全國(guó)核電子學(xué)與核探測(cè)技術(shù)學(xué)術(shù)年會(huì)論文集[C];2010年
9 許威;朱順痣;繆克華;王穎;李茂青;;同步/異步ETL架構(gòu)的比較[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
10 趙樹璋;;SaaS架構(gòu)現(xiàn)狀及發(fā)展趨勢(shì)[A];湖北省通信學(xué)會(huì)、武漢通信學(xué)會(huì)2009年學(xué)術(shù)年會(huì)論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
2 本報(bào)記者 馬文方;Hadoop:云中起舞的小象[N];中國(guó)計(jì)算機(jī)報(bào);2010年
3 本報(bào)記者 周源;共享IT架構(gòu)選購(gòu)之道[N];網(wǎng)絡(luò)世界;2010年
4 本報(bào)記者 鄒大斌;QNX:微內(nèi)核架構(gòu)奠定安全基礎(chǔ)[N];計(jì)算機(jī)世界;2011年
5 《網(wǎng)絡(luò)世界》記者 于翔;混合交付:云只是途徑之一[N];網(wǎng)絡(luò)世界;2011年
6 本報(bào)記者 趙謹(jǐn)娜;IBM X架構(gòu):技術(shù)為本 用戶為先[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 記者 于新春;業(yè)內(nèi)人士呼吁建立新型市場(chǎng)架構(gòu)[N];國(guó)際商報(bào);2001年
8 劉杰;思杰陶欣:綠色I(xiàn)T架構(gòu)要“瞻前顧后”[N];中國(guó)企業(yè)報(bào);2010年
9 拉毛東治 李婷;青海公司SG—ERP架構(gòu)管控項(xiàng)目開建[N];國(guó)家電網(wǎng)報(bào);2011年
10 記者 韓曉民;深圳架構(gòu)城區(qū)統(tǒng)一信息平臺(tái)[N];人民郵電;2001年
相關(guān)博士學(xué)位論文 前10條
1 楊鵬;居民電子健康檔案文檔架構(gòu)與數(shù)據(jù)元組的研究與實(shí)踐[D];第四軍醫(yī)大學(xué);2012年
2 曲世軍;中國(guó)房地產(chǎn)金融風(fēng)險(xiǎn)判斷及防范體系架構(gòu)研究[D];東北師范大學(xué);2008年
3 崔巍;虛擬企業(yè)伙伴選擇與業(yè)務(wù)過程建模方法研究[D];山東大學(xué);2009年
4 朱強(qiáng);基于對(duì)等網(wǎng)絡(luò)架構(gòu)的新型控制系統(tǒng)研究與實(shí)現(xiàn)[D];上海大學(xué);2011年
5 余小高;電子商務(wù)環(huán)境中分布式數(shù)據(jù)挖掘的研究[D];武漢理工大學(xué);2007年
6 詹騫;基于Ajax/REST的GIS WEB服務(wù)研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2008年
7 張蓉;結(jié)構(gòu)化對(duì)等計(jì)算機(jī)系統(tǒng)中的查詢處理[D];復(fù)旦大學(xué);2007年
8 張學(xué)全;基于FPGA的星載圖像壓縮系統(tǒng)實(shí)現(xiàn)方法研究[D];中國(guó)科學(xué)院研究生院(空間科學(xué)與應(yīng)用研究中心);2009年
9 王毅;面向用戶的整車制造二維供應(yīng)鏈及其信息集成研究[D];重慶大學(xué);2010年
10 王超;異構(gòu)多核可重構(gòu)片上系統(tǒng)關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 陳殿偉;基于Hadoop的虛擬篩選海量數(shù)據(jù)存儲(chǔ)及結(jié)果處理的設(shè)計(jì)和實(shí)現(xiàn)[D];蘭州大學(xué);2012年
2 楊帆;Hadoop平臺(tái)高可用性方案的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
3 余楚禮;基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D];天津理工大學(xué);2011年
4 楊宸鑄;基于HADOOP的數(shù)據(jù)挖掘研究[D];重慶大學(xué);2010年
5 陳劍銳;基于Hadoop海量數(shù)據(jù)存儲(chǔ)仿真平臺(tái)的研究與設(shè)計(jì)[D];華南理工大學(xué);2011年
6 余正祥;基于hadoop平臺(tái)作業(yè)調(diào)度算法的研究[D];云南大學(xué);2011年
7 郭逸重;Hadoop分布式數(shù)據(jù)清洗方案[D];華南理工大學(xué);2012年
8 白云龍;基于Hadoop的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
9 黃振奎;一種基于Hadoop平臺(tái)Dump模塊的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
10 邰建華;Hadoop平臺(tái)下的海量數(shù)據(jù)存儲(chǔ)技術(shù)研究[D];東北石油大學(xué);2012年
,本文編號(hào):1642098
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1642098.html