天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

Hadoop小文件處理技術(shù)的研究與優(yōu)化

發(fā)布時(shí)間:2018-12-13 18:28
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)字信息呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),人類已經(jīng)邁進(jìn)了大數(shù).據(jù)的時(shí)代。在數(shù)據(jù)存儲(chǔ)和計(jì)算方面,傳統(tǒng)的方法已經(jīng)顯得越來(lái)越?jīng)]有優(yōu)勢(shì)。怎樣高效以及合理地存儲(chǔ)計(jì)算大批量數(shù)據(jù)已經(jīng)成為國(guó)內(nèi)外各行各業(yè)關(guān)心的重點(diǎn)。鑒于對(duì)數(shù)據(jù)計(jì)算以及數(shù)據(jù)存儲(chǔ)的高要求,云計(jì)算的概念由此產(chǎn)生。隨著云計(jì)算技術(shù)的迅速發(fā)展,存儲(chǔ)和計(jì)算成為最熱門的研究范疇。Hadoop是Apache基金會(huì)的一個(gè)開(kāi)源的項(xiàng)目,它在分布式存儲(chǔ)以及分布式計(jì)算方面表現(xiàn)出杰出的性能,引發(fā)了國(guó)內(nèi)外廣泛的關(guān)注,目前,越來(lái)越多的高校以及企業(yè)都開(kāi)始應(yīng)用Hadoop支撐自己的業(yè)務(wù)與需求。盡管Hadoop是專門為存儲(chǔ)和計(jì)算大數(shù)據(jù)而設(shè)計(jì)的,但是當(dāng)Hadoop存儲(chǔ)小文件時(shí),會(huì)給主節(jié)點(diǎn)帶來(lái)巨大的內(nèi)存壓力,影響文件的訪問(wèn)效率,并且間接影響MapReduce編程模型的計(jì)算效率。本文基于Hadoop的MapReduce計(jì)算模型和HDFS分布式文件系統(tǒng)兩個(gè)核心內(nèi)容,著重研究了基于Hadoop的小文件處理技術(shù)的通用優(yōu)化。為了解決Hadoop技術(shù)在存儲(chǔ)和計(jì)算小文件時(shí)會(huì)給NameNode節(jié)點(diǎn)造成內(nèi)存的浪費(fèi)、讀取文件效率低下以及MapReduce模型計(jì)算效率低的問(wèn)題,首先研究Hadoop本身自帶的小文件處理技術(shù),深入分析了它們的優(yōu)缺點(diǎn),并分別從MapReduce層面和HDFS層面對(duì)Hadoop進(jìn)行研究與優(yōu)化,提高Hadoop存儲(chǔ)、計(jì)算小文件的效率。在MapReduce層面,對(duì)MapReduce的執(zhí)行流程以及InputFormat體系結(jié)構(gòu)進(jìn)行深入研究,詳細(xì)分析MapReduce源代碼以及內(nèi)部方法的具體實(shí)現(xiàn)。通過(guò)深入研究以及實(shí)現(xiàn)CombineFileInputFormat抽象類,在MapReduce層面對(duì)小文件的輸入格式進(jìn)行合并,提高了Hadoop對(duì)小文件的計(jì)算效率。在HDFS層面,本文提出一種具有獨(dú)立小文件處理模塊的分布式文件系統(tǒng),它不依賴于HDFS,整個(gè)模塊可以和Hadoop集群做到很好的解耦,互不影響。此模塊對(duì)小文件進(jìn)行合并,索引映射以及讀取,并加入小文件緩存模塊,提高文件的訪問(wèn)效率,并間接提高M(jìn)apReduce在計(jì)算處理小文件時(shí)的效率。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證,自定義的CombineFileInputFormat在MapReduce的處理效率上高于其他的輸入格式。獨(dú)立的小文件處理模塊,也加速了對(duì)文件的訪問(wèn),并且降低了主節(jié)點(diǎn)的內(nèi)存壓力。
[Abstract]:With the rapid development of the Internet and the exponential growth of digital information, mankind has entered a large number. The era of evidence. In the aspect of data storage and computing, the traditional method has no advantage. How to store large quantities of data efficiently and reasonably has become the focus of various industries at home and abroad. In view of the high demand for data computing and data storage, the concept of cloud computing has come into being. With the rapid development of cloud computing technology, storage and computing has become the most popular research field. Hadoop is an open source project of the Apache Foundation, it shows outstanding performance in distributed storage and distributed computing. At present, more and more universities and enterprises begin to use Hadoop to support their business and demand. Although Hadoop is specially designed to store and compute big data, when Hadoop stores small files, it will bring huge memory pressure to the master node, affect the access efficiency of files, and indirectly affect the computational efficiency of MapReduce programming model. Based on the MapReduce computing model of Hadoop and the distributed file system of HDFS, this paper focuses on the general optimization of small file processing technology based on Hadoop. In order to solve the problem that Hadoop technology will cause memory waste to NameNode nodes when storing and calculating small files, low efficiency of reading files and low computational efficiency of MapReduce model, this paper first studies the small file processing technology of Hadoop itself. The advantages and disadvantages of them are analyzed in depth, and the Hadoop is studied and optimized from the MapReduce level and the HDFS level, which can improve the efficiency of Hadoop storage and compute small files. At the level of MapReduce, the implementation process and InputFormat architecture of MapReduce are studied in depth, and the source code of MapReduce and the implementation of internal methods are analyzed in detail. Through in-depth research and implementation of CombineFileInputFormat abstract classes, the input format of small files is merged at the MapReduce level, which improves the efficiency of computing small files in Hadoop. At the level of HDFS, this paper presents a distributed file system with independent small file processing modules. It does not depend on HDFS, to decouple the whole module from the Hadoop cluster without affecting each other. This module can merge, index map and read small files, and add small file cache module to improve the access efficiency of files, and indirectly improve the efficiency of MapReduce in computing and processing small files. Finally, the experimental results show that the MapReduce processing efficiency of the custom CombineFileInputFormat is higher than that of other input formats. Independent small file processing module also speeds up access to files and reduces the memory pressure on the primary node.
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王亞男;文件處理要程序化、制度化和現(xiàn)代化[J];上海海運(yùn)學(xué)院學(xué)報(bào);1995年04期

2 李斌;文件處理系統(tǒng)[J];管理科學(xué)文摘;1996年04期

3 李文龍;;文件處理新工具[J];辦公自動(dòng)化;2000年03期

4 曾輝;;基于C#的文件處理[J];軟件導(dǎo)刊;2006年09期

5 王健;從農(nóng)業(yè)部的經(jīng)驗(yàn)看提高機(jī)關(guān)文件工作水平的要素[J];檔案學(xué)通訊;1993年03期

6 李文龍;文件處理新工具[J];電子科技;2000年03期

7 王方鴻;數(shù)字時(shí)代的辦公文件處理中心[J];信息系統(tǒng)工程;2001年02期

8 何偉;陳永強(qiáng);;C#的文件處理研究與實(shí)例分析[J];電腦知識(shí)與技術(shù);2009年21期

9 安忻,,曹潤(rùn)芳;應(yīng)加強(qiáng)文件處理的法制建設(shè)[J];檔案學(xué)通訊;1994年02期

10 王海玲,崔杜武;文件處理軟件的研制[J];管理信息系統(tǒng);1999年07期

相關(guān)重要報(bào)紙文章 前5條

1 本報(bào)記者 梁圖強(qiáng);文件處理變“聰明”了[N];經(jīng)濟(jì)日?qǐng)?bào);2002年

2 河南 段永軍;巧用WPS 2002制作文件處理簽?zāi)0錥N];電腦報(bào);2003年

3 小彭;辦公文檔批量替換好輕松[N];電腦報(bào);2004年

4 記者 黃繼妍;公共機(jī)構(gòu)無(wú)紙化辦公日趨普遍[N];江西日?qǐng)?bào);2014年

5 郭濤;StorNext比NAS強(qiáng)在哪里[N];中國(guó)計(jì)算機(jī)報(bào);2008年

相關(guān)碩士學(xué)位論文 前10條

1 李虎嘯;海量qos文件處理與數(shù)據(jù)分析[D];復(fù)旦大學(xué);2013年

2 張翔;基于NoSQL的ETC文件處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年

3 馬越;Hadoop平臺(tái)下的海量小文件處理研究[D];南京郵電大學(xué);2015年

4 姚云飛;Hadoop海量小文件處理技術(shù)的應(yīng)用研究[D];南京郵電大學(xué);2015年

5 關(guān)海超;小文件處理及算法并行化在Hadoop上的設(shè)計(jì)與實(shí)現(xiàn)[D];重慶大學(xué);2015年

6 趙菲;Hadoop小文件處理技術(shù)的研究與優(yōu)化[D];廣東工業(yè)大學(xué);2016年

7 南海濤;泰達(dá)電子文件處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];天津大學(xué);2008年

8 劉通;基于HDFS的小文件處理與副本策略優(yōu)化研究[D];中國(guó)海洋大學(xué);2014年

9 李三淼;Hadoop中小文件處理方法的研究與分析[D];安徽大學(xué);2015年

10 擺卿卿;PDF文件處理系統(tǒng)[D];北京交通大學(xué);2009年



本文編號(hào):2377017

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2377017.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76006***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
美女被后入福利在线观看| 亚洲高清欧美中文字幕| 中国美女草逼一级黄片视频| 欧美日韩精品人妻二区三区| 中国美女草逼一级黄片视频| 美女激情免费在线观看| 亚洲精品av少妇在线观看| 精品欧美国产一二三区| 男人把女人操得嗷嗷叫| 视频一区日韩经典中文字幕| 91日韩欧美国产视频| 久久99午夜福利视频| 欧美一区二区三区五月婷婷| 日韩欧美中文字幕人妻| 精品香蕉一区二区在线| 久草国产精品一区二区| 人妻一区二区三区多毛女| 免费人妻精品一区二区三区久久久 | 日韩一区二区三区嘿嘿| 黄色片国产一区二区三区| 欧美日韩国产二三四区| 五月激情婷婷丁香六月网| 欧美色婷婷综合狠狠爱| 特黄大片性高水多欧美一级| 大尺度剧情国产在线视频| 国产av精品一区二区| 久热99中文字幕视频在线| 亚洲欧美日韩中文字幕二欧美| 激情亚洲内射一区二区三区| 91偷拍裸体一区二区三区| 免费观看一级欧美大片| 国产欧美日产久久婷婷| 婷婷亚洲综合五月天麻豆| 亚洲国产精品久久网午夜| 国产黑人一区二区三区| 狠色婷婷久久一区二区三区| 91超频在线视频中文字幕| 九九热这里只有精品视频| 成人区人妻精品一区二区三区| 中文字幕一区二区免费| 亚洲性生活一区二区三区|