天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

Hadoop中小文件處理技術(shù)的研究與優(yōu)化

發(fā)布時間:2019-05-03 18:45
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,傳統(tǒng)的存儲方法已經(jīng)無法滿足當(dāng)前海量數(shù)據(jù)的存取需求,海量數(shù)據(jù)的存儲和處理成為當(dāng)下研究的一個新課題。分布式計算平臺Hadoop由于具有高可靠、易擴(kuò)展、高容錯性等特點(diǎn),已經(jīng)廣泛的運(yùn)用在云計算領(lǐng)域。由于Hadoop是以流式數(shù)據(jù)訪問模式來處理文件,也可以說是為了存儲大文件而設(shè)計的。因此,Hadoop在處理大文件時性能表現(xiàn)優(yōu)異,而在處理小文件時會出現(xiàn)存儲效率低的問題。針對此問題,本文分析了前人做的一些研究和改進(jìn)方案,通過研究其他的方案,找出其中優(yōu)缺點(diǎn),并在此基礎(chǔ)上做了相應(yīng)的改進(jìn)。本文的設(shè)計方案是在原分布式文件系統(tǒng)基礎(chǔ)上添加一個獨(dú)立的小文件處理模塊,通過小文件處理模塊對小文件進(jìn)行合并,建立文件的索引,以及通過文件緩存預(yù)取后傳送到HDFS中進(jìn)行數(shù)據(jù)的處理。該架構(gòu)使得HDFS系統(tǒng)在處理小文件的同時不影響對大文件或者對已合并小文件的寫入或讀取,從而提高系統(tǒng)的存儲訪問效率。本文的小文件合并和索引方案是在HAR的基礎(chǔ)上改進(jìn)的。通過創(chuàng)建小文件的時間段對合并文件命名。此外根據(jù)小文件名稱以及擴(kuò)展名建立小文件到具體數(shù)據(jù)塊以及數(shù)據(jù)塊內(nèi)地址信息的Trie樹索引,并根據(jù)相應(yīng)的擴(kuò)展名對所對應(yīng)的索引進(jìn)行分片,從而建立兩級索引機(jī)制,放置在小文件處理模塊中以加快系統(tǒng)中小文件的檢索性能。文件的預(yù)取是通過文件的元數(shù)據(jù)和索引信息以及文件的預(yù)取記錄在小文件處理模塊的緩存池里進(jìn)行索引預(yù)取與相關(guān)文件的預(yù)取。論文給出了該優(yōu)化方案在Hadoop集群的具體實(shí)現(xiàn),包括小文件合并MapReduce自定義輸入分片、兩級索引的建立等相關(guān)算法的實(shí)現(xiàn)。另外,設(shè)立性能評價指標(biāo)來量化分析小文件的內(nèi)存使用效率和訪問效率。最后通過實(shí)驗(yàn)比較小文件優(yōu)化處理后的方案、HAR方案和原HDFS方案在處理小文件時的性能。實(shí)驗(yàn)結(jié)果表明,本文提出的小文件處理的優(yōu)化方案在內(nèi)存使用效率,訪問效率方面都要比原HDFS方案和HAR方案占優(yōu)勢。
[Abstract]:With the rapid development of Internet, the traditional storage methods can not meet the current needs of mass data access, the storage and processing of mass data has become a new research topic. Distributed computing platform Hadoop has been widely used in cloud computing due to its high reliability, easy expansion and high fault tolerance. Because Hadoop processes files in streaming data access mode, it is also designed to store large files. As a result, Hadoop performs well in processing large files and low storage efficiency in processing small files. In order to solve this problem, this paper analyzes some research and improvement schemes made by predecessors, and finds out its advantages and disadvantages by studying other schemes, and makes corresponding improvements on this basis. The design scheme of this paper is to add an independent small file processing module on the basis of the original distributed file system, through the small file processing module to merge the small files, and to establish the file index. And through the file cache pre-fetching and transmission to the HDFS for data processing. This architecture enables the HDFS system to process small files without affecting the writing or reading of large files or merged small files, so as to improve the storage access efficiency of the system. The scheme of combining and indexing small files in this paper is improved on the basis of HAR. Name the merged file by creating a small file over a period of time. In addition, according to the name and extension of the small file, the Trie tree index of the small file to the specific data block and the address information in the data block is established, and the corresponding index is partitioned according to the corresponding extension, thus the two-level index mechanism is established. Placed in the small file processing module to speed up the system small and medium-sized file retrieval performance. The pre-fetching of the file is based on the metadata and index information of the file and the pre-fetching record of the file in the cache pool of the small file processing module for index prefetching and the pre-fetching of the related files. In this paper, the implementation of the optimization scheme in Hadoop cluster is given, including the implementation of small file merging MapReduce custom input slicing, the establishment of two-level index and other related algorithms. In addition, the performance evaluation index is set up to quantitatively analyze the memory efficiency and access efficiency of small files. Finally, the performance of the small file optimization scheme, the HAR scheme and the original HDFS scheme are compared by experiments. The experimental results show that the optimization scheme of small file processing proposed in this paper is superior to the original HDFS scheme and the HAR scheme in terms of memory usage efficiency and access efficiency.
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333

【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 李旭;李長云;張清清;胡淑新;周玲芳;;Hadoop中處理海量小文件的方法[J];計算機(jī)系統(tǒng)應(yīng)用;2015年11期

2 尹穎;林慶;林涵陽;;HDFS中高效存儲小文件的方法[J];計算機(jī)工程與設(shè)計;2015年02期

3 左大鵬;徐薇;;基于Hadoop處理小文件的優(yōu)化策略[J];軟件;2015年02期

4 黃山;王波濤;王國仁;于戈;李佳佳;;MapReduce優(yōu)化技術(shù)綜述[J];計算機(jī)科學(xué)與探索;2013年10期

5 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學(xué)學(xué)報;2013年02期

6 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計算機(jī)應(yīng)用與軟件;2012年08期

7 趙曉永;楊揚(yáng);孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機(jī)應(yīng)用;2012年06期

8 陳劍;龔發(fā)根;;一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J];計算機(jī)應(yīng)用;2011年S2期

9 汪志莉;沈富可;;一種基于哈希表和Trie樹的快速內(nèi)容路由查找算法[J];計算機(jī)應(yīng)用與軟件;2009年10期

相關(guān)碩士學(xué)位論文 前7條

1 左大鵬;Hadoop小文件存儲管理的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2015年

2 鄭麗潔;小文本語料庫在Hadoop平臺上的存儲策略研究[D];華中師范大學(xué);2014年

3 張波;HDFS下文件存儲研究與優(yōu)化[D];廣東工業(yè)大學(xué);2013年

4 高薊超;Hadoop平臺存儲策略的研究與優(yōu)化[D];北京交通大學(xué);2012年

5 蔡睿誠;基于HDFS的小文件處理與相關(guān)MapReduce計算模型性能的優(yōu)化與改進(jìn)[D];吉林大學(xué);2012年

6 曹風(fēng)兵;基于Hadoop的云計算模型研究與應(yīng)用[D];重慶大學(xué);2011年

7 江柳;HDFS下小文件存儲優(yōu)化相關(guān)技術(shù)研究[D];北京郵電大學(xué);2011年

,

本文編號:2469176

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2469176.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶39b40***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品人妻一区二区三区免费| 免费啪视频免费欧美亚洲| 国产日本欧美特黄在线观看| 亚洲一区二区久久观看| 久久本道综合色狠狠五月| 日韩欧美好看的剧情片免费| 成人免费在线视频大香蕉| 国产超碰在线观看免费| 免费黄色一区二区三区| 日本国产欧美精品视频| 色婷婷丁香激情五月天| 在线观看日韩欧美综合黄片| 国产在线一区中文字幕 | 日本成人中文字幕一区| 免费精品一区二区三区| 日本少妇aa特黄大片| 日韩一区二区三区在线欧洲| 国产香蕉国产精品偷在线观看| 国内午夜精品视频在线观看| 91精品国产综合久久不卡| 亚洲一区二区三区有码| 麻豆印象传媒在线观看| 暴力三级a特黄在线观看| 99国产一区在线播放| 亚洲最新中文字幕一区| 少妇熟女精品一区二区三区| 一区二区三区在线不卡免费| 婷婷伊人综合中文字幕| 91精品欧美综合在ⅹ| 少妇在线一区二区三区| 青青久久亚洲婷婷中文网| 中国美女草逼一级黄片视频| 中文文精品字幕一区二区| 亚洲妇女作爱一区二区三区| 日韩免费国产91在线| 日韩欧美黄色一级视频| 久久精品国产第一区二区三区| 三级理论午夜福利在线看| 国产无摭挡又爽又色又刺激| 欧美丝袜诱惑一区二区| 大香蕉伊人精品在线观看|