天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

Hadoop中小文件處理技術(shù)的研究與優(yōu)化

發(fā)布時間:2019-05-03 18:45
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,傳統(tǒng)的存儲方法已經(jīng)無法滿足當(dāng)前海量數(shù)據(jù)的存取需求,海量數(shù)據(jù)的存儲和處理成為當(dāng)下研究的一個新課題。分布式計算平臺Hadoop由于具有高可靠、易擴(kuò)展、高容錯性等特點,已經(jīng)廣泛的運用在云計算領(lǐng)域。由于Hadoop是以流式數(shù)據(jù)訪問模式來處理文件,也可以說是為了存儲大文件而設(shè)計的。因此,Hadoop在處理大文件時性能表現(xiàn)優(yōu)異,而在處理小文件時會出現(xiàn)存儲效率低的問題。針對此問題,本文分析了前人做的一些研究和改進(jìn)方案,通過研究其他的方案,找出其中優(yōu)缺點,并在此基礎(chǔ)上做了相應(yīng)的改進(jìn)。本文的設(shè)計方案是在原分布式文件系統(tǒng)基礎(chǔ)上添加一個獨立的小文件處理模塊,通過小文件處理模塊對小文件進(jìn)行合并,建立文件的索引,以及通過文件緩存預(yù)取后傳送到HDFS中進(jìn)行數(shù)據(jù)的處理。該架構(gòu)使得HDFS系統(tǒng)在處理小文件的同時不影響對大文件或者對已合并小文件的寫入或讀取,從而提高系統(tǒng)的存儲訪問效率。本文的小文件合并和索引方案是在HAR的基礎(chǔ)上改進(jìn)的。通過創(chuàng)建小文件的時間段對合并文件命名。此外根據(jù)小文件名稱以及擴(kuò)展名建立小文件到具體數(shù)據(jù)塊以及數(shù)據(jù)塊內(nèi)地址信息的Trie樹索引,并根據(jù)相應(yīng)的擴(kuò)展名對所對應(yīng)的索引進(jìn)行分片,從而建立兩級索引機(jī)制,放置在小文件處理模塊中以加快系統(tǒng)中小文件的檢索性能。文件的預(yù)取是通過文件的元數(shù)據(jù)和索引信息以及文件的預(yù)取記錄在小文件處理模塊的緩存池里進(jìn)行索引預(yù)取與相關(guān)文件的預(yù)取。論文給出了該優(yōu)化方案在Hadoop集群的具體實現(xiàn),包括小文件合并MapReduce自定義輸入分片、兩級索引的建立等相關(guān)算法的實現(xiàn)。另外,設(shè)立性能評價指標(biāo)來量化分析小文件的內(nèi)存使用效率和訪問效率。最后通過實驗比較小文件優(yōu)化處理后的方案、HAR方案和原HDFS方案在處理小文件時的性能。實驗結(jié)果表明,本文提出的小文件處理的優(yōu)化方案在內(nèi)存使用效率,訪問效率方面都要比原HDFS方案和HAR方案占優(yōu)勢。
[Abstract]:With the rapid development of Internet, the traditional storage methods can not meet the current needs of mass data access, the storage and processing of mass data has become a new research topic. Distributed computing platform Hadoop has been widely used in cloud computing due to its high reliability, easy expansion and high fault tolerance. Because Hadoop processes files in streaming data access mode, it is also designed to store large files. As a result, Hadoop performs well in processing large files and low storage efficiency in processing small files. In order to solve this problem, this paper analyzes some research and improvement schemes made by predecessors, and finds out its advantages and disadvantages by studying other schemes, and makes corresponding improvements on this basis. The design scheme of this paper is to add an independent small file processing module on the basis of the original distributed file system, through the small file processing module to merge the small files, and to establish the file index. And through the file cache pre-fetching and transmission to the HDFS for data processing. This architecture enables the HDFS system to process small files without affecting the writing or reading of large files or merged small files, so as to improve the storage access efficiency of the system. The scheme of combining and indexing small files in this paper is improved on the basis of HAR. Name the merged file by creating a small file over a period of time. In addition, according to the name and extension of the small file, the Trie tree index of the small file to the specific data block and the address information in the data block is established, and the corresponding index is partitioned according to the corresponding extension, thus the two-level index mechanism is established. Placed in the small file processing module to speed up the system small and medium-sized file retrieval performance. The pre-fetching of the file is based on the metadata and index information of the file and the pre-fetching record of the file in the cache pool of the small file processing module for index prefetching and the pre-fetching of the related files. In this paper, the implementation of the optimization scheme in Hadoop cluster is given, including the implementation of small file merging MapReduce custom input slicing, the establishment of two-level index and other related algorithms. In addition, the performance evaluation index is set up to quantitatively analyze the memory efficiency and access efficiency of small files. Finally, the performance of the small file optimization scheme, the HAR scheme and the original HDFS scheme are compared by experiments. The experimental results show that the optimization scheme of small file processing proposed in this paper is superior to the original HDFS scheme and the HAR scheme in terms of memory usage efficiency and access efficiency.
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333

【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 李旭;李長云;張清清;胡淑新;周玲芳;;Hadoop中處理海量小文件的方法[J];計算機(jī)系統(tǒng)應(yīng)用;2015年11期

2 尹穎;林慶;林涵陽;;HDFS中高效存儲小文件的方法[J];計算機(jī)工程與設(shè)計;2015年02期

3 左大鵬;徐薇;;基于Hadoop處理小文件的優(yōu)化策略[J];軟件;2015年02期

4 黃山;王波濤;王國仁;于戈;李佳佳;;MapReduce優(yōu)化技術(shù)綜述[J];計算機(jī)科學(xué)與探索;2013年10期

5 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學(xué)學(xué)報;2013年02期

6 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計算機(jī)應(yīng)用與軟件;2012年08期

7 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機(jī)應(yīng)用;2012年06期

8 陳劍;龔發(fā)根;;一種優(yōu)化分布式文件系統(tǒng)的文件合并策略[J];計算機(jī)應(yīng)用;2011年S2期

9 汪志莉;沈富可;;一種基于哈希表和Trie樹的快速內(nèi)容路由查找算法[J];計算機(jī)應(yīng)用與軟件;2009年10期

相關(guān)碩士學(xué)位論文 前7條

1 左大鵬;Hadoop小文件存儲管理的研究與實現(xiàn)[D];北京交通大學(xué);2015年

2 鄭麗潔;小文本語料庫在Hadoop平臺上的存儲策略研究[D];華中師范大學(xué);2014年

3 張波;HDFS下文件存儲研究與優(yōu)化[D];廣東工業(yè)大學(xué);2013年

4 高薊超;Hadoop平臺存儲策略的研究與優(yōu)化[D];北京交通大學(xué);2012年

5 蔡睿誠;基于HDFS的小文件處理與相關(guān)MapReduce計算模型性能的優(yōu)化與改進(jìn)[D];吉林大學(xué);2012年

6 曹風(fēng)兵;基于Hadoop的云計算模型研究與應(yīng)用[D];重慶大學(xué);2011年

7 江柳;HDFS下小文件存儲優(yōu)化相關(guān)技術(shù)研究[D];北京郵電大學(xué);2011年



本文編號:2469177

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2469177.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶39b40***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
中文精品人妻一区二区| 国产高清视频一区不卡| 高中女厕偷拍一区二区三区 | 亚洲视频偷拍福利来袭| 国产精品亚洲二区三区| 激情三级在线观看视频| 五月婷婷六月丁香狠狠| 色综合视频一区二区观看| 国产精品美女午夜福利| 精品久久少妇激情视频| 男人和女人草逼免费视频| 日本黄色高清视频久久| 欧美亚洲美女资源国产| 青青操成人免费在线视频| 国内午夜精品视频在线观看| 欧美日韩免费观看视频| 成人精品网一区二区三区| 欧美区一区二在线播放| 熟女高潮一区二区三区| 午夜福利国产精品不卡| 日本熟妇熟女久久综合| 麻豆欧美精品国产综合久久| 国产三级视频不卡在线观看| 亚洲a级一区二区不卡| 丰满少妇被猛烈插入在线观看| 欧美成人免费视频午夜色| 黄片三级免费在线观看| 日本av在线不卡一区| 黄片在线观看一区二区三区| 日本欧美三级中文字幕| 久七久精品视频黄色的| 黑人粗大一区二区三区| 中文字幕中文字幕一区二区| 91精品欧美综合在ⅹ| 99久热只有精品视频免费看| 久久国产青偷人人妻潘金莲| 日本少妇三级三级三级| 日韩一区二区三区嘿嘿| 91精品国产品国语在线不卡| 黑鬼糟蹋少妇资源在线观看| 亚洲综合香蕉在线视频|