基于Hadoop的海量文件存儲(chǔ)系統(tǒng)的分析與設(shè)計(jì)
本文選題:Hadoop + 海量文件; 參考:《北京工業(yè)大學(xué)》2015年碩士論文
【摘要】:目前,互聯(lián)網(wǎng)的浪潮是一浪高過(guò)一浪,信息化、智能化、數(shù)據(jù)化、海量化愈來(lái)愈明顯,各種門戶網(wǎng)站、電子商務(wù)網(wǎng)站亦越來(lái)越大型化、集團(tuán)化,像騰訊、淘寶、百度、新浪等互聯(lián)網(wǎng)巨頭為提供廣泛服務(wù),數(shù)據(jù)存儲(chǔ)量已經(jīng)進(jìn)入海量模式,并且以爆炸式持續(xù)增長(zhǎng)。海量存儲(chǔ)垂直擴(kuò)容成本越來(lái)越大,對(duì)使用商業(yè)存儲(chǔ)的企業(yè)來(lái)說(shuō)負(fù)擔(dān)越來(lái)越重,甚至已經(jīng)成為制約企業(yè)發(fā)展瓶頸,實(shí)現(xiàn)高容量、支持高并發(fā)的海量文件存儲(chǔ)系統(tǒng)已經(jīng)迫在眉睫。通過(guò)實(shí)際需求分析搭建基于Hadoop的分布式存儲(chǔ)系統(tǒng)架構(gòu),該模型以Hadoop的HDFS分布式文件系統(tǒng)底層文件存儲(chǔ)為支撐,以廉價(jià)Linux集群硬件為基礎(chǔ),通過(guò)HDFS實(shí)現(xiàn)的特有的高相應(yīng)、高容錯(cuò)、高并發(fā)支持以及集群內(nèi)數(shù)據(jù)均衡來(lái)架構(gòu)我們自己的海量文件存儲(chǔ),對(duì)外提供高可靠的服務(wù)。Hadoop中的HDFS分布式文件系統(tǒng)和MapReduce并行編程框架,為我們?cè)O(shè)計(jì)大規(guī)模數(shù)據(jù)存儲(chǔ)架構(gòu)提供了有力的技術(shù)支撐,最終實(shí)現(xiàn)在高并發(fā)、高負(fù)載的環(huán)境中對(duì)文件進(jìn)行高效訪問(wèn)。通過(guò)緩存設(shè)計(jì)、負(fù)載均衡設(shè)計(jì)提高系統(tǒng)應(yīng)對(duì)高并發(fā)情況,優(yōu)化文件讀寫。海量文件存儲(chǔ)勢(shì)必會(huì)帶來(lái)大規(guī)模的文件元數(shù)據(jù)存儲(chǔ),采用HBase分布式列式數(shù)據(jù)庫(kù)存儲(chǔ)文件元數(shù)據(jù),滿足對(duì)存儲(chǔ)高容量、高效性要求,通過(guò)考慮文件類型、文件所屬應(yīng)用等因素,設(shè)計(jì)HBase行鍵,文件盡可能存儲(chǔ)在物理位置較近的集群節(jié)點(diǎn)內(nèi),減少磁盤尋道、跨界點(diǎn)、跨網(wǎng)絡(luò)尋址,提高文件訪問(wèn)效率。搭建Hadoop集群,部署各個(gè)應(yīng)用服務(wù)器,進(jìn)行高并發(fā)壓力實(shí)驗(yàn),采集實(shí)驗(yàn)數(shù)據(jù),并對(duì)實(shí)驗(yàn)數(shù)據(jù)加以分析,驗(yàn)證系統(tǒng)架構(gòu)是否可以實(shí)現(xiàn)預(yù)定目標(biāo)。本課題著重解決高并發(fā)、大容量帶來(lái)的挑戰(zhàn),能夠?qū)崿F(xiàn)水平擴(kuò)展容量,降低存儲(chǔ)成本,并能提供高效服務(wù)。該系統(tǒng)利用目前比較成熟的分布式技術(shù)實(shí)現(xiàn)文件存儲(chǔ)和處理,搭建Hadoop集群、部署應(yīng)用服務(wù)器、文件服務(wù)器、緩存服務(wù)器等。通過(guò)測(cè)試數(shù)據(jù)分析模型的實(shí)用效果,檢驗(yàn)所提出的架構(gòu)模型是否能支持海量文件存儲(chǔ)和管理。
[Abstract]:At present, the tide of the Internet is higher than that of a wave. Information, intelligence, data, sea quantification are becoming more and more obvious. Various portals and e-commerce websites are also becoming more and more large-scale and clustered, such as Tencent, Taobao, Baidu,To provide a wide range of services, Internet giants such as Sina have entered a massive model of data storage and continue to grow explosively.The cost of vertical expansion of mass storage is increasing, which is becoming more and more burdensome to the enterprises that use commercial storage. It has even become the bottleneck to restrict the development of enterprises, realize the high capacity and support the high concurrent mass file storage system.The architecture of distributed storage system based on Hadoop is built through actual requirement analysis. The model is based on the underlying file storage of HDFS distributed file system of Hadoop, based on the cheap Linux cluster hardware, and the special high correspondence and high fault tolerance realized by HDFS.High concurrency support and data balance in the cluster are used to construct our own massive file storage and to provide highly reliable service. Hadoop HDFS distributed file system and MapReduce parallel programming framework.It provides powerful technical support for the design of large-scale data storage architecture, and finally realizes efficient access to files in a high concurrent and high load environment.Through cache design, load balancing design improves the system to deal with high concurrency and optimizes file reading and writing.Mass file storage is bound to bring large scale file metadata storage. HBase distributed column database is used to store file metadata to meet the requirements of high storage capacity and high efficiency, by considering the file type, file application and other factors.The HBase line key is designed, the files are stored in the cluster node near the physical location as much as possible, reducing the disk seeking, crossing points, addressing across the network, and improving the efficiency of file access.Build Hadoop cluster, deploy each application server, carry out high concurrent pressure experiment, collect experimental data, analyze the experimental data, and verify whether the system architecture can achieve the predetermined goal.This paper focuses on solving the challenges brought by high concurrency and large capacity, which can realize horizontal expansion of capacity, reduce storage cost, and provide efficient service.The system uses the current mature distributed technology to realize file storage and processing, build Hadoop cluster, deploy application server, file server, cache server and so on.By testing the practical effect of the data analysis model, the proposed architecture model can support the storage and management of massive files.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 宋文賓;錢興華;劉鵬;;智能信息檢索應(yīng)用技術(shù)研究[J];艦船電子工程;2015年07期
2 李鍇;陳端芝;;一種基于存取粒度的固態(tài)盤性能評(píng)價(jià)體系[J];新鄉(xiāng)學(xué)院學(xué)報(bào);2014年02期
3 張曉波;傅方;;視頻監(jiān)控專用存儲(chǔ)技術(shù)的應(yīng)用[J];現(xiàn)代建筑電氣;2014年07期
4 高紅旭;康永;郭們;;大數(shù)據(jù)技術(shù)在民航空管監(jiān)控系統(tǒng)中的應(yīng)用[J];現(xiàn)代導(dǎo)航;2015年02期
5 謝愛(ài)華;陳海軍;楊貴超;;軍事信息中心數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2015年04期
6 陳存香;陳清金;張巖;;Hadoop與Docker技術(shù)的融合[J];郵電設(shè)計(jì)技術(shù);2015年05期
相關(guān)博士學(xué)位論文 前2條
1 萬(wàn)勇;集群系統(tǒng)中的網(wǎng)絡(luò)性能優(yōu)化方法研究[D];華中科技大學(xué);2013年
2 李勇;異構(gòu)存儲(chǔ)系統(tǒng)中的緩存技術(shù)研究[D];華中科技大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 宋麗娜;海量存儲(chǔ)系統(tǒng)中數(shù)據(jù)分級(jí)存儲(chǔ)的關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
2 李俊堯;一種RAID-5快速擴(kuò)容技術(shù)的研究[D];華中科技大學(xué);2013年
3 徐瓊瑤;分級(jí)存儲(chǔ)中數(shù)據(jù)遷移機(jī)制的實(shí)現(xiàn)[D];華中科技大學(xué);2013年
4 詹盛輝;失效盤優(yōu)先的高速緩存替換方案的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2013年
5 畢文娟;一種基于糾刪碼的分布式備份技術(shù)的研究[D];華中科技大學(xué);2013年
6 馬淑婧;基于iSCSI協(xié)議的虛擬磁盤的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2013年
7 劉政澤;數(shù)據(jù)中心環(huán)境下針對(duì)突發(fā)性I/O的調(diào)度研究[D];華中科技大學(xué);2013年
8 王君君;網(wǎng)絡(luò)文件的分布式存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2014年
9 文莎;動(dòng)態(tài)鏡像系統(tǒng)及其容災(zāi)擴(kuò)展的設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
10 杜昂;云視頻信息處理技術(shù)在食品追溯中的應(yīng)用[D];濟(jì)南大學(xué);2014年
,本文編號(hào):1734598
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1734598.html