基于Hadoop的海量文件存儲系統(tǒng)的分析與設計
本文選題:Hadoop + 海量文件。 參考:《北京工業(yè)大學》2015年碩士論文
【摘要】:目前,互聯(lián)網(wǎng)的浪潮是一浪高過一浪,信息化、智能化、數(shù)據(jù)化、海量化愈來愈明顯,各種門戶網(wǎng)站、電子商務網(wǎng)站亦越來越大型化、集團化,像騰訊、淘寶、百度、新浪等互聯(lián)網(wǎng)巨頭為提供廣泛服務,數(shù)據(jù)存儲量已經(jīng)進入海量模式,并且以爆炸式持續(xù)增長。海量存儲垂直擴容成本越來越大,對使用商業(yè)存儲的企業(yè)來說負擔越來越重,甚至已經(jīng)成為制約企業(yè)發(fā)展瓶頸,實現(xiàn)高容量、支持高并發(fā)的海量文件存儲系統(tǒng)已經(jīng)迫在眉睫。通過實際需求分析搭建基于Hadoop的分布式存儲系統(tǒng)架構,該模型以Hadoop的HDFS分布式文件系統(tǒng)底層文件存儲為支撐,以廉價Linux集群硬件為基礎,通過HDFS實現(xiàn)的特有的高相應、高容錯、高并發(fā)支持以及集群內(nèi)數(shù)據(jù)均衡來架構我們自己的海量文件存儲,對外提供高可靠的服務。Hadoop中的HDFS分布式文件系統(tǒng)和MapReduce并行編程框架,為我們設計大規(guī)模數(shù)據(jù)存儲架構提供了有力的技術支撐,最終實現(xiàn)在高并發(fā)、高負載的環(huán)境中對文件進行高效訪問。通過緩存設計、負載均衡設計提高系統(tǒng)應對高并發(fā)情況,優(yōu)化文件讀寫。海量文件存儲勢必會帶來大規(guī)模的文件元數(shù)據(jù)存儲,采用HBase分布式列式數(shù)據(jù)庫存儲文件元數(shù)據(jù),滿足對存儲高容量、高效性要求,通過考慮文件類型、文件所屬應用等因素,設計HBase行鍵,文件盡可能存儲在物理位置較近的集群節(jié)點內(nèi),減少磁盤尋道、跨界點、跨網(wǎng)絡尋址,提高文件訪問效率。搭建Hadoop集群,部署各個應用服務器,進行高并發(fā)壓力實驗,采集實驗數(shù)據(jù),并對實驗數(shù)據(jù)加以分析,驗證系統(tǒng)架構是否可以實現(xiàn)預定目標。本課題著重解決高并發(fā)、大容量帶來的挑戰(zhàn),能夠實現(xiàn)水平擴展容量,降低存儲成本,并能提供高效服務。該系統(tǒng)利用目前比較成熟的分布式技術實現(xiàn)文件存儲和處理,搭建Hadoop集群、部署應用服務器、文件服務器、緩存服務器等。通過測試數(shù)據(jù)分析模型的實用效果,檢驗所提出的架構模型是否能支持海量文件存儲和管理。
[Abstract]:At present, the tide of the Internet is higher than that of a wave. Information, intelligence, data, sea quantification are becoming more and more obvious. Various portals and e-commerce websites are also becoming more and more large-scale and clustered, such as Tencent, Taobao, Baidu,To provide a wide range of services, Internet giants such as Sina have entered a massive model of data storage and continue to grow explosively.The cost of vertical expansion of mass storage is increasing, which is becoming more and more burdensome to the enterprises that use commercial storage. It has even become the bottleneck to restrict the development of enterprises, realize the high capacity and support the high concurrent mass file storage system.The architecture of distributed storage system based on Hadoop is built through actual requirement analysis. The model is based on the underlying file storage of HDFS distributed file system of Hadoop, based on the cheap Linux cluster hardware, and the special high correspondence and high fault tolerance realized by HDFS.High concurrency support and data balance in the cluster are used to construct our own massive file storage and to provide highly reliable service. Hadoop HDFS distributed file system and MapReduce parallel programming framework.It provides powerful technical support for the design of large-scale data storage architecture, and finally realizes efficient access to files in a high concurrent and high load environment.Through cache design, load balancing design improves the system to deal with high concurrency and optimizes file reading and writing.Mass file storage is bound to bring large scale file metadata storage. HBase distributed column database is used to store file metadata to meet the requirements of high storage capacity and high efficiency, by considering the file type, file application and other factors.The HBase line key is designed, the files are stored in the cluster node near the physical location as much as possible, reducing the disk seeking, crossing points, addressing across the network, and improving the efficiency of file access.Build Hadoop cluster, deploy each application server, carry out high concurrent pressure experiment, collect experimental data, analyze the experimental data, and verify whether the system architecture can achieve the predetermined goal.This paper focuses on solving the challenges brought by high concurrency and large capacity, which can realize horizontal expansion of capacity, reduce storage cost, and provide efficient service.The system uses the current mature distributed technology to realize file storage and processing, build Hadoop cluster, deploy application server, file server, cache server and so on.By testing the practical effect of the data analysis model, the proposed architecture model can support the storage and management of massive files.
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【共引文獻】
相關期刊論文 前6條
1 宋文賓;錢興華;劉鵬;;智能信息檢索應用技術研究[J];艦船電子工程;2015年07期
2 李鍇;陳端芝;;一種基于存取粒度的固態(tài)盤性能評價體系[J];新鄉(xiāng)學院學報;2014年02期
3 張曉波;傅方;;視頻監(jiān)控專用存儲技術的應用[J];現(xiàn)代建筑電氣;2014年07期
4 高紅旭;康永;郭們;;大數(shù)據(jù)技術在民航空管監(jiān)控系統(tǒng)中的應用[J];現(xiàn)代導航;2015年02期
5 謝愛華;陳海軍;楊貴超;;軍事信息中心數(shù)據(jù)存儲架構設計[J];網(wǎng)絡安全技術與應用;2015年04期
6 陳存香;陳清金;張巖;;Hadoop與Docker技術的融合[J];郵電設計技術;2015年05期
相關博士學位論文 前2條
1 萬勇;集群系統(tǒng)中的網(wǎng)絡性能優(yōu)化方法研究[D];華中科技大學;2013年
2 李勇;異構存儲系統(tǒng)中的緩存技術研究[D];華中科技大學;2014年
相關碩士學位論文 前10條
1 宋麗娜;海量存儲系統(tǒng)中數(shù)據(jù)分級存儲的關鍵技術研究[D];國防科學技術大學;2011年
2 李俊堯;一種RAID-5快速擴容技術的研究[D];華中科技大學;2013年
3 徐瓊瑤;分級存儲中數(shù)據(jù)遷移機制的實現(xiàn)[D];華中科技大學;2013年
4 詹盛輝;失效盤優(yōu)先的高速緩存替換方案的設計與實現(xiàn)[D];華中科技大學;2013年
5 畢文娟;一種基于糾刪碼的分布式備份技術的研究[D];華中科技大學;2013年
6 馬淑婧;基于iSCSI協(xié)議的虛擬磁盤的設計與實現(xiàn)[D];華中科技大學;2013年
7 劉政澤;數(shù)據(jù)中心環(huán)境下針對突發(fā)性I/O的調(diào)度研究[D];華中科技大學;2013年
8 王君君;網(wǎng)絡文件的分布式存儲設計與實現(xiàn)[D];山東大學;2014年
9 文莎;動態(tài)鏡像系統(tǒng)及其容災擴展的設計與實現(xiàn)[D];國防科學技術大學;2012年
10 杜昂;云視頻信息處理技術在食品追溯中的應用[D];濟南大學;2014年
,本文編號:1734598
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1734598.html