Hadoop平臺(tái)下的海量數(shù)據(jù)存儲(chǔ)技術(shù)研究
本文關(guān)鍵詞: Hadoop 分布式文件系統(tǒng) 海量數(shù)據(jù)存儲(chǔ) 出處:《東北石油大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展、互聯(lián)網(wǎng)用戶的增加,,互聯(lián)網(wǎng)中的圖片數(shù)據(jù)也急劇膨脹。企業(yè)的圖片數(shù)據(jù)規(guī)?蛇_(dá)TB到幾百TB。一般情況下使用分布式文件系統(tǒng)來(lái)處理這些圖片。 Hadoop是近年來(lái)出現(xiàn)的處理海量數(shù)據(jù)的分布式系統(tǒng)。具有可靠性好、存儲(chǔ)容量大、部署簡(jiǎn)單、可維護(hù)性更好等特點(diǎn)。 基于以上兩點(diǎn),本文對(duì)Hadoop在圖片存儲(chǔ)方面的性能做了相應(yīng)的研究,設(shè)計(jì)了針對(duì)中小企業(yè)的基于Hadoop平臺(tái)的圖片存儲(chǔ)系統(tǒng)。具體研究?jī)?nèi)容如下: 1.Hadoop平臺(tái)的工作原理 從數(shù)據(jù)組織、數(shù)據(jù)流等幾個(gè)方面比較深入地研究了Hadoop平臺(tái)中數(shù)據(jù)的存放、讀寫原理。還研究了分布式計(jì)算框架MapReduce的工作過(guò)程。 2.基于Hadoop平臺(tái)的圖片存儲(chǔ)系統(tǒng)的設(shè)計(jì) 根據(jù)需求分析,將系統(tǒng)的功能設(shè)計(jì)為普通用戶模塊、管理員模塊、日志分析模塊、客戶端和系統(tǒng)監(jiān)控等模塊。結(jié)合Hadoop、Tomcat、Mysql等軟件完成了系統(tǒng)的架構(gòu)設(shè)計(jì)。根據(jù)系統(tǒng)的功能設(shè)計(jì)了UML類圖,最后設(shè)計(jì)了Mysql數(shù)據(jù)庫(kù)的表。 3.圖片存儲(chǔ)系統(tǒng)的實(shí)現(xiàn) 首先搭建了Hadoop集群,接下來(lái)完成了系統(tǒng)各部分的實(shí)現(xiàn)過(guò)程。重點(diǎn)實(shí)現(xiàn)了對(duì)Hadoop的操作和日志分析部分。 4.Hadoop平臺(tái)和Web的整合 本人在研究Hadoop和JSP的基礎(chǔ)上,對(duì)二者進(jìn)行了整合,即可以通過(guò)JSP頁(yè)面來(lái)訪問(wèn)Hadoop存儲(chǔ)的圖片文件。 最后綜合本文的研究,提出相應(yīng)的測(cè)試方法,來(lái)驗(yàn)證系統(tǒng)的性能和可靠性。
[Abstract]:With the development of the Internet and the increase of the Internet users, the picture data in the Internet is expanding rapidly. The scale of the picture data of the enterprise can reach to several hundred TBs. In general, distributed file system is used to process these images. Hadoop is a distributed system for processing massive data in recent years, which has the characteristics of good reliability, large storage capacity, simple deployment and better maintainability. Based on the above two points, this paper makes a corresponding study on the performance of Hadoop in picture storage, and designs a picture storage system based on Hadoop platform for small and medium-sized enterprises. The specific research contents are as follows:. 1. Working principle of Hadoop platform. The principle of data storage, reading and writing in Hadoop platform is studied in detail from the aspects of data organization and data flow, and the working process of distributed computing framework MapReduce is also studied. 2. Design of picture storage system based on Hadoop platform. According to the requirement analysis, the function of the system is designed as common user module, administrator module, log analysis module, The architecture of the system is designed with the software of Hadoop Tomcat and MySQL. The UML class diagram is designed according to the function of the system. Finally, the table of Mysql database is designed. 3. The realization of picture storage system. First, the Hadoop cluster is built, and then the implementation process of each part of the system is completed, and the operation and log analysis of Hadoop are mainly realized. 4. Integration of Hadoop platform and Web. On the basis of studying Hadoop and JSP, I integrate them, that is to say, we can access the image files stored by Hadoop through JSP pages. Finally, based on the research of this paper, a corresponding test method is proposed to verify the performance and reliability of the system.
【學(xué)位授予單位】:東北石油大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳全;鄧倩妮;;云計(jì)算及其關(guān)鍵技術(shù)[J];計(jì)算機(jī)應(yīng)用;2009年09期
2 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2010年08期
3 王凱;吳泉源;楊樹強(qiáng);;一種多用戶MapReduce集群的作業(yè)調(diào)度算法的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2010年10期
4 王潤(rùn)華;;基于Hadoop集群的分布式日志分析系統(tǒng)研究[J];科技信息;2009年15期
5 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期
6 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學(xué)學(xué)報(bào)(工科版);2010年04期
7 劉小虎;蔣從鋒;王乘;;基于網(wǎng)格的分布式虛擬環(huán)境仿真海量數(shù)據(jù)管理[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年04期
8 劉琨;李愛(ài)菊;董龍江;;基于Hadoop的云存儲(chǔ)的研究及實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2011年07期
9 鄭啟龍;房明;汪勝;王向前;吳曉偉;王昊;;基于MapReduce模型的并行科學(xué)計(jì)算[J];微電子學(xué)與計(jì)算機(jī);2009年08期
10 王鄂;李銘;;云計(jì)算下的海量數(shù)據(jù)挖掘研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年11期
相關(guān)碩士學(xué)位論文 前10條
1 施巖;云計(jì)算研究及Hadoop應(yīng)用程序的開發(fā)與測(cè)試[D];北京郵電大學(xué);2011年
2 任萱萱;基于Hadoop平臺(tái)的作業(yè)調(diào)度研究[D];天津師范大學(xué);2011年
3 陳劍銳;基于Hadoop海量數(shù)據(jù)存儲(chǔ)仿真平臺(tái)的研究與設(shè)計(jì)[D];華南理工大學(xué);2011年
4 余正祥;基于hadoop平臺(tái)作業(yè)調(diào)度算法的研究[D];云南大學(xué);2011年
5 謝桂蘭;基于Eucalyptus云平臺(tái)的Hadoop集群研究[D];成都理工大學(xué);2011年
6 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
7 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武漢理工大學(xué);2008年
8 趙春燕;云環(huán)境下作業(yè)調(diào)度算法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2009年
9 陳勇;基于Hadoop平臺(tái)的通信數(shù)據(jù)分布式查詢算法的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2009年
10 鄧自立;云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺(tái)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
本文編號(hào):1522536
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1522536.html