【摘要】:隨著信息化在社會(huì)中的應(yīng)用越來越廣泛,信息的數(shù)據(jù)量也越來越大,信息的不斷膨脹導(dǎo)致信息的存儲(chǔ)越來越重要,如何快速地和高效地對(duì)海量信息進(jìn)行存取成為了人們當(dāng)前關(guān)注和研究的一個(gè)重要課題。 本文對(duì)Google分布式文件系統(tǒng)和Hadoop文件系統(tǒng)進(jìn)行了研究,仿照GFS設(shè)計(jì)理念的HDFS文件系統(tǒng)因其良好的擴(kuò)展性得到了廣泛的關(guān)注,并且是一個(gè)優(yōu)秀的開源分布式文件系統(tǒng),但要將其應(yīng)用在海量分布式文件存儲(chǔ)中還需進(jìn)行一定的優(yōu)化。 本文以HDFS文件系統(tǒng)為對(duì)象,深入研究其架構(gòu)和數(shù)據(jù)組織方式,以及讀寫操作的詳細(xì)流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設(shè)計(jì),通過引入一些優(yōu)秀的機(jī)制,提高HDFS文件系統(tǒng)的性能,使其能夠更好地應(yīng)用于搜索引擎外的其它領(lǐng)域。 首先從架構(gòu)上對(duì)HDFS進(jìn)行優(yōu)化,采用輕量級(jí)的系統(tǒng)設(shè)計(jì),通過小集群有效地減少namenode瓶頸,將namenode部分權(quán)限下放到datanode,并通過上層索引系統(tǒng)來管理namenode機(jī)器,實(shí)現(xiàn)系統(tǒng)的高效訪問。為保證數(shù)據(jù)的容錯(cuò)性,系統(tǒng)還采用雙機(jī)熱備份機(jī)制。通過這些架構(gòu)優(yōu)化,能有效地滿足用戶以及業(yè)務(wù)的快速增長(zhǎng)所帶來的海量存儲(chǔ)問題,使系統(tǒng)的擴(kuò)展性能更好。 然后從性能上對(duì)HDFS進(jìn)行優(yōu)化,通過采用裸設(shè)備能有效地減少工/O次數(shù)以及對(duì)HDFS塊大小進(jìn)行更改,設(shè)置偏移ID統(tǒng)一標(biāo)識(shí)文件的位置,有效地提高文件的讀寫效率,并更好地支持大小文件的存儲(chǔ),使系統(tǒng)實(shí)現(xiàn)對(duì)不同類別的海量存儲(chǔ)需求如圖片、視頻、文檔、語音的統(tǒng)一存儲(chǔ)。 本文還對(duì)namenode、datanode及客戶端分別設(shè)計(jì)了不同的緩存策略,通過Cache的異步讀寫,提高應(yīng)用程序的I/O響應(yīng)速度,大大提高存儲(chǔ)系統(tǒng)的性能。 最后,通過分析改進(jìn)后HDFS的I/0過程及簡(jiǎn)單的讀寫操作實(shí)驗(yàn),驗(yàn)證了對(duì)于namenode的瓶頸有著良好的改善,并對(duì)不同大小的文件有著較好的支持,表現(xiàn)出比原HDFS更優(yōu)的性能,從而證明了本文的改進(jìn)方法是有效的。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 魏偉一;LINUX系統(tǒng)下的集群體系結(jié)構(gòu)[J];甘肅科技;2004年05期
2 張引瓊;戴小鵬;童作剛;;Unix裸設(shè)備在Oracle中的應(yīng)用與研究[J];福建電腦;2006年07期
3 李世暢,楊浩瀾,李世亞,陶洋;NAS存儲(chǔ)技術(shù)的研究與應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2003年13期
4 王建勇,祝明發(fā);分布式文件系統(tǒng)中Cache一致性的驗(yàn)證[J];計(jì)算機(jī)學(xué)報(bào);1999年05期
5 張孝飛;;數(shù)據(jù)備份在高校數(shù)字圖書館數(shù)據(jù)安全中的應(yīng)用[J];情報(bào)探索;2011年06期
6 楊俊杰,徐捷;一種并行文件系統(tǒng)數(shù)據(jù)容錯(cuò)設(shè)計(jì)[J];微計(jì)算機(jī)應(yīng)用;2004年04期
7 孫廣中;肖鋒;熊曦;;MapReduce模型的調(diào)度及容錯(cuò)機(jī)制研究[J];微電子學(xué)與計(jì)算機(jī);2007年09期
相關(guān)博士學(xué)位論文 前1條
1 侯孟書;基于P2P的分布式存儲(chǔ)及其相關(guān)技術(shù)研究[D];電子科技大學(xué);2005年
相關(guān)碩士學(xué)位論文 前2條
1 李果;面向大數(shù)據(jù)量的Web服務(wù)傳輸方案研究[D];湖南大學(xué);2010年
2 張瑞;P2P分布式存儲(chǔ)系統(tǒng)中的關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2009年
本文編號(hào):
2785336
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2785336.html