基于HDFS的多租戶小文件存儲系統(tǒng)的研究與設計
本文選題:HDFS + 多租戶 ; 參考:《浙江大學》2016年碩士論文
【摘要】:計算機技術尤其是互聯(lián)網(wǎng)技術的高速發(fā)展,使得人們產(chǎn)生與分享信息變得愈發(fā)便利與多樣。如當前普遍使用的微信,人們隨時隨地可以產(chǎn)生大量短小的圖片、音頻及視頻內(nèi)容。這對存儲和處理這些巨量的信息提出了很大的挑戰(zhàn),尤其是小文件存儲與處理系統(tǒng),它是目前互聯(lián)網(wǎng)應用服務必須具備的底層服務。目前Hadoop系統(tǒng)已經(jīng)成為目前用于大數(shù)據(jù)存儲和處理的公認標準。但Hadoop包含的底層分布式存儲系統(tǒng)HDFS(Hadoop Distributed File System)的設計著重于高延時、高吞吐大文件場景的數(shù)據(jù)處理,其元數(shù)據(jù)訪問模式對小文件場景十分不利。HDFS運行時必須將所有的文件元數(shù)據(jù)信息載入到服務器內(nèi)存中,因而一個集群的文件存儲數(shù)量受限于元數(shù)據(jù)服務器內(nèi)存的大小。大量小文件會和大文件一樣產(chǎn)生對應的元數(shù)據(jù)條目,但其實際占用的存儲空間卻比后者小很多,這使得元數(shù)據(jù)和集群空間利用率被很大程度地降低。在文件訪問上,通常需要多達四次的網(wǎng)絡請求客戶端才能正真獲取到需要的文件內(nèi)容。對小文件而言,網(wǎng)絡請求耗時比大文件占比要高且直接影響到訪問效率。另外當前HDFS還不具備多租戶機制,只能對用戶級別的容量和文件數(shù)做配額約束,而不能動態(tài)、細粒度地限定用戶的資源使用。針對上述問題,本文通過修改HDFS的元數(shù)據(jù)存儲模式,首次將多級分離緩存引入到HDFS元數(shù)據(jù)存儲管理中。該設計從根本上來解決了大量小文件對元數(shù)據(jù)內(nèi)存的消耗問題,且可以通過不同的緩存策略降低由此引入的緩存失效延遲問題。同時本文還提出了一種新的文件直接訪問模式,使得客戶端可以不通過元數(shù)據(jù)節(jié)點而直接訪問數(shù)據(jù)節(jié)點并獲取數(shù)據(jù),提升訪問效率。最后本文首次將支持細粒度租戶資源隔離與控制的多租戶機制加入到HDFS中,使得各個租戶在元數(shù)據(jù)使用、I/O訪問上不出現(xiàn)惡性競爭,由此提升HDFS在多租戶、大量負載應用場景下的穩(wěn)定性。
[Abstract]:With the rapid development of computer technology, especially Internet technology, it becomes more and more convenient and diverse for people to produce and share information. As the current popular WeChat, people can produce a large number of short pictures, audio and video content anytime and anywhere. This poses a great challenge to the storage and processing of these huge amounts of information, especially the small file storage and processing system, which is the underlying service that Internet application services must have at present. At present, Hadoop system has become the accepted standard for big data storage and processing. However, the design of Hadoop distributed File system (HDFS), which includes the underlying distributed storage system, focuses on the data processing of high latency, high throughput and large file scenarios. The metadata access mode is very disadvantageous to the small file scenario. When HDFS runs, all file metadata information must be loaded into server memory, so the number of file storage in a cluster is limited by the size of metadata server memory. A large number of small files will produce corresponding metadata entries as large files, but their actual storage space is much smaller than the latter, which greatly reduces the utilization of metadata and cluster space. In file access, it usually takes up to four network requests to get the required file content. For small files, network requests take more time than large files and directly affect access efficiency. In addition, HDFS does not have multi-tenant mechanism at present, it can only restrict the capacity and the number of files at the user level, but it can not dynamically and finely define the resource usage of the user. In order to solve the above problems, the multi-level separation cache is introduced into the management of HDFS metadata storage for the first time by modifying the metadata storage mode of HDFS. This design fundamentally solves the problem that a large number of small files consume metadata memory, and can reduce the cache invalidation delay problem by different cache strategies. At the same time, this paper also proposes a new file direct access mode, which enables clients to directly access data nodes and obtain data without metadata nodes, so as to improve access efficiency. Finally, the multi-tenant mechanism which supports fine-grained tenant resource isolation and control is added to HDFS for the first time, so that there is no vicious competition in accessing metadata using I / O, so that HDFS can be promoted in multi-tenant. Stability in heavy load application scenarios.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
【相似文獻】
相關期刊論文 前10條
1 王春靖;FAT32的優(yōu)點[J];電腦愛好者;1998年03期
2 何文才;鄭釗;劉培鶴;杜敏;;一種基于目錄數(shù)據(jù)分離存儲的文件存儲方法的研究與實現(xiàn)[J];網(wǎng)絡安全技術與應用;2014年01期
3 飛雪散花;;手機文件存儲看我的[J];電腦迷;2012年05期
4 孫有軍;張大興;;海量圖片文件存儲去重技術研究[J];計算機應用與軟件;2014年04期
5 ;金剛指——計算機文件存儲的保護神[J];信息安全與通信保密;2001年12期
6 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲訪問策略的研究[J];計算機研究與發(fā)展;2012年07期
7 周國安;李強;陳新;胡旭;;云環(huán)境下海量小文件存儲技術研究綜述[J];信息網(wǎng)絡安全;2014年06期
8 張美芳;電子文件存儲方式的研究[J];數(shù)字與縮微影像;2005年02期
9 陶慧;于守謙;劉夏;;適于測控系統(tǒng)的文件存儲結構研究[J];計算機應用與軟件;2010年11期
10 方勇;史躍輝;;淺談減少地形圖電子文件存儲冗余的幾種方法[J];江西測繪;2006年02期
相關會議論文 前6條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲系統(tǒng)的設計[A];第15屆全國信息存儲技術學術會議論文集[C];2008年
2 李浩;;基于制播分離的文件存儲和傳輸方式的探討[A];中國新聞技術工作者聯(lián)合會五屆二次理事會暨學術年會論文集(上篇)[C];2010年
3 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011年通信與信息技術新進展——第八屆中國通信學會學術年會論文集[C];2011年
4 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011全國無線及移動通信學術大會論文集[C];2011年
5 袁旦;張智君;;預覽時間對顏色判斷任務下客體文件存儲的影響[A];第十一屆全國心理學學術會議論文摘要集[C];2007年
6 黃步根;黃政;劉建軍;;SANYO數(shù)碼相機中被刪除視頻的恢復[A];第26次全國計算機安全學術交流會論文集[C];2011年
相關重要報紙文章 前9條
1 本報記者 郭平;Isilon擴充文件存儲產(chǎn)品線[N];計算機世界;2009年
2 本報記者 郭平;容量與性能 一樣都不能少[N];計算機世界;2010年
3 張峰;統(tǒng)一存儲 業(yè)務連續(xù)[N];網(wǎng)絡世界;2006年
4 清水 編譯;基于文件存儲大行其道[N];計算機世界;2011年
5 本報記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國計算機報;2013年
6 于翔;讓IT如業(yè)務般運營的應用路徑[N];網(wǎng)絡世界;2009年
7 劉一冰;IBM SoNAS專攻高端存儲客戶[N];電腦商報;2010年
8 清水 編譯;云存儲:機遇下暗藏挑戰(zhàn)[N];計算機世界;2010年
9 沈建苗;互聯(lián)網(wǎng)存儲 你信得過嗎[N];計算機世界;2007年
相關碩士學位論文 前10條
1 廖家趙;面向城軌線網(wǎng)的海量小文件存儲方法的研究與實現(xiàn)[D];華南理工大學;2015年
2 李長平;基于FastDFS架構的小文件存儲系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
3 葉道平;基于HADOOP的海量錄音文件存儲系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2014年
4 張振猛;基于Hadoop的海量文件存儲系統(tǒng)的分析與設計[D];北京工業(yè)大學;2015年
5 何高峰;基于HDFS的多租戶小文件存儲系統(tǒng)的研究與設計[D];浙江大學;2016年
6 宮海林;支持事務的文件存儲技術研究與系統(tǒng)實現(xiàn)[D];國防科學技術大學;2006年
7 曹挹芬;分布式文件存儲與檢索平臺的設計與實現(xiàn)[D];湖南大學;2009年
8 黃斌;并行文件存儲系統(tǒng)關鍵技術的研究[D];華南理工大學;2012年
9 蔣浩;分布式文件存儲系統(tǒng)副本管理方法研究[D];浙江大學;2013年
10 張聰萍;錢塘分布式文件存儲系統(tǒng)性能優(yōu)化[D];浙江大學;2011年
,本文編號:2062935
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2062935.html