HDFS下小文件存儲優(yōu)化相關(guān)技術(shù)研究
發(fā)布時間:2021-06-07 13:44
云計算是目前計算機領(lǐng)域最熱的話題,HADOOP下的默認(rèn)分布式文件系統(tǒng)Hadoop distributed file system(HDFS)因為其可靠性伸縮性以及在存儲大文件時提供了強大的性能已經(jīng)成為當(dāng)今云計算研究領(lǐng)域事實上的標(biāo)準(zhǔn),但在處理大量小文件時由于所有的文件請求都需要單Namenode進(jìn)行處理,性能十分低下。本文首先對一些常用的分布式文件系統(tǒng)的原理以及內(nèi)部實現(xiàn)做了簡要介紹,然后對本文的目標(biāo)原型HDFS作了深入的分析,包括架構(gòu),數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)塊設(shè)置,以及讀寫策略,數(shù)據(jù)流模式等,并且分析了現(xiàn)有解決HDFS上小文件存儲的一些方案的性能以及不足。針對HDFS存儲小文件的不足,本文提出了一種通過Datanode緩存部分小文件元數(shù)據(jù)的策略來解決Namenode在存儲小文件時的性能瓶頸,通過Datanode來緩存部分小文件的元數(shù)據(jù),讓客戶端在請求數(shù)據(jù)時將絕大多數(shù)的小文件請求由Datanode進(jìn)行處理,只有當(dāng)Datanode請求不到需要的數(shù)據(jù)時才向請求Namenode進(jìn)行請求,從而大量Namenode接受請求的次數(shù),解決單Namenode由于頻繁的請求造成的瓶頸。同時,針對Web2.0特殊的應(yīng)...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
一IGFS架構(gòu)圖
圖2一IHDFS架構(gòu)圖[川DFS采用master/slave架構(gòu)。一個HDFS集群是由一個NamenodDatanode組成,這些Datanode定時和Namenode通信,像Nam以及接受Namenode的指令[川。為了減輕Namenode的負(fù)擔(dān),N需要永久保存所有Datanode上包含有哪些數(shù)據(jù)塊的信息,而ode在啟動時的上報數(shù)據(jù)塊信息,來更新Namenode上的映射表。件系統(tǒng)的名字空間,用戶可以通過以文件的形式在上面存儲數(shù)據(jù)。個文件其實被分成一個或多個數(shù)據(jù)塊(至少需要被劃分成一個塊存儲在多個Datanode上,通過冗余性來保證可靠性以及加快后期Datanode負(fù)責(zé)處理分布式文件系統(tǒng)客戶端的實際的讀寫數(shù)據(jù)請ode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。
向Datanode里寫入數(shù)據(jù),當(dāng)寫入成功后,通知Namenode,最后Namenode寫入上面所述的三種主要類型的元數(shù)據(jù)。HDFs實現(xiàn)了了Google數(shù)據(jù)流的寫文件時的機制〔’3〕,如圖2一4:{。1!t。,飛tf)爪扎入。d引價a松入odCZD“1。入。、}。3}_________l圖2一3HDFS寫文件數(shù)據(jù)流[13]數(shù)據(jù)流從客戶端開始,流經(jīng)一系列節(jié)點,到達(dá)最后一個Datanode。圖中的所有Datanode都只需要寫一次硬盤,Datanodel和DatanodeZ將會從Soeket上接受到的數(shù)據(jù),直接寫到下個節(jié)點的Sockct上,而不是等待Datanodel寫完再把數(shù)據(jù)塊復(fù)制給DatanodeZ,也就是說如果當(dāng)前Datanode處于數(shù)據(jù)流的中間,該數(shù)據(jù)包會發(fā)送到下一個節(jié)點。在進(jìn)行實際的數(shù)據(jù)寫之前
【參考文獻(xiàn)】:
期刊論文
[1]并行文件系統(tǒng)研究綜述[J]. 霍嚴(yán)梅,楊可新,胡亮,鞠九濱. 小型微型計算機系統(tǒng). 2008(09)
[2]基于對象存儲系統(tǒng)的動態(tài)負(fù)載均衡算法[J]. 覃靈軍,馮丹,曾令仿,劉群. 計算機科學(xué). 2006(05)
[3]大規(guī)模并行文件系統(tǒng)中的數(shù)據(jù)可靠性機制[J]. 談華芳,侯紫峰. 計算機工程. 2006(09)
[4]文件分配問題的一種動態(tài)解決算法[J]. 陳俊杰,張武生,沈美明,鄭緯民. 小型微型計算機系統(tǒng). 2004(07)
[5]數(shù)據(jù)網(wǎng)格環(huán)境下一種動態(tài)自適應(yīng)的副本定位方法[J]. 李東升,李春江,肖儂,王意潔,盧錫城. 計算機研究與發(fā)展. 2003(12)
[6]分布式文件系統(tǒng)中Cache一致性的驗證[J]. 王建勇,祝明發(fā). 計算機學(xué)報. 1999(05)
博士論文
[1]數(shù)據(jù)網(wǎng)格副本管理關(guān)鍵技術(shù)研究[D]. 孫海燕.國防科學(xué)技術(shù)大學(xué) 2005
碩士論文
[1]基于Lustre文件系統(tǒng)的并行I/O技術(shù)研究[D]. 林松濤.國防科學(xué)技術(shù)大學(xué) 2004
本文編號:3216686
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
一IGFS架構(gòu)圖
圖2一IHDFS架構(gòu)圖[川DFS采用master/slave架構(gòu)。一個HDFS集群是由一個NamenodDatanode組成,這些Datanode定時和Namenode通信,像Nam以及接受Namenode的指令[川。為了減輕Namenode的負(fù)擔(dān),N需要永久保存所有Datanode上包含有哪些數(shù)據(jù)塊的信息,而ode在啟動時的上報數(shù)據(jù)塊信息,來更新Namenode上的映射表。件系統(tǒng)的名字空間,用戶可以通過以文件的形式在上面存儲數(shù)據(jù)。個文件其實被分成一個或多個數(shù)據(jù)塊(至少需要被劃分成一個塊存儲在多個Datanode上,通過冗余性來保證可靠性以及加快后期Datanode負(fù)責(zé)處理分布式文件系統(tǒng)客戶端的實際的讀寫數(shù)據(jù)請ode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。
向Datanode里寫入數(shù)據(jù),當(dāng)寫入成功后,通知Namenode,最后Namenode寫入上面所述的三種主要類型的元數(shù)據(jù)。HDFs實現(xiàn)了了Google數(shù)據(jù)流的寫文件時的機制〔’3〕,如圖2一4:{。1!t。,飛tf)爪扎入。d引價a松入odCZD“1。入。、}。3}_________l圖2一3HDFS寫文件數(shù)據(jù)流[13]數(shù)據(jù)流從客戶端開始,流經(jīng)一系列節(jié)點,到達(dá)最后一個Datanode。圖中的所有Datanode都只需要寫一次硬盤,Datanodel和DatanodeZ將會從Soeket上接受到的數(shù)據(jù),直接寫到下個節(jié)點的Sockct上,而不是等待Datanodel寫完再把數(shù)據(jù)塊復(fù)制給DatanodeZ,也就是說如果當(dāng)前Datanode處于數(shù)據(jù)流的中間,該數(shù)據(jù)包會發(fā)送到下一個節(jié)點。在進(jìn)行實際的數(shù)據(jù)寫之前
【參考文獻(xiàn)】:
期刊論文
[1]并行文件系統(tǒng)研究綜述[J]. 霍嚴(yán)梅,楊可新,胡亮,鞠九濱. 小型微型計算機系統(tǒng). 2008(09)
[2]基于對象存儲系統(tǒng)的動態(tài)負(fù)載均衡算法[J]. 覃靈軍,馮丹,曾令仿,劉群. 計算機科學(xué). 2006(05)
[3]大規(guī)模并行文件系統(tǒng)中的數(shù)據(jù)可靠性機制[J]. 談華芳,侯紫峰. 計算機工程. 2006(09)
[4]文件分配問題的一種動態(tài)解決算法[J]. 陳俊杰,張武生,沈美明,鄭緯民. 小型微型計算機系統(tǒng). 2004(07)
[5]數(shù)據(jù)網(wǎng)格環(huán)境下一種動態(tài)自適應(yīng)的副本定位方法[J]. 李東升,李春江,肖儂,王意潔,盧錫城. 計算機研究與發(fā)展. 2003(12)
[6]分布式文件系統(tǒng)中Cache一致性的驗證[J]. 王建勇,祝明發(fā). 計算機學(xué)報. 1999(05)
博士論文
[1]數(shù)據(jù)網(wǎng)格副本管理關(guān)鍵技術(shù)研究[D]. 孫海燕.國防科學(xué)技術(shù)大學(xué) 2005
碩士論文
[1]基于Lustre文件系統(tǒng)的并行I/O技術(shù)研究[D]. 林松濤.國防科學(xué)技術(shù)大學(xué) 2004
本文編號:3216686
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3216686.html
最近更新
教材專著