異構存儲環(huán)境的HDFS副本放置管理策略與檢索算法研究
發(fā)布時間:2021-01-03 19:37
隨著互聯網技術的飛速發(fā)展,互聯網中的數據總量不斷攀升,數據已經成為重要的國家基礎性戰(zhàn)略資源。由于傳統(tǒng)存儲系統(tǒng)難以突破存儲容量的限制,分布式存儲系統(tǒng)越來越受到業(yè)界的青睞。其中,HDFS被廣泛應用于各類大數據應用系統(tǒng)中完成海量數據的存儲。同時,隨著硬件技術的快速發(fā)展,讀寫速度更快的存儲介質不斷地出現并得以應用,例如固態(tài)硬盤。因此,隨著HDFS系統(tǒng)不斷擴展和迭代演化,HDFS的集群形態(tài)由初期的同構化逐漸演變?yōu)楫悩嫽?集群中通常會同時存在多種存儲介質。那么在異構集群的新常態(tài)下,如何高效地實現文件副本的讀寫,合理地使用各種存儲介質,是異構HDFS環(huán)境下亟待解決的關鍵問題。然而不幸地是,HDFS設計之初就是面向同構環(huán)境考慮的,默認的副本放置策略、管理策略和檢索算法都是面向同構環(huán)境設計的,它們在異構環(huán)境下存在諸多的不足。在副本放置和檢索方面,HDFS在選擇放置副本或提供讀取服務的節(jié)點時僅僅考慮了網絡距離,而未考慮節(jié)點的異構性和實時性能的差異,容易造成節(jié)點負載失衡的問題;在副本管理方面,HDFS采用靜態(tài)副本管理策略,文件副本一旦完成初次放置其位置和數量便不再發(fā)生改變,沒有考慮到文件訪問性能將隨時間發(fā)生...
【文章來源】: 秦耀 電子科技大學
【文章頁數】:107 頁
【學位級別】:碩士
【部分圖文】:
不同文件訪問量的變化趨勢
第四章副本策略和算法的優(yōu)化55=(1)_(414)2.內存負載內存負載用memload表示,取值范圍為[0,1]。內存是計算機系統(tǒng)中至關重要的部件,它是CPU與外存儲器溝通的橋梁。計算機系統(tǒng)所有程序的運行都必須在內存中完成,當然數據的讀寫也離不開內存,因此內存的實時性能的好壞對整個計算機的實時狀態(tài)影響非常大。內存使用率(MemoryUtilization)是用于衡量內存實時性能的一個重要指標,表示計算機系統(tǒng)中當前已經使用的內存占全部可用內存的百分比值。在常見的Linux系統(tǒng)中,系統(tǒng)會實時地監(jiān)測并統(tǒng)計當前系統(tǒng)中的內存狀態(tài),可以通過在終端輸入meminfocat/proc/命令查看系統(tǒng)的內存狀態(tài),如圖4-10所示。圖4-10查看系統(tǒng)的內存狀態(tài)事實上,meminfocat/proc/命令是讀取系統(tǒng)中的一個文件,該文件中存儲了系統(tǒng)內存的全部信息。圖4-10中僅僅展示了該文件的一部分,包括了主要的內存參數,它們的具體含義和解釋如表4-4所示。表4-4Linux中內存狀態(tài)的常見參數參數名稱參數含義具體解釋MemTotal內存總量表示可供系統(tǒng)支配的總的內存數量。MemFree空閑內存量表示系統(tǒng)中尚未使用的空閑的內存數量。MemAvailable可用內存量表示應用程序可用的內存數量。由于系統(tǒng)中有些已用的內存可用回收,所以可用內存量比空閑內存量大。Buffers緩沖區(qū)內存量表示系統(tǒng)中用來給文件做緩沖的內存數量。Cached緩存區(qū)內存量表示高速緩沖存儲器占用的內存數量。
S中,當HDFSClient向DataNode發(fā)起訪問某個文件塊副本的請求時,DataNode將會首先從物理存儲介質讀取這個副本,然后再通過網絡傳輸給遠端的客戶端。所以,I/O負載在專用于文件存儲的HDFS系統(tǒng)中地位很高。因為,若物理存儲介質的I/O負載過重時,副本數據的讀取時間明顯延長,從而導致整個文件塊讀取請求的速度明顯降低。為了更全面地反映存儲介質的I/O負載,本文選取I/O使用率描述I/O負載。在Linux中,系統(tǒng)會實時地監(jiān)測并統(tǒng)計當前系統(tǒng)中的外存儲器的狀態(tài),可以通過在終端輸入x-iostat命令查看系統(tǒng)中每個外存儲器的I/O狀態(tài),如圖4-11所示。在該圖中,Device標簽下列出了兩條外部存儲器的信息,分別對應該計算機中的兩塊磁盤。在這兩行的末尾都有一個“%util”參數,表示的就是該磁盤的I/O使用率(I/OUtilization)的百分比形式。如第一行代表xvda設備的I/O使用率為0.03%,第二行代表xvdb設別的I/O使用率為0.00%。圖4-11查看系統(tǒng)中的I/O狀態(tài)同一個計算機中,I/O使用率越高,I/O負載越重;反之,亦然。同時,由于存儲介質存在異構性,不同存儲介質擁有相同的I/O使用率時,事實上它們的I/O負
【參考文獻】:
期刊論文
[1]異構存儲的HDFS副本選擇策略研究[J]. 楊姍姍,陳彩,梁毅. 軟件導刊. 2017(07)
[2]促進大數據發(fā)展行動綱要[J]. 成組技術與生產現代化. 2015(03)
[3]Hadoop副本放置策略[J]. 邵秀麗,王亞光,李云龍,劉一偉. 智能系統(tǒng)學報. 2013(06)
[4]AHP法中平均隨機一致性指標的算法及MATLAB實現[J]. 焦樹鋒. 太原師范學院學報(自然科學版). 2006(04)
碩士論文
[1]異構平臺下基于HDFS的數據動態(tài)分配策略研究[D]. 文士林.北方工業(yè)大學 2018
[2]基于異構存儲的HDFS副本選擇與管理策略研究[D]. 楊姍姍.北京工業(yè)大學 2017
本文編號:2955373
【文章來源】: 秦耀 電子科技大學
【文章頁數】:107 頁
【學位級別】:碩士
【部分圖文】:
不同文件訪問量的變化趨勢
第四章副本策略和算法的優(yōu)化55=(1)_(414)2.內存負載內存負載用memload表示,取值范圍為[0,1]。內存是計算機系統(tǒng)中至關重要的部件,它是CPU與外存儲器溝通的橋梁。計算機系統(tǒng)所有程序的運行都必須在內存中完成,當然數據的讀寫也離不開內存,因此內存的實時性能的好壞對整個計算機的實時狀態(tài)影響非常大。內存使用率(MemoryUtilization)是用于衡量內存實時性能的一個重要指標,表示計算機系統(tǒng)中當前已經使用的內存占全部可用內存的百分比值。在常見的Linux系統(tǒng)中,系統(tǒng)會實時地監(jiān)測并統(tǒng)計當前系統(tǒng)中的內存狀態(tài),可以通過在終端輸入meminfocat/proc/命令查看系統(tǒng)的內存狀態(tài),如圖4-10所示。圖4-10查看系統(tǒng)的內存狀態(tài)事實上,meminfocat/proc/命令是讀取系統(tǒng)中的一個文件,該文件中存儲了系統(tǒng)內存的全部信息。圖4-10中僅僅展示了該文件的一部分,包括了主要的內存參數,它們的具體含義和解釋如表4-4所示。表4-4Linux中內存狀態(tài)的常見參數參數名稱參數含義具體解釋MemTotal內存總量表示可供系統(tǒng)支配的總的內存數量。MemFree空閑內存量表示系統(tǒng)中尚未使用的空閑的內存數量。MemAvailable可用內存量表示應用程序可用的內存數量。由于系統(tǒng)中有些已用的內存可用回收,所以可用內存量比空閑內存量大。Buffers緩沖區(qū)內存量表示系統(tǒng)中用來給文件做緩沖的內存數量。Cached緩存區(qū)內存量表示高速緩沖存儲器占用的內存數量。
S中,當HDFSClient向DataNode發(fā)起訪問某個文件塊副本的請求時,DataNode將會首先從物理存儲介質讀取這個副本,然后再通過網絡傳輸給遠端的客戶端。所以,I/O負載在專用于文件存儲的HDFS系統(tǒng)中地位很高。因為,若物理存儲介質的I/O負載過重時,副本數據的讀取時間明顯延長,從而導致整個文件塊讀取請求的速度明顯降低。為了更全面地反映存儲介質的I/O負載,本文選取I/O使用率描述I/O負載。在Linux中,系統(tǒng)會實時地監(jiān)測并統(tǒng)計當前系統(tǒng)中的外存儲器的狀態(tài),可以通過在終端輸入x-iostat命令查看系統(tǒng)中每個外存儲器的I/O狀態(tài),如圖4-11所示。在該圖中,Device標簽下列出了兩條外部存儲器的信息,分別對應該計算機中的兩塊磁盤。在這兩行的末尾都有一個“%util”參數,表示的就是該磁盤的I/O使用率(I/OUtilization)的百分比形式。如第一行代表xvda設備的I/O使用率為0.03%,第二行代表xvdb設別的I/O使用率為0.00%。圖4-11查看系統(tǒng)中的I/O狀態(tài)同一個計算機中,I/O使用率越高,I/O負載越重;反之,亦然。同時,由于存儲介質存在異構性,不同存儲介質擁有相同的I/O使用率時,事實上它們的I/O負
【參考文獻】:
期刊論文
[1]異構存儲的HDFS副本選擇策略研究[J]. 楊姍姍,陳彩,梁毅. 軟件導刊. 2017(07)
[2]促進大數據發(fā)展行動綱要[J]. 成組技術與生產現代化. 2015(03)
[3]Hadoop副本放置策略[J]. 邵秀麗,王亞光,李云龍,劉一偉. 智能系統(tǒng)學報. 2013(06)
[4]AHP法中平均隨機一致性指標的算法及MATLAB實現[J]. 焦樹鋒. 太原師范學院學報(自然科學版). 2006(04)
碩士論文
[1]異構平臺下基于HDFS的數據動態(tài)分配策略研究[D]. 文士林.北方工業(yè)大學 2018
[2]基于異構存儲的HDFS副本選擇與管理策略研究[D]. 楊姍姍.北京工業(yè)大學 2017
本文編號:2955373
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2955373.html