負載均衡的大數(shù)據(jù)分布存儲方法研究與實現(xiàn)
本文關鍵詞:負載均衡的大數(shù)據(jù)分布存儲方法研究與實現(xiàn)
更多相關文章: 大數(shù)據(jù) 分布式存儲 數(shù)據(jù)分布 負載均衡
【摘要】:隨著大數(shù)據(jù)的發(fā)展,用戶對于數(shù)據(jù)存儲的需求越來越高。這些需求主要體現(xiàn)在可存儲的數(shù)據(jù)規(guī)模、存儲系統(tǒng)的可擴展性、可靠性以及讀寫性能等方面。傳統(tǒng)的集中式存儲由于成本或可擴展性的限制,不能滿足如今EB或以上數(shù)量級的存儲需求,因此各種分布式存儲系統(tǒng)應運而生。數(shù)據(jù)分配策略,作為決定數(shù)據(jù)及其副本的存儲位置和存取方式的基本規(guī)則,是設計和實現(xiàn)分布式存儲系統(tǒng)所需要考慮的一個關鍵因素。CRUSH(Controlled Replication Under Scalable Hashing)算法是應用于Ceph分布式存儲系統(tǒng)中的一種偽隨機數(shù)據(jù)分配算法,具有高效率、高可擴展性的特點。然而,CRUSH算法在實現(xiàn)系統(tǒng)負載均衡上存在不足,具體表現(xiàn)在兩個方面:首先,該算法對用戶數(shù)據(jù)在系統(tǒng)中各存儲設備上的分布不夠均衡,設備間存儲數(shù)據(jù)量之差可達到20%。這導致了存儲數(shù)據(jù)多的設備接受更多的讀寫請求,在總數(shù)據(jù)量大、負載并發(fā)度高時成為系統(tǒng)的性能瓶頸。其次,CRUSH算法為了解決同一份數(shù)據(jù)的不同備份在失效域(Failure Domain)間均衡分布的問題,提出了一套副本存放規(guī)則。但該規(guī)則提供的原語有限,限制了副本的靈活分配,用戶只能指定數(shù)據(jù)的不同副本在同一等級的失效域間分布,而不能跨多級失效域。針對上述兩個問題,本文分別提出了解決方案。其中,對于數(shù)據(jù)在系統(tǒng)中各存儲設備上分布不均衡的問題,我們設計并實現(xiàn)了B-CRUSH算法,它是基于CRUSH算法的一種均衡數(shù)據(jù)分布算法,通過引入新的哈希函數(shù)、新的選擇分配算法以及自適應預分配模型這三個步驟來改進現(xiàn)有的CRUSH算法,使得產(chǎn)生的數(shù)據(jù)分配結果更加均衡,以達到消除系統(tǒng)“熱點”和瓶頸的目的。對于有限的副本存放規(guī)則原語問題,我們通過引入新的關鍵字原語ignore,設計并實現(xiàn)了可以跨多級失效域的副本存放規(guī)則。該規(guī)則提供了對副本更細粒度的控制,能夠一一指定數(shù)據(jù)每個副本的分配策略,并且保證同一數(shù)據(jù)的當前副本不會被分配到與之前的副本相同的失效域中。此外,本文還通過實驗對于上述兩種解決方案進行了驗證。通過與現(xiàn)有CRUSH算法的對比,我們提出的B-CRUSH算法有效地提高了數(shù)據(jù)分布均衡性,并且將系統(tǒng)的隨機讀性能提升了10%以上;而新的副本存放規(guī)則成功地解決了數(shù)據(jù)副本跨多級失效域均衡存放的問題,為用戶提供了更靈活的副本分配策略。
【關鍵詞】:大數(shù)據(jù) 分布式存儲 數(shù)據(jù)分布 負載均衡
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13;TP333
【目錄】:
- 摘要3-5
- ABSTRACT5-13
- 第一章 緒論13-21
- 1.1 研究背景及意義13-15
- 1.2 國內(nèi)外研究現(xiàn)狀15-19
- 1.3 研究目標與內(nèi)容19
- 1.4 論文組織結構19-21
- 第二章 背景工作21-31
- 2.1 Ceph分布式存儲系統(tǒng)21-23
- 2.2 RADOS組件23-24
- 2.3 CRUSH算法24-30
- 2.3.1 CRUSH Map24-29
- 2.3.2 副本存放規(guī)則29-30
- 2.4 本章小結30-31
- 第三章 問題定義31-35
- 3.1 數(shù)據(jù)空間分布均衡性31-33
- 3.2 副本存放規(guī)則原語33-34
- 3.3 本章小結34-35
- 第四章 算法設計35-53
- 4.1 B-CRUSH算法的設計35-44
- 4.1.1 pps哈希算法37-39
- 4.1.2 linear類型bucket39-42
- 4.1.3 自適應模型42-44
- 4.2 副本存放規(guī)則原語的設計44-51
- 4.2.1 同級失效域間的副本存放規(guī)則47
- 4.2.2 跨多級失效域的副本存放規(guī)則47-51
- 4.3 本章小結51-53
- 第五章 算法實現(xiàn)53-61
- 5.1 B-CRUSH算法實現(xiàn)55-57
- 5.2 副本存放規(guī)則原語實現(xiàn)57-59
- 5.3 本章小結59-61
- 第六章 實驗驗證61-77
- 6.1 B-CRUSH算法實驗驗證61-71
- 6.1.1 B-CRUSH算法驗證環(huán)境61-63
- 6.1.2 B-CRUSH算法驗證方法63-64
- 6.1.3 B-CRUSH算法驗證結果64-71
- 6.2 副本存放規(guī)則原語實驗驗證71-76
- 6.2.1 副本存放規(guī)則原語驗證環(huán)境71
- 6.2.2 副本存放規(guī)則原語驗證方法71
- 6.2.3 副本存放規(guī)則原語驗證結果71-76
- 6.3 本章小結76-77
- 第七章 總結與展望77-81
- 7.1 全文總結77-78
- 7.2 研究展望78-81
- 參考文獻81-85
- 致謝85-86
- 攻讀學位期間發(fā)表的學術論文目錄86-88
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁茵;;數(shù)據(jù)分布服務推動了注重數(shù)據(jù)的系統(tǒng)發(fā)展[J];電子技術;2006年11期
2 夏軍;龐征斌;張峻;李永進;;一種基于0-1整數(shù)規(guī)劃的全局數(shù)據(jù)分布優(yōu)化方法[J];國防科技大學學報;2009年04期
3 鄭勝;郝毫毫;;基于貝努利大數(shù)定律的數(shù)據(jù)分布算法[J];計算機工程;2009年19期
4 丁瑩;幾種數(shù)據(jù)分布設計方法的比較與進一步探討[J];計算機時代;1994年04期
5 丁瑩;幾種數(shù)據(jù)分布設計方法的探討[J];微型電腦應用;1994年04期
6 武繼剛,龐淑萍;堆上的數(shù)據(jù)分布與堆選擇算法[J];計算技術與自動化;1995年04期
7 陳楠;分布式數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)分布策略分析[J];計算機時代;1998年10期
8 錢旭明;;數(shù)據(jù)分布規(guī)劃的數(shù)學模型[J];寧波大學學報(理工版);1992年02期
9 王于同;一種以負載平衡為目標的分布式數(shù)據(jù)分布算法[J];杭州電子工業(yè)學院學報;1995年02期
10 王秀坤,吳月堂,張盛;一種有效的數(shù)據(jù)分布算法[J];計算機工程與應用;2000年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 胥永康;岳筱玲;潘澤友;;基于數(shù)據(jù)分布的勞動力市場信息系統(tǒng)[A];第六屆全國計算機應用聯(lián)合學術會議論文集[C];2002年
2 李宏;;港口企業(yè)信息系統(tǒng)數(shù)據(jù)分布技術[A];全國飛機與船舶通信導航學術研討會論文集(下)[C];2000年
3 陳楠;;分布式數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)分布策略研究[A];信息科學與微電子技術:中國科協(xié)第三屆青年學術年會論文集[C];1998年
4 王e,
本文編號:577773
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/577773.html