MongoDB中的海量數(shù)據(jù)動態(tài)平衡
本文選題:云計算 + MongoDB ; 參考:《上海交通大學(xué)》2014年碩士論文
【摘要】:在云計算的技術(shù)架構(gòu)中,數(shù)據(jù)存儲層是基礎(chǔ)。當(dāng)前,云平臺中存儲了大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)具有高并發(fā)性、數(shù)據(jù)量大、數(shù)據(jù)之間聯(lián)系弱等特點。相比關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫由于其強大的適應(yīng)能力得到了廣泛地應(yīng)用。然而由于非關(guān)系型數(shù)據(jù)庫發(fā)展時間尚短,在負載均衡技術(shù)方面的發(fā)展還不夠成熟,因此,針對提高資源利用率的需求設(shè)計有效的非關(guān)系型數(shù)據(jù)庫的負載均衡策略具有重要意義。 目前大部分數(shù)據(jù)庫的負載均衡技術(shù)都是基于數(shù)據(jù)量實現(xiàn)的,這是因為數(shù)據(jù)庫的職責(zé)一直被界定為數(shù)據(jù)存儲,一般認為訪問負載的監(jiān)控應(yīng)該由應(yīng)用層實現(xiàn)。然而,隨著web2.0的發(fā)展,數(shù)據(jù)訪問量的差異被凸顯,熱點數(shù)據(jù)分布的均衡特性難以保證,而訪問負載過重會導(dǎo)致系統(tǒng)性能下降,訪問負載過輕會造成存儲系統(tǒng)資源浪費。因此,傳統(tǒng)的基于數(shù)據(jù)量的負載均衡策略難以滿足現(xiàn)狀。 本文旨在研究云平臺下非關(guān)系型數(shù)據(jù)庫的負載均衡問題,并有針對性地優(yōu)化MongoDB的負載均衡架構(gòu),以提高存儲資源的使用率和存儲系統(tǒng)的性能。 本文主要完成了以下內(nèi)容的研究: 首先,本文分析了MongoDB現(xiàn)有的負載均衡架構(gòu)的局限性。通過分析目前MongoDB的負載均衡框架,發(fā)現(xiàn)其主要存在三個方面需要優(yōu)化。第一,其是基于數(shù)據(jù)量的負載均衡策略,這與現(xiàn)實中多數(shù)情況下相同數(shù)據(jù)量的數(shù)據(jù)負載不相當(dāng)?shù)默F(xiàn)狀不符。第二,其沒有充分利用副本集和分布式文件系統(tǒng)的特點,事實上副本集除可用來災(zāi)后修復(fù)外也可用來分擔(dān)負載,從而以較小的代價平衡系統(tǒng)中的負載。第三,其只有通過自動分片的擴容操作,并沒有相應(yīng)的減少容量的相關(guān)操作,另外,在進行平衡負載操作時,其主要策略是進行數(shù)據(jù)遷移,但是對于遷移數(shù)據(jù)的選擇不具有針對性且遷移數(shù)據(jù)時資源消耗較大。 接著本文提出了優(yōu)化的MongoDB負載均衡架構(gòu)和算法。根據(jù)目前MongoDB在負載均衡方面的不足,結(jié)合分布式文件系統(tǒng)的特點,提出了優(yōu)化的負載均衡策略和算法。該策略在原有的架構(gòu)之上引入負載監(jiān)控器,并改造原有的負載均衡器平衡負載的工作流程和主副本切換機制,以“預(yù)防為主,最低消耗處理”的思想實現(xiàn)了基于訪問負載的動態(tài)負載平衡,并大大減少了資源的消耗。 最后本文設(shè)計并進行試驗以證明此優(yōu)化框架的可行性。 在大規(guī)模分布式系統(tǒng)中,快速的響應(yīng)和高可靠性是終端用戶和應(yīng)用程序追求的兩個重要的性能指標(biāo),這些性能很大程度上由資源管理策略以及系統(tǒng)中各節(jié)點的負載狀況來決定。因為負載量的均勻分配能夠幫助優(yōu)化資源利用、最大化吞吐量和消除潛在負載過重的威脅。負載均衡策略優(yōu)劣的判斷有兩個重要的標(biāo)準(zhǔn),,分別為遷移代價和對存儲系統(tǒng)性能的影響。本文提出的優(yōu)化的MongoDB的負載均衡策略能夠以更小的代價和更低的影響性實現(xiàn)系統(tǒng)的再次平衡,從而提高存儲資源的利用率。另外,本文中所設(shè)計的負載均衡策略可以廣泛用于非關(guān)系型數(shù)據(jù)庫,對于云平臺下非關(guān)系型數(shù)據(jù)的大規(guī)模存儲策略的優(yōu)化具有現(xiàn)實意義。
[Abstract]:In the technical architecture of cloud computing, the data storage layer is the foundation. At present, a large number of structured and unstructured data are stored in the cloud platform. These data have the characteristics of high concurrency, large amount of data, weak connection between data and so on. Compared with relational database, the non relational data base has been widely used because of its strong adaptability. However, due to the short development time of non relational database, the development of load balancing technology is not mature enough. Therefore, it is of great significance to design an effective non relational database load balancing strategy for improving the demand for resource utilization.
At present, most database load balancing technologies are based on data volume implementation, which is because the responsibility of the database has been defined as data storage. It is generally believed that the monitoring of the access load should be implemented by the application layer. However, with the development of Web2.0, the difference of data access is highlighted, and the equilibrium characteristics of hot data distribution are difficult. It is guaranteed that overload of access will cause the performance degradation of the system and the overload of access load will cause the waste of storage system resources. Therefore, the traditional load balancing strategy based on the data amount is difficult to meet the status quo.
The aim of this paper is to study the load balancing of non relational databases under the cloud platform, and to optimize the load balancing architecture of MongoDB to improve the utilization of storage resources and the performance of the storage system.
This article mainly completed the following research:
First, this paper analyzes the limitations of the existing load balancing architecture of MongoDB. By analyzing the current load balancing framework of MongoDB, it is found that there are three main aspects to be optimized. First, it is a load balancing strategy based on the data quantity, which is not consistent with the current situation that the data load of the same data is not equal in most cases. Second, it does not make full use of the features of the replica set and the distributed file system. In fact, the replica set can also be used to share the load in addition to the post disaster recovery. In order to balance the load in the system at a smaller cost. Third, it has no corresponding operation to reduce the capacity. When balancing load operation, its main strategy is data migration, but the choice of migrating data is not targeted and the consumption of resources is large when migrating data.
Then this paper proposes an optimized MongoDB load balancing architecture and algorithm. Based on the shortage of load balancing in the current MongoDB and the characteristics of the distributed file system, the optimized load balancing strategy and algorithm are proposed. This strategy introduces the load monitor on the original architecture, and reforms the original load balancer balance load. The workflow and master copy switching mechanism, with the idea of "prevention mainly, minimum consumption processing", realized dynamic load balancing based on access load, and greatly reduced the consumption of resources.
Finally, this paper designs and tests to prove the feasibility of the optimization framework.
In large-scale distributed systems, fast response and high reliability are two important performance indicators pursued by end users and applications. These performance is largely determined by the resource management strategy and the load status of each node in the system. Because the uniform distribution of the load can help optimize the utilization of resources and maximize the swallowing. There are two important criteria for the judgment of the load balance strategy, which are the migration costs and the performance of the storage system. The optimized MongoDB load balancing strategy can achieve the rebalance of the system at a smaller cost and lower impact, thus improving the storage capacity. In addition, the load balancing strategy designed in this paper can be widely used in non relational databases, which is of practical significance for the optimization of large-scale storage strategy for non relational data under the cloud platform.
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.09;TP311.13
【共引文獻】
相關(guān)期刊論文 前10條
1 黃上星;周凌云;;基于GAE的云計算應(yīng)用開發(fā)[J];大眾科技;2013年10期
2 鄭哲;;一種物流云系統(tǒng)的架構(gòu)方法[J];電腦編程技巧與維護;2013年22期
3 錢晨;張鵬飛;;中國云計算建設(shè)及技術(shù)開發(fā)方向分析[J];福建電腦;2013年12期
4 陳江濤;張金隆;張亞軍;;基于企業(yè)應(yīng)用的SaaS顧客價值影響因素研究[J];中國地質(zhì)大學(xué)學(xué)報(社會科學(xué)版);2013年06期
5 謝文娟;黃松;張晶晶;李丙戌;;云安全管理框架綜述[J];電腦知識與技術(shù);2013年31期
6 范飛;黃文明;鄧珍榮;;Oozie工作流在Mahout分布式數(shù)據(jù)挖掘中的應(yīng)用[J];桂林電子科技大學(xué)學(xué)報;2014年01期
7 雷萬保;程園;崔珞琨;汪楊;;基于服務(wù)關(guān)聯(lián)模型的云服務(wù)權(quán)重計算算法[J];信息化研究;2014年01期
8 張正欣;;應(yīng)用于公共電子醫(yī)療領(lǐng)域的SOA服務(wù)組件管理系統(tǒng)[J];電子設(shè)計工程;2014年02期
9 劉俊朋;張東;劉正偉;郭鋒;趙江;;云數(shù)據(jù)中心Linux操作系統(tǒng)快速部署的方法研究[J];信息技術(shù)與標(biāo)準(zhǔn)化;2014年Z1期
10 賀智明;張揚;高林;;基于QPSFLA算法的云計算環(huán)境資源調(diào)度策略[J];電腦知識與技術(shù);2014年02期
相關(guān)會議論文 前8條
1 張瑋;牛正浩;史慧玲;孫萌;唐紹炬;;多目標(biāo)優(yōu)化的云計算虛擬集群動態(tài)調(diào)整方法[A];山東計算機學(xué)會2013學(xué)術(shù)年會論文集[C];2013年
2 孫英華;郭振波;吳哲輝;杜樂樂;;基于混合云市場的計算資源交易模型的研究[A];山東計算機學(xué)會2013學(xué)術(shù)年會論文集[C];2013年
3 潘送軍;周沿東;;淺談開發(fā)測試資源池的建設(shè)及應(yīng)用[A];電力行業(yè)信息化優(yōu)秀論文集2013[C];2013年
4 周宇光;陳振義;盛中華;;探索云計算技術(shù)在企業(yè)信息化建設(shè)中的應(yīng)用[A];第十六屆中國科協(xié)年會——分7綠色設(shè)計與制造信息技術(shù)創(chuàng)新論壇論文集[C];2014年
5 田原;王營康;肖達;楊榆;;云存儲系統(tǒng)中的存儲與數(shù)據(jù)拆分方案[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
6 姚艷;曹健;李明祿;;A Network-aware Virtual Machine Allocation in Cloud Datacenter[A];第十一屆全國博士生學(xué)術(shù)年會——信息技術(shù)與安全專題論文集[C];2013年
7 黃宏偉;聶新堯;;云計算為巖土工程帶來的機遇與挑戰(zhàn)[A];第三屆全國工程風(fēng)險與保險研究學(xué)術(shù)研討會會議交流材料[C];2014年
8 余秀才;;微博輿情研究中的大數(shù)據(jù)風(fēng)險與挑戰(zhàn)[A];媒介秩序與媒介文明研討會暨第二屆新聞傳播倫理與法制學(xué)術(shù)研討會論文集[C];2015年
相關(guān)博士學(xué)位論文 前10條
1 李煜;基于雙邊市場理論的軟件平臺運營機制研究[D];北京郵電大學(xué);2013年
2 張帆;認知可重構(gòu)的高效能Web服務(wù)體系結(jié)構(gòu)研究[D];解放軍信息工程大學(xué);2013年
3 劉燦由;電子海圖云服務(wù)關(guān)鍵技術(shù)研究與實踐[D];解放軍信息工程大學(xué);2013年
4 譚鵬許;云計算環(huán)境下安全分布式存儲架構(gòu)與容錯技術(shù)研究[D];解放軍信息工程大學(xué);2013年
5 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
6 卿蘇德;網(wǎng)絡(luò)虛擬化映射算法研究[D];北京郵電大學(xué);2013年
7 史佩昌;云服務(wù)的高效傳遞技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
8 劉雪峰;隱私安全協(xié)議研究[D];西安電子科技大學(xué);2013年
9 任維武;用于分布式入侵檢測系統(tǒng)的合作式本體模型[D];吉林大學(xué);2013年
10 敬思遠;面向綠色虛擬數(shù)據(jù)中心資源管理的若干關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 馮黎明;云環(huán)境下無線傳感器網(wǎng)絡(luò)服務(wù)研究[D];南京師范大學(xué);2013年
2 潘吳斌;基于云計算的并行K-means氣象數(shù)據(jù)挖掘研究與應(yīng)用[D];南京信息工程大學(xué);2013年
3 曹夕;云計算中安全服務(wù)機制的研究[D];福建師范大學(xué);2013年
4 焦術(shù)進;云計算中虛擬機動態(tài)遷移技術(shù)的研究[D];太原理工大學(xué);2013年
5 馬成龍;首次銷售原則在網(wǎng)絡(luò)環(huán)境下的擴大適用問題研究[D];華東政法大學(xué);2013年
6 洪波海;云媒體中基于任務(wù)QoS特征的資源分配調(diào)度算法研究[D];中國海洋大學(xué);2013年
7 賈玉輝;面向語音交互的云計算系統(tǒng)的研究[D];中國海洋大學(xué);2013年
8 俞俊杰;基于虛擬化技術(shù)的區(qū)域衛(wèi)生信息共享平臺的研究[D];中國海洋大學(xué);2013年
9 王璐;智慧城市建設(shè)成熟度評價研究[D];哈爾濱工業(yè)大學(xué);2013年
10 陳亮;結(jié)構(gòu)健康監(jiān)測物聯(lián)網(wǎng)系統(tǒng)的云計算應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2013年
本文編號:2095999
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2095999.html