OpenStack集群高可用方案設(shè)計(jì)與實(shí)現(xiàn)
本文選題:OpenStack + 高可用; 參考:《哈爾濱工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著云計(jì)算技術(shù)的不斷發(fā)展,用戶可以像使用水、電等資源一樣的使用計(jì)算機(jī)資源。為了便捷的管理云計(jì)算資源池中存在的大量的計(jì)算資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源,出現(xiàn)了開源的云平臺(tái)管理系統(tǒng)OpenStack。在金融、政治等領(lǐng)域,服務(wù)器承受著大量重要數(shù)據(jù)信息的計(jì)算和存儲(chǔ)業(yè)務(wù),如果服務(wù)器發(fā)生故障,將會(huì)帶來(lái)災(zāi)難性的后果,產(chǎn)生巨大的損失。因此在服務(wù)器的器件損壞,系統(tǒng)崩潰,異常斷電,網(wǎng)絡(luò)異常等情況下,需要盡可能減少不可用時(shí)間,自動(dòng)恢復(fù),最大限度的保證系統(tǒng)的可用性。但OpenStack本身并不具備高可用功能,因此在利用OpenStack的便捷的同時(shí),必須要補(bǔ)全它的高可用功能。本文通過(guò)對(duì)高可用集群的結(jié)構(gòu)進(jìn)行分析,在常見的corosync+pacemaker的高可用方案基礎(chǔ)上,為了解決集群節(jié)點(diǎn)較多導(dǎo)致corosync收斂時(shí)間長(zhǎng)的問(wèn)題提出了檢測(cè)域劃分的思想,為了降低誤判概率增加了基于管理網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)的雙鏈路心跳檢測(cè)方案。由于pacemaker本身包含的resource agent在節(jié)點(diǎn)多時(shí)表現(xiàn)不佳,開發(fā)了一套自己的資源代理,來(lái)完成上報(bào)物理主機(jī)故障的信息;上報(bào)虛擬機(jī)故障、關(guān)閉的信息;發(fā)送管理網(wǎng)絡(luò)或存儲(chǔ)網(wǎng)絡(luò)故障的警告;通過(guò)corosync感知檢測(cè)域內(nèi)連通節(jié)點(diǎn)的變化;當(dāng)前節(jié)點(diǎn)上報(bào)失敗時(shí),通過(guò)corosync令牌傳遞報(bào)文,橫向?qū)ふ铱捎霉?jié)點(diǎn),上報(bào)遷移請(qǐng)求;通過(guò)共享存儲(chǔ),確定其它隔離主機(jī)或分裂組的心跳,維護(hù)分裂組列表,搶占域鎖;對(duì)pacemaker通知的虛擬機(jī)故障進(jìn)行響應(yīng)等功能。在進(jìn)行虛擬機(jī)遷移時(shí)需要決定遷移的目的主機(jī),因此實(shí)現(xiàn)了動(dòng)態(tài)資源調(diào)度服務(wù)來(lái)完成這項(xiàng)功能。經(jīng)過(guò)功能測(cè)試和可用性測(cè)試后,系統(tǒng)可以完成虛擬機(jī)的啟動(dòng)關(guān)閉,在物理主機(jī)出現(xiàn)故障或虛擬機(jī)出現(xiàn)故障后,可以將虛擬機(jī)遷移,遷移后的虛擬機(jī)可以繼續(xù)運(yùn)行原虛擬機(jī)中運(yùn)行的業(yè)務(wù)。虛擬機(jī)遷移時(shí)間均在二十秒左右,達(dá)到了高可用的標(biāo)準(zhǔn)。
[Abstract]:With the continuous development of cloud computing technology, users can use like water, electricity and other resources as the use of computer resources. In order to conveniently manage the resource pool of cloud computing in the presence of a large number of computing resources, storage resources and cyber source, the open source cloud platform management system OpenStack. in the financial, political and other fields, the server under a large number of important data information computing and storage business, if the server fails, will bring disastrous consequences, resulting in huge losses. So the server device is damaged, the system crashes, abnormal power off, the network abnormal circumstances, to minimize the time available, automatic recovery, ensure maximum system availability the. But OpenStack itself does not have the function of high availability, so in the use of OpenStack convenient at the same time, it must be hard to complete high. Based on high Structure analysis of available clusters, in high availability scheme based on common corosync+pacemaker, in order to solve the cluster nodes leads to more corosync convergence time is proposed to detect domain of thought, in order to reduce the probability of false positives increases the dual link heartbeat detection scheme based on network management and network storage. Because the pacemaker itself contains resource agent in the multi node performance, developed a set of their own resources agency, to complete the report physical host fault information reporting; virtual machine fault, closed information transmission management; network or storage network fault warning; change of connected nodes through corosync detection domain; the current node to fail when delivering messages through corosync the token, the node can be used for lateral migration, reporting requests; through shared memory, the other isolated host or split set Heartbeat, maintenance division list, seize the domain lock; response function of pacemaker virtual machine fault notification. Need to decide to move to the host in the virtual machine migration, thus realizes the dynamic resource scheduling services to complete this function. After the functional testing and usability testing, the system can complete the virtual machine start off, appear in the physical host virtual machine malfunction or failure, the virtual machine migration, migratedvirtual machine can continue to run the original virtual machine in the business. The virtual machine migration time were twenty seconds, achieved high availability standards.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧志龍;段哲民;李劉濤;;OpenStack環(huán)境下的資源動(dòng)態(tài)調(diào)度研究[J];西北工業(yè)大學(xué)學(xué)報(bào);2016年04期
2 楊博;;VMware vSphere平臺(tái)虛擬機(jī)性能調(diào)優(yōu)[J];信息系統(tǒng)工程;2016年01期
3 來(lái)曉;馮冬芹;褚健;;分布式網(wǎng)絡(luò)故障檢測(cè)及恢復(fù)技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年24期
4 陸陽(yáng);王強(qiáng);張本宏;諸葛戰(zhàn)斌;;計(jì)算機(jī)系統(tǒng)容錯(cuò)技術(shù)研究[J];計(jì)算機(jī)工程;2010年13期
5 張德育;張晶;劉治國(guó);潘成勝;;高可用性集群互連結(jié)構(gòu)研究[J];火力與指揮控制;2008年08期
6 趙霞;;基于負(fù)載均衡的企業(yè)級(jí)工業(yè)Beowulf集群[J];微計(jì)算機(jī)信息;2008年15期
7 弋瑞錄;胡飛;奚水清;侯雪梅;;基于LSF集群系統(tǒng)的分布式并行計(jì)算[J];測(cè)控技術(shù);2006年07期
8 李海軍;;F5 BIG IP負(fù)載均衡解決方案在電信運(yùn)營(yíng)商中的應(yīng)用[J];世界電信;2006年06期
9 ;聯(lián)想萬(wàn)全NS10000高性能集群系統(tǒng)—二代身份證的幕后英雄[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2005年01期
10 張小芳,胡正國(guó),鄭繼川,唐焱;高可用性集群技術(shù)的研究和應(yīng)用[J];計(jì)算機(jī)工程;2003年04期
相關(guān)碩士學(xué)位論文 前6條
1 徐超群;高可用集群系統(tǒng)關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年
2 馬新宇;一種高可用Linux集群管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2013年
3 劉飛宇;OpenStack云平臺(tái)下的虛擬機(jī)監(jiān)控與控制的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
4 鄧仲舉;高可靠性集群部署的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年
5 晏偉;多機(jī)熱備高可用集群的設(shè)計(jì)和研究[D];華南理工大學(xué);2011年
6 汪筱紅;高可用多節(jié)點(diǎn)集群技術(shù)的研究與實(shí)現(xiàn)[D];上海交通大學(xué);2006年
,本文編號(hào):1769470
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1769470.html