OpenStack集群高可用方案設(shè)計與實現(xiàn)
本文選題:OpenStack + 高可用; 參考:《哈爾濱工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著云計算技術(shù)的不斷發(fā)展,用戶可以像使用水、電等資源一樣的使用計算機(jī)資源。為了便捷的管理云計算資源池中存在的大量的計算資源、網(wǎng)絡(luò)資源和存儲資源,出現(xiàn)了開源的云平臺管理系統(tǒng)OpenStack。在金融、政治等領(lǐng)域,服務(wù)器承受著大量重要數(shù)據(jù)信息的計算和存儲業(yè)務(wù),如果服務(wù)器發(fā)生故障,將會帶來災(zāi)難性的后果,產(chǎn)生巨大的損失。因此在服務(wù)器的器件損壞,系統(tǒng)崩潰,異常斷電,網(wǎng)絡(luò)異常等情況下,需要盡可能減少不可用時間,自動恢復(fù),最大限度的保證系統(tǒng)的可用性。但OpenStack本身并不具備高可用功能,因此在利用OpenStack的便捷的同時,必須要補全它的高可用功能。本文通過對高可用集群的結(jié)構(gòu)進(jìn)行分析,在常見的corosync+pacemaker的高可用方案基礎(chǔ)上,為了解決集群節(jié)點較多導(dǎo)致corosync收斂時間長的問題提出了檢測域劃分的思想,為了降低誤判概率增加了基于管理網(wǎng)絡(luò)和存儲網(wǎng)絡(luò)的雙鏈路心跳檢測方案。由于pacemaker本身包含的resource agent在節(jié)點多時表現(xiàn)不佳,開發(fā)了一套自己的資源代理,來完成上報物理主機(jī)故障的信息;上報虛擬機(jī)故障、關(guān)閉的信息;發(fā)送管理網(wǎng)絡(luò)或存儲網(wǎng)絡(luò)故障的警告;通過corosync感知檢測域內(nèi)連通節(jié)點的變化;當(dāng)前節(jié)點上報失敗時,通過corosync令牌傳遞報文,橫向?qū)ふ铱捎霉?jié)點,上報遷移請求;通過共享存儲,確定其它隔離主機(jī)或分裂組的心跳,維護(hù)分裂組列表,搶占域鎖;對pacemaker通知的虛擬機(jī)故障進(jìn)行響應(yīng)等功能。在進(jìn)行虛擬機(jī)遷移時需要決定遷移的目的主機(jī),因此實現(xiàn)了動態(tài)資源調(diào)度服務(wù)來完成這項功能。經(jīng)過功能測試和可用性測試后,系統(tǒng)可以完成虛擬機(jī)的啟動關(guān)閉,在物理主機(jī)出現(xiàn)故障或虛擬機(jī)出現(xiàn)故障后,可以將虛擬機(jī)遷移,遷移后的虛擬機(jī)可以繼續(xù)運行原虛擬機(jī)中運行的業(yè)務(wù)。虛擬機(jī)遷移時間均在二十秒左右,達(dá)到了高可用的標(biāo)準(zhǔn)。
[Abstract]:With the continuous development of cloud computing technology, users can use like water, electricity and other resources as the use of computer resources. In order to conveniently manage the resource pool of cloud computing in the presence of a large number of computing resources, storage resources and cyber source, the open source cloud platform management system OpenStack. in the financial, political and other fields, the server under a large number of important data information computing and storage business, if the server fails, will bring disastrous consequences, resulting in huge losses. So the server device is damaged, the system crashes, abnormal power off, the network abnormal circumstances, to minimize the time available, automatic recovery, ensure maximum system availability the. But OpenStack itself does not have the function of high availability, so in the use of OpenStack convenient at the same time, it must be hard to complete high. Based on high Structure analysis of available clusters, in high availability scheme based on common corosync+pacemaker, in order to solve the cluster nodes leads to more corosync convergence time is proposed to detect domain of thought, in order to reduce the probability of false positives increases the dual link heartbeat detection scheme based on network management and network storage. Because the pacemaker itself contains resource agent in the multi node performance, developed a set of their own resources agency, to complete the report physical host fault information reporting; virtual machine fault, closed information transmission management; network or storage network fault warning; change of connected nodes through corosync detection domain; the current node to fail when delivering messages through corosync the token, the node can be used for lateral migration, reporting requests; through shared memory, the other isolated host or split set Heartbeat, maintenance division list, seize the domain lock; response function of pacemaker virtual machine fault notification. Need to decide to move to the host in the virtual machine migration, thus realizes the dynamic resource scheduling services to complete this function. After the functional testing and usability testing, the system can complete the virtual machine start off, appear in the physical host virtual machine malfunction or failure, the virtual machine migration, migratedvirtual machine can continue to run the original virtual machine in the business. The virtual machine migration time were twenty seconds, achieved high availability standards.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧志龍;段哲民;李劉濤;;OpenStack環(huán)境下的資源動態(tài)調(diào)度研究[J];西北工業(yè)大學(xué)學(xué)報;2016年04期
2 楊博;;VMware vSphere平臺虛擬機(jī)性能調(diào)優(yōu)[J];信息系統(tǒng)工程;2016年01期
3 來曉;馮冬芹;褚健;;分布式網(wǎng)絡(luò)故障檢測及恢復(fù)技術(shù)研究[J];計算機(jī)工程與應(yīng)用;2010年24期
4 陸陽;王強(qiáng);張本宏;諸葛戰(zhàn)斌;;計算機(jī)系統(tǒng)容錯技術(shù)研究[J];計算機(jī)工程;2010年13期
5 張德育;張晶;劉治國;潘成勝;;高可用性集群互連結(jié)構(gòu)研究[J];火力與指揮控制;2008年08期
6 趙霞;;基于負(fù)載均衡的企業(yè)級工業(yè)Beowulf集群[J];微計算機(jī)信息;2008年15期
7 弋瑞錄;胡飛;奚水清;侯雪梅;;基于LSF集群系統(tǒng)的分布式并行計算[J];測控技術(shù);2006年07期
8 李海軍;;F5 BIG IP負(fù)載均衡解決方案在電信運營商中的應(yīng)用[J];世界電信;2006年06期
9 ;聯(lián)想萬全NS10000高性能集群系統(tǒng)—二代身份證的幕后英雄[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2005年01期
10 張小芳,胡正國,鄭繼川,唐焱;高可用性集群技術(shù)的研究和應(yīng)用[J];計算機(jī)工程;2003年04期
相關(guān)碩士學(xué)位論文 前6條
1 徐超群;高可用集群系統(tǒng)關(guān)鍵技術(shù)的研究與實現(xiàn)[D];南京航空航天大學(xué);2014年
2 馬新宇;一種高可用Linux集群管理系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2013年
3 劉飛宇;OpenStack云平臺下的虛擬機(jī)監(jiān)控與控制的研究與實現(xiàn)[D];電子科技大學(xué);2013年
4 鄧仲舉;高可靠性集群部署的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2012年
5 晏偉;多機(jī)熱備高可用集群的設(shè)計和研究[D];華南理工大學(xué);2011年
6 汪筱紅;高可用多節(jié)點集群技術(shù)的研究與實現(xiàn)[D];上海交通大學(xué);2006年
,本文編號:1769470
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1769470.html