集群監(jiān)控中的數(shù)據(jù)采集技術(shù)研究
發(fā)布時(shí)間:2020-08-15 18:37
【摘要】: 當(dāng)前集群系統(tǒng)已經(jīng)成為高性能計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展的趨勢,但在實(shí)際中應(yīng)用集群系統(tǒng)時(shí)為便于對集群進(jìn)行管理維護(hù),需要能對構(gòu)成集群的各個(gè)結(jié)點(diǎn)以及相關(guān)設(shè)備的狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控。因此研究集群監(jiān)控中的數(shù)據(jù)采集技術(shù)并設(shè)計(jì)一個(gè)監(jiān)控系統(tǒng)對集群技術(shù)的發(fā)展和應(yīng)用具有重要的現(xiàn)實(shí)意義。 以Lustre存儲集群為背景,對存儲集群環(huán)境下的遠(yuǎn)程監(jiān)控技術(shù)進(jìn)行了分析,并在此基礎(chǔ)上實(shí)現(xiàn)了一個(gè)針對Lustre存儲集群的監(jiān)控系統(tǒng)原型ClusterMonitor。ClusterMonitor集群監(jiān)控系統(tǒng)基于CIM/WBEM(Common Information Model/Web Based Enterprise Management)架構(gòu),由節(jié)點(diǎn)駐留程序MonDaemon,監(jiān)控服務(wù)端程序MonServer,遠(yuǎn)程用戶程序MonGui三個(gè)部分組成。對CIM/WBEM架構(gòu)的遵循使得ClusterMonitor具有良好的可擴(kuò)展性,而且不再依賴于傳統(tǒng)的數(shù)據(jù)庫。 監(jiān)控?cái)?shù)據(jù)采集包括監(jiān)控?cái)?shù)據(jù)的獲取和監(jiān)控?cái)?shù)據(jù)的匯集。監(jiān)控?cái)?shù)據(jù)獲取方面,設(shè)計(jì)了一個(gè)基于Linux內(nèi)核模塊的內(nèi)核態(tài)監(jiān)控?cái)?shù)據(jù)獲取方案,可以通過一個(gè)統(tǒng)一接口獲取所有監(jiān)控?cái)?shù)據(jù),并且不需要解析文本文件;監(jiān)控?cái)?shù)據(jù)匯集方面,為適應(yīng)大規(guī)模集群監(jiān)控的需要,設(shè)計(jì)了一個(gè)二叉樹自收斂的監(jiān)控?cái)?shù)據(jù)匯集協(xié)議,采用這種協(xié)議節(jié)點(diǎn)能自動發(fā)現(xiàn)數(shù)據(jù)匯集代理并產(chǎn)生優(yōu)化的匯集路徑。 通過實(shí)驗(yàn)以對內(nèi)存信息的獲取為例驗(yàn)證了內(nèi)核態(tài)監(jiān)控?cái)?shù)據(jù)獲取方案的可行性,對二叉樹自收斂匯集協(xié)議的定量分析表明了將該匯集協(xié)議應(yīng)用于大規(guī)模的集群監(jiān)控時(shí)將具有良好的實(shí)時(shí)性。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP338
【圖文】:
圖 1.1 PARMON 的體系結(jié)構(gòu)該監(jiān)控系統(tǒng)可以很靈活地選擇被監(jiān)控的對象進(jìn)行顯示,這個(gè)對象既可以是,也可以是一個(gè)節(jié)點(diǎn),甚至具體到節(jié)點(diǎn)上的某個(gè)資源。但如果機(jī)群規(guī)模很下,如幾百個(gè)節(jié)點(diǎn),client 要一次得到所有節(jié)點(diǎn)的狀態(tài)信息將會比較耗時(shí)間控系統(tǒng)所反映的整個(gè)機(jī)群系統(tǒng)狀態(tài)信息的實(shí)時(shí)性稍差。SuperMon 是由美國 California 大學(xué)的 Los Alamos 國家高性能計(jì)算機(jī)實(shí)驗(yàn)室群監(jiān)控系統(tǒng),SuperMon 是一個(gè)通用的應(yīng)用于大規(guī)模 Linux 集群的監(jiān)控系rMon 的體系結(jié)構(gòu)如圖 1.2 所示:
作時(shí) Supermon 順序的連接每一個(gè) mon,通過和 mon 進(jìn)行交互獲雖然使用了分層結(jié)構(gòu),但是因?yàn)橹挥幸粋(gè) Supermon,所以當(dāng)節(jié)點(diǎn)線性下降,同時(shí) Supermon 也是系統(tǒng)中的單一失效點(diǎn),使系統(tǒng)可靠ermon 是通過預(yù)先就知道的地址和每個(gè) mon 連接所以在不改變 Su下很難做到結(jié)點(diǎn)的動態(tài)增加。同時(shí)由于 Supermon 是與 Linux 內(nèi)核它的可移植性較差,應(yīng)用范圍很有限。lia 是由加州大學(xué)伯克利分校開發(fā),并被應(yīng)用在了 NPACI Rocks 項(xiàng)ks 系統(tǒng)的監(jiān)控。Ganglia 系統(tǒng)是建立在分級基礎(chǔ)[14]之上,其結(jié)構(gòu)為有著很好的可擴(kuò)展性,可以容易地適應(yīng)不同規(guī)模的集群,這也是分布在世界各地的多個(gè)不同規(guī)模的集群上的一個(gè)主要原因; 遞可以使得系統(tǒng)的狀態(tài)數(shù)據(jù)跨越不同的系統(tǒng)平臺而進(jìn)行交互,這用的另一個(gè)重要原因。此外,集中式的管理、低負(fù)載和系統(tǒng)的健的特色。Ganglia 的體系結(jié)構(gòu)如圖 1.3 所示:
圖 2.1 典型的集群監(jiān)控系統(tǒng)框架2.2.1 集中式體系結(jié)構(gòu)當(dāng)集群的節(jié)點(diǎn)數(shù)量不是太多的情況下,通常采用集中式體系結(jié)構(gòu)[19]。在這種結(jié)構(gòu)中,每個(gè)被監(jiān)控節(jié)點(diǎn)上都有一個(gè)監(jiān)控代理,監(jiān)控代理負(fù)責(zé)獲取本節(jié)點(diǎn)信息,并響應(yīng)監(jiān)控系統(tǒng)的控制命令。監(jiān)控服務(wù)器分析來自各個(gè)監(jiān)控代理的信息,并根據(jù)故障假設(shè)和系統(tǒng)的邏輯來判斷節(jié)點(diǎn)的行為,把相應(yīng)的控制命令發(fā)送到對應(yīng)節(jié)點(diǎn)的監(jiān)控代理上。當(dāng)集群規(guī)模不是太大,節(jié)點(diǎn)數(shù)目不是特別多的環(huán)境下,往往都采用這種結(jié)構(gòu)。這種結(jié)構(gòu)的好處在于:(1)容易部署:監(jiān)控系統(tǒng)主要由位于目標(biāo)節(jié)點(diǎn)上的監(jiān)控代理和監(jiān)控服務(wù)器的信息處理這兩個(gè)部分組成,功能劃分清晰,系統(tǒng)硬件部署,軟件實(shí)現(xiàn)都較容易,而且容易適應(yīng)集群規(guī)模的變化(2)處理延遲小。當(dāng)監(jiān)控服務(wù)器的處理器能力足夠時(shí),監(jiān)控系統(tǒng)對目標(biāo)節(jié)點(diǎn)出現(xiàn)故障的響應(yīng)快,便于及時(shí)發(fā)現(xiàn)解決問題。圖 2.2 描述了集中式體系結(jié)構(gòu)的集群監(jiān)控系統(tǒng)的典型架構(gòu),可以看出整個(gè)監(jiān)控系統(tǒng)是由分布在目標(biāo)節(jié)點(diǎn)的監(jiān)控代理(Daemon)和單一的監(jiān)控服務(wù)器組成。顯然,如
本文編號:2794489
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP338
【圖文】:
圖 1.1 PARMON 的體系結(jié)構(gòu)該監(jiān)控系統(tǒng)可以很靈活地選擇被監(jiān)控的對象進(jìn)行顯示,這個(gè)對象既可以是,也可以是一個(gè)節(jié)點(diǎn),甚至具體到節(jié)點(diǎn)上的某個(gè)資源。但如果機(jī)群規(guī)模很下,如幾百個(gè)節(jié)點(diǎn),client 要一次得到所有節(jié)點(diǎn)的狀態(tài)信息將會比較耗時(shí)間控系統(tǒng)所反映的整個(gè)機(jī)群系統(tǒng)狀態(tài)信息的實(shí)時(shí)性稍差。SuperMon 是由美國 California 大學(xué)的 Los Alamos 國家高性能計(jì)算機(jī)實(shí)驗(yàn)室群監(jiān)控系統(tǒng),SuperMon 是一個(gè)通用的應(yīng)用于大規(guī)模 Linux 集群的監(jiān)控系rMon 的體系結(jié)構(gòu)如圖 1.2 所示:
作時(shí) Supermon 順序的連接每一個(gè) mon,通過和 mon 進(jìn)行交互獲雖然使用了分層結(jié)構(gòu),但是因?yàn)橹挥幸粋(gè) Supermon,所以當(dāng)節(jié)點(diǎn)線性下降,同時(shí) Supermon 也是系統(tǒng)中的單一失效點(diǎn),使系統(tǒng)可靠ermon 是通過預(yù)先就知道的地址和每個(gè) mon 連接所以在不改變 Su下很難做到結(jié)點(diǎn)的動態(tài)增加。同時(shí)由于 Supermon 是與 Linux 內(nèi)核它的可移植性較差,應(yīng)用范圍很有限。lia 是由加州大學(xué)伯克利分校開發(fā),并被應(yīng)用在了 NPACI Rocks 項(xiàng)ks 系統(tǒng)的監(jiān)控。Ganglia 系統(tǒng)是建立在分級基礎(chǔ)[14]之上,其結(jié)構(gòu)為有著很好的可擴(kuò)展性,可以容易地適應(yīng)不同規(guī)模的集群,這也是分布在世界各地的多個(gè)不同規(guī)模的集群上的一個(gè)主要原因; 遞可以使得系統(tǒng)的狀態(tài)數(shù)據(jù)跨越不同的系統(tǒng)平臺而進(jìn)行交互,這用的另一個(gè)重要原因。此外,集中式的管理、低負(fù)載和系統(tǒng)的健的特色。Ganglia 的體系結(jié)構(gòu)如圖 1.3 所示:
圖 2.1 典型的集群監(jiān)控系統(tǒng)框架2.2.1 集中式體系結(jié)構(gòu)當(dāng)集群的節(jié)點(diǎn)數(shù)量不是太多的情況下,通常采用集中式體系結(jié)構(gòu)[19]。在這種結(jié)構(gòu)中,每個(gè)被監(jiān)控節(jié)點(diǎn)上都有一個(gè)監(jiān)控代理,監(jiān)控代理負(fù)責(zé)獲取本節(jié)點(diǎn)信息,并響應(yīng)監(jiān)控系統(tǒng)的控制命令。監(jiān)控服務(wù)器分析來自各個(gè)監(jiān)控代理的信息,并根據(jù)故障假設(shè)和系統(tǒng)的邏輯來判斷節(jié)點(diǎn)的行為,把相應(yīng)的控制命令發(fā)送到對應(yīng)節(jié)點(diǎn)的監(jiān)控代理上。當(dāng)集群規(guī)模不是太大,節(jié)點(diǎn)數(shù)目不是特別多的環(huán)境下,往往都采用這種結(jié)構(gòu)。這種結(jié)構(gòu)的好處在于:(1)容易部署:監(jiān)控系統(tǒng)主要由位于目標(biāo)節(jié)點(diǎn)上的監(jiān)控代理和監(jiān)控服務(wù)器的信息處理這兩個(gè)部分組成,功能劃分清晰,系統(tǒng)硬件部署,軟件實(shí)現(xiàn)都較容易,而且容易適應(yīng)集群規(guī)模的變化(2)處理延遲小。當(dāng)監(jiān)控服務(wù)器的處理器能力足夠時(shí),監(jiān)控系統(tǒng)對目標(biāo)節(jié)點(diǎn)出現(xiàn)故障的響應(yīng)快,便于及時(shí)發(fā)現(xiàn)解決問題。圖 2.2 描述了集中式體系結(jié)構(gòu)的集群監(jiān)控系統(tǒng)的典型架構(gòu),可以看出整個(gè)監(jiān)控系統(tǒng)是由分布在目標(biāo)節(jié)點(diǎn)的監(jiān)控代理(Daemon)和單一的監(jiān)控服務(wù)器組成。顯然,如
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 邱爽;任樹華;;鉆井?dāng)?shù)據(jù)庫集群監(jiān)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年02期
本文編號:2794489
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2794489.html
最近更新
教材專著