基于應(yīng)用行為分析的高性能計(jì)算機(jī)存儲(chǔ)系統(tǒng)優(yōu)化技術(shù)研究
發(fā)布時(shí)間:2021-06-11 15:43
伴隨著科技的進(jìn)步,科學(xué)計(jì)算在生活中發(fā)揮著越來(lái)越重要的作用。高性能計(jì)算機(jī)是其中的重要基礎(chǔ)。受摩爾定律的驅(qū)動(dòng),高性能計(jì)算機(jī)計(jì)算能力一直在不斷加強(qiáng),但是相應(yīng)的存儲(chǔ)系統(tǒng)的發(fā)展并沒有跟上計(jì)算能力進(jìn)步的腳步,計(jì)算系統(tǒng)與存儲(chǔ)系統(tǒng)的性能差異越來(lái)越大,造成了‘‘存儲(chǔ)墻’’問(wèn)題。針對(duì)此,本文研究如何通過(guò)分析和學(xué)習(xí)應(yīng)用程序和存儲(chǔ)系統(tǒng)的行為,來(lái)優(yōu)化存儲(chǔ)系統(tǒng)服務(wù)能力,提升應(yīng)用程序I/O和訪存性能。本文的主要工作包括:1.提出利用端到端、低開銷I/O監(jiān)控對(duì)高性能計(jì)算I/O性能行為進(jìn)行協(xié)同分析。本文基于國(guó)產(chǎn)超級(jí)計(jì)算機(jī)神威太湖之光的生產(chǎn)環(huán)境構(gòu)建了一套全I(xiàn)/O路徑的監(jiān)控和I/O行為分析系統(tǒng)Beacon。利用該系統(tǒng),經(jīng)過(guò)一年多對(duì)用戶行為和系統(tǒng)狀態(tài)的總結(jié),發(fā)現(xiàn)了一系列高性能計(jì)算機(jī)存儲(chǔ)系統(tǒng)的問(wèn)題,包括:靜態(tài)的計(jì)算節(jié)點(diǎn)和I/O轉(zhuǎn)發(fā)節(jié)點(diǎn)連接導(dǎo)致負(fù)載不均衡;共享I/O轉(zhuǎn)發(fā)節(jié)點(diǎn)應(yīng)用程序間的嚴(yán)重I/O性能干擾;性能異常的I/O轉(zhuǎn)發(fā)節(jié)點(diǎn)和后端存儲(chǔ)服務(wù)器會(huì)嚴(yán)重拖慢應(yīng)用程序I/O性能等,并在此基礎(chǔ)上給出針對(duì)性優(yōu)化方案。2.針對(duì)現(xiàn)代高性能計(jì)算機(jī)的I/O性能問(wèn)題與I/O轉(zhuǎn)發(fā)層密切相關(guān)的特點(diǎn),本文提出了基于應(yīng)用程序歷史I/O行為的轉(zhuǎn)發(fā)層資源動(dòng)態(tài)分...
【文章來(lái)源】:清華大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:129 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
I/O轉(zhuǎn)發(fā)架構(gòu)示例圖
第2章背景和相關(guān)工作圖2.2科學(xué)計(jì)算應(yīng)用程序的主要I/O模式程中只有一個(gè)進(jìn)程負(fù)責(zé)I/O操作。在執(zhí)行I/O操作的情況下,所有其他進(jìn)程的數(shù)據(jù)都通過(guò)網(wǎng)絡(luò)聚合到這個(gè)進(jìn)程中(或者由這個(gè)進(jìn)程分發(fā)數(shù)據(jù)),在某個(gè)特定的時(shí)刻操作一個(gè)文件進(jìn)行讀寫。這種方式的主要優(yōu)勢(shì)是簡(jiǎn)單,便于開發(fā)者進(jìn)行程序開發(fā)。但是缺點(diǎn)也顯而易見:它缺少足夠的并行性,往往性能欠佳,因此只適合小規(guī)模作業(yè)做少量的I/O時(shí)使用。N-1I/O模式也是一種常見的I/O模式,它意味著N個(gè)I/O進(jìn)程(數(shù)量小于或等于計(jì)算進(jìn)程數(shù))同時(shí)操作同一個(gè)文件。這種操作的方式因?yàn)槲募䲠?shù)據(jù)比較少,元數(shù)據(jù)管理簡(jiǎn)單,對(duì)數(shù)據(jù)的后處理非常友好。但是由于并行文件系統(tǒng)的全局鎖的原因,在文件讀寫的時(shí)候涉及到嚴(yán)重的鎖開銷,性能同欠佳[50]。第三種I/O模式是N-NI/O模式。在這種模式中,所有N個(gè)計(jì)算進(jìn)程會(huì)同時(shí)進(jìn)行輸入輸出,同時(shí)操作N個(gè)獨(dú)立的文件,每個(gè)進(jìn)程只操作一個(gè)文件。這種的方法的壞處就是文件數(shù)隨著并行度的變化而變化,數(shù)據(jù)分片和元數(shù)據(jù)也隨著變化,可能會(huì)增加用戶進(jìn)行數(shù)據(jù)后處理的難度。同時(shí)錯(cuò)誤的數(shù)量設(shè)置可能會(huì)導(dǎo)致讀寫過(guò)于碎片化而不能充分發(fā)揮性能。但是在合適的配置下,這種方法可以充分發(fā)揮文件系統(tǒng)的能力,提升I/O吞吐率。最后一種模式是N-MI/O模式,N個(gè)計(jì)算進(jìn)程中M個(gè)I/O進(jìn)程負(fù)責(zé)讀寫M個(gè)相應(yīng)的文件,數(shù)據(jù)通過(guò)M個(gè)I/O進(jìn)程在網(wǎng)絡(luò)上進(jìn)行接收或發(fā)送,然后M個(gè)進(jìn)程中,每個(gè)進(jìn)程只操作獨(dú)立文件。這種方式能最大化的減少文件讀寫的碎片化,保持讀寫的連續(xù)性,但是也對(duì)用戶/開發(fā)者的要求最高,程序開發(fā)的難度最高。分析應(yīng)用程序所采用的I/O模式,并理解其在底層存儲(chǔ)系統(tǒng)的行為需要借助I/O行為跟蹤和分析工具。本文接下來(lái)會(huì)介紹目前業(yè)界中已經(jīng)存在的多種面向高性能系統(tǒng)的I/O行為跟蹤和分析工具。本文根據(jù)他們
第3章端到端的I/O行為檢測(cè)與分析(a)用戶界面(b)管理員界面圖3.3Beacon查詢頁(yè)面實(shí)例監(jiān)控系統(tǒng)Beacon為用戶提供了豐富的界面,I/O路徑全覆蓋監(jiān)控是它的一個(gè)非常重要的特性。除此之外,它還為用戶展示了不同粒度和級(jí)別的I/O數(shù)據(jù)和歷史信息,用戶可以細(xì)致地觀察自己應(yīng)用程序的I/O行為。Beacon這套監(jiān)控系統(tǒng)從2017年上線至今,現(xiàn)在仍然在不斷迭代以保證更全面、更穩(wěn)定的監(jiān)控功能。下面本文會(huì)對(duì)各個(gè)I/O子系統(tǒng)部分的采樣做具體的闡述。26
本文編號(hào):3224816
【文章來(lái)源】:清華大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:129 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
I/O轉(zhuǎn)發(fā)架構(gòu)示例圖
第2章背景和相關(guān)工作圖2.2科學(xué)計(jì)算應(yīng)用程序的主要I/O模式程中只有一個(gè)進(jìn)程負(fù)責(zé)I/O操作。在執(zhí)行I/O操作的情況下,所有其他進(jìn)程的數(shù)據(jù)都通過(guò)網(wǎng)絡(luò)聚合到這個(gè)進(jìn)程中(或者由這個(gè)進(jìn)程分發(fā)數(shù)據(jù)),在某個(gè)特定的時(shí)刻操作一個(gè)文件進(jìn)行讀寫。這種方式的主要優(yōu)勢(shì)是簡(jiǎn)單,便于開發(fā)者進(jìn)行程序開發(fā)。但是缺點(diǎn)也顯而易見:它缺少足夠的并行性,往往性能欠佳,因此只適合小規(guī)模作業(yè)做少量的I/O時(shí)使用。N-1I/O模式也是一種常見的I/O模式,它意味著N個(gè)I/O進(jìn)程(數(shù)量小于或等于計(jì)算進(jìn)程數(shù))同時(shí)操作同一個(gè)文件。這種操作的方式因?yàn)槲募䲠?shù)據(jù)比較少,元數(shù)據(jù)管理簡(jiǎn)單,對(duì)數(shù)據(jù)的后處理非常友好。但是由于并行文件系統(tǒng)的全局鎖的原因,在文件讀寫的時(shí)候涉及到嚴(yán)重的鎖開銷,性能同欠佳[50]。第三種I/O模式是N-NI/O模式。在這種模式中,所有N個(gè)計(jì)算進(jìn)程會(huì)同時(shí)進(jìn)行輸入輸出,同時(shí)操作N個(gè)獨(dú)立的文件,每個(gè)進(jìn)程只操作一個(gè)文件。這種的方法的壞處就是文件數(shù)隨著并行度的變化而變化,數(shù)據(jù)分片和元數(shù)據(jù)也隨著變化,可能會(huì)增加用戶進(jìn)行數(shù)據(jù)后處理的難度。同時(shí)錯(cuò)誤的數(shù)量設(shè)置可能會(huì)導(dǎo)致讀寫過(guò)于碎片化而不能充分發(fā)揮性能。但是在合適的配置下,這種方法可以充分發(fā)揮文件系統(tǒng)的能力,提升I/O吞吐率。最后一種模式是N-MI/O模式,N個(gè)計(jì)算進(jìn)程中M個(gè)I/O進(jìn)程負(fù)責(zé)讀寫M個(gè)相應(yīng)的文件,數(shù)據(jù)通過(guò)M個(gè)I/O進(jìn)程在網(wǎng)絡(luò)上進(jìn)行接收或發(fā)送,然后M個(gè)進(jìn)程中,每個(gè)進(jìn)程只操作獨(dú)立文件。這種方式能最大化的減少文件讀寫的碎片化,保持讀寫的連續(xù)性,但是也對(duì)用戶/開發(fā)者的要求最高,程序開發(fā)的難度最高。分析應(yīng)用程序所采用的I/O模式,并理解其在底層存儲(chǔ)系統(tǒng)的行為需要借助I/O行為跟蹤和分析工具。本文接下來(lái)會(huì)介紹目前業(yè)界中已經(jīng)存在的多種面向高性能系統(tǒng)的I/O行為跟蹤和分析工具。本文根據(jù)他們
第3章端到端的I/O行為檢測(cè)與分析(a)用戶界面(b)管理員界面圖3.3Beacon查詢頁(yè)面實(shí)例監(jiān)控系統(tǒng)Beacon為用戶提供了豐富的界面,I/O路徑全覆蓋監(jiān)控是它的一個(gè)非常重要的特性。除此之外,它還為用戶展示了不同粒度和級(jí)別的I/O數(shù)據(jù)和歷史信息,用戶可以細(xì)致地觀察自己應(yīng)用程序的I/O行為。Beacon這套監(jiān)控系統(tǒng)從2017年上線至今,現(xiàn)在仍然在不斷迭代以保證更全面、更穩(wěn)定的監(jiān)控功能。下面本文會(huì)對(duì)各個(gè)I/O子系統(tǒng)部分的采樣做具體的闡述。26
本文編號(hào):3224816
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3224816.html
最近更新
教材專著