高性能計算機I/O性能優(yōu)化關(guān)鍵技術(shù)研究
發(fā)布時間:2022-10-18 18:57
目前超級計算機的計算性能正從Pflops量級向Eflops量級發(fā)展,在超級計算機系統(tǒng)結(jié)構(gòu)中,計算子系統(tǒng)和存儲子系統(tǒng)分離,計算子系統(tǒng)與存儲子系統(tǒng)之間增加了I/O轉(zhuǎn)發(fā)層以應(yīng)對日益增長的計算結(jié)點規(guī)模。高性能計算應(yīng)用不斷增長的運行規(guī)模和日趨復(fù)雜的數(shù)據(jù)處理模式給超級計算機存儲系統(tǒng)提出了嚴(yán)峻挑戰(zhàn),目前基于硬盤構(gòu)建的超級計算機存儲系統(tǒng)已經(jīng)無法滿足來自超級計算機系統(tǒng)和高性能計算應(yīng)用的I/O性能要求。以SSD為代表的新型存儲器技術(shù)的快速發(fā)展為解決超級計算機存儲系統(tǒng)面臨的技術(shù)挑戰(zhàn)帶來了新的機會,同時,超級計算機也面臨著如何高效地組織管理計算結(jié)點端的SSD為數(shù)據(jù)訪問服務(wù)的技術(shù)難題。限于經(jīng)費原因,目前只能在超級計算機的部分計算結(jié)點中安裝SSD。本文基于用戶的并行I/O特性,提出將部分計算結(jié)點上配置的SSD組織成面向作業(yè)的臨時全局緩存系統(tǒng)(WatCache),它在作業(yè)啟動時根據(jù)作業(yè)的不同I/O需求,使用不同數(shù)量的含有SSD的計算結(jié)點構(gòu)建成可供該作業(yè)所有進程共享訪問的全局緩存空間,最后在作業(yè)結(jié)束時退出。利用本文提出的數(shù)據(jù)布局機制和元數(shù)據(jù)緩存機制,WatCache可以在靠近計算結(jié)點的位置為應(yīng)用提供低延遲、高帶寬的I...
【文章頁數(shù)】:157 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 超級計算機的現(xiàn)狀和發(fā)展趨勢
1.1.2 高性能計算應(yīng)用的I/O需求分析
1.2 超級計算機I/O系統(tǒng)的現(xiàn)狀和挑戰(zhàn)
1.2.1 超級計算機I/O系統(tǒng)的現(xiàn)狀
1.2.2 超級計算機I/O系統(tǒng)面臨的挑戰(zhàn)性問題
1.3 本文工作
1.3.1 基于應(yīng)用程序I/O負(fù)載感知的臨時性客戶端Flash緩存系統(tǒng)
1.3.2 面向空間突發(fā)I/O特性的計算結(jié)點分配策略
1.3.3 層次式I/O系統(tǒng)中的跨層次I/O請求協(xié)調(diào)控制策略
1.4 論文組織
第二章 相關(guān)研究
2.1 基于新型存儲器的客戶端存儲層次
2.1.1 臨時存儲層次
2.1.2 基于文件系統(tǒng)的管理方式
2.1.3 基于客戶端緩存系統(tǒng)的管理方式
2.2 I/O競爭緩解技術(shù)
2.2.1 I/O競爭的原因分析
2.2.2 存儲服務(wù)器端的I/O競爭緩解技術(shù)
2.2.3 客戶端的I/O競爭緩解技術(shù)
2.3 I/O結(jié)點負(fù)載均衡技術(shù)
第三章 基于應(yīng)用程序I/O負(fù)載感知的臨時性客戶端Flash緩存系統(tǒng)
3.1 引言
3.2 基于應(yīng)用程序I/O負(fù)載感知的臨時性緩存系統(tǒng)
3.2.1 緩存系統(tǒng)的臨時性組織方式
3.2.2 基于I/O負(fù)載感知的計算結(jié)點分配策略
3.3 WatCache系統(tǒng)設(shè)計
3.3.1 WatCache的基本組成
3.3.2 分布式元數(shù)據(jù)管理機制
3.3.3 分布式鎖管理機制
3.4 數(shù)據(jù)布局策略
3.4.1 Rank0 I/O特性分析
3.4.2 緩存粒度的選取
3.4.3 基于I/O大小感知的數(shù)據(jù)布局策略
3.5 元數(shù)據(jù)緩存機制
3.5.1 小I/O特性分析
3.5.2 元數(shù)據(jù)緩存機制
3.5.3 與數(shù)據(jù)布局策略的協(xié)同控制
3.6 性能測試
3.6.1 實驗環(huán)境
3.6.2 整體性能
3.6.3 元數(shù)據(jù)服務(wù)的性能開銷
3.6.4 小I/O性能
3.6.5 Rank0 I/O與 all rank I/O性能
3.6.6 BTIO測試程序
3.6.7 WRF工作流
3.6.8 不同快速存儲設(shè)備比例下WatCache的性能
3.7 本章小節(jié)
第四章 面向空間突發(fā)I/O特性的計算結(jié)點分配策略
4.1 引言
4.2 作業(yè)日志和I/O trace的獲取方式
4.3 空間突發(fā)I/O特性分析
4.3.1 分布的不均勻性度量
4.3.2 作業(yè)I/O流量在多個進程中不均勻分布
4.3.3 作業(yè)分配結(jié)點在多個機柜中不均勻分布
4.3.4 天河一號的空間突發(fā)I/O特性
4.4 應(yīng)用程序I/O特性感知的計算結(jié)點分配策略
4.4.1 結(jié)點分配準(zhǔn)則
4.4.2 可優(yōu)化的作業(yè)類型分析
4.4.3 應(yīng)用程序I/O特性一致性分析
4.4.4 基于Slurm插件的實現(xiàn)
4.5 性能測試
4.5.1 實驗環(huán)境
4.5.2 基準(zhǔn)測試程序
4.5.3 抽道集應(yīng)用
4.5.4 WRF應(yīng)用
4.6 本章小節(jié)
第五章 層次式I/O系統(tǒng)中的跨層次I/O請求協(xié)調(diào)控制策略
5.1 引言
5.2 研究動機
5.2.1 改善數(shù)據(jù)局部性
5.2.2 均衡I/O結(jié)點負(fù)載
5.2.3 緩解I/O競爭
5.3 計算結(jié)點與I/O結(jié)點間的I/O請求協(xié)調(diào)控制策略
5.3.1 基于內(nèi)容的I/O轉(zhuǎn)發(fā)模式
5.3.2 作業(yè)級I/O結(jié)點映射機制
5.3.3 基于IOFSL的實現(xiàn)方案
5.4 I/O結(jié)點與存儲結(jié)點間的I/O請求協(xié)調(diào)控制策略
5.4.1 數(shù)據(jù)條帶的協(xié)調(diào)分布方法
5.4.2 結(jié)合預(yù)取優(yōu)勢的數(shù)據(jù)條帶協(xié)調(diào)分布方法
5.4.3 超大規(guī)模作業(yè)的數(shù)據(jù)條帶協(xié)調(diào)分布方法
5.5 性能分析與測試
5.5.1 實驗環(huán)境
5.5.2 I/O并發(fā)度分析
5.5.3 基準(zhǔn)測試程序
5.5.4 BTIO測試程序
5.5.5 抽道集應(yīng)用
5.5.6 WRF工作流應(yīng)用
5.6 本章小節(jié)
第六章 結(jié)論與展望
6.1 工作總結(jié)
6.2 研究展望
致謝
參考文獻
作者在學(xué)期間取得的學(xué)術(shù)成果
【參考文獻】:
期刊論文
[1]ONFS:面向高性能計算的基于內(nèi)存、固態(tài)硬盤和磁盤的層次式混合文件系統(tǒng)(英文)[J]. Xin LIU,Yu-tong LU,Jie YU,Peng-fei WANG,Jie-ting WU,Ying LU. Frontiers of Information Technology & Electronic Engineering. 2017(12)
[2]Storage wall for exascale supercomputing[J]. Wei HU,Guang-ming LIU,Qiong LI,Yan-huang JIANG,Gui-lin CAI. Frontiers of Information Technology & Electronic Engineering. 2016(11)
[3]新型高性能計算系統(tǒng)與技術(shù)[J]. 廖湘科,肖儂. 中國科學(xué):信息科學(xué). 2016(09)
[4]Sunway Taihu Light supercomputer makes its appearance[J]. Jack Dongarra. National Science Review. 2016(03)
[5]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
[6]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 楊學(xué)軍,廖湘科,盧凱,胡慶豐,宋君強,蘇金樹. Journal of Computer Science & Technology. 2011(03)
本文編號:3692871
【文章頁數(shù)】:157 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 超級計算機的現(xiàn)狀和發(fā)展趨勢
1.1.2 高性能計算應(yīng)用的I/O需求分析
1.2 超級計算機I/O系統(tǒng)的現(xiàn)狀和挑戰(zhàn)
1.2.1 超級計算機I/O系統(tǒng)的現(xiàn)狀
1.2.2 超級計算機I/O系統(tǒng)面臨的挑戰(zhàn)性問題
1.3 本文工作
1.3.1 基于應(yīng)用程序I/O負(fù)載感知的臨時性客戶端Flash緩存系統(tǒng)
1.3.2 面向空間突發(fā)I/O特性的計算結(jié)點分配策略
1.3.3 層次式I/O系統(tǒng)中的跨層次I/O請求協(xié)調(diào)控制策略
1.4 論文組織
第二章 相關(guān)研究
2.1 基于新型存儲器的客戶端存儲層次
2.1.1 臨時存儲層次
2.1.2 基于文件系統(tǒng)的管理方式
2.1.3 基于客戶端緩存系統(tǒng)的管理方式
2.2 I/O競爭緩解技術(shù)
2.2.1 I/O競爭的原因分析
2.2.2 存儲服務(wù)器端的I/O競爭緩解技術(shù)
2.2.3 客戶端的I/O競爭緩解技術(shù)
2.3 I/O結(jié)點負(fù)載均衡技術(shù)
第三章 基于應(yīng)用程序I/O負(fù)載感知的臨時性客戶端Flash緩存系統(tǒng)
3.1 引言
3.2 基于應(yīng)用程序I/O負(fù)載感知的臨時性緩存系統(tǒng)
3.2.1 緩存系統(tǒng)的臨時性組織方式
3.2.2 基于I/O負(fù)載感知的計算結(jié)點分配策略
3.3 WatCache系統(tǒng)設(shè)計
3.3.1 WatCache的基本組成
3.3.2 分布式元數(shù)據(jù)管理機制
3.3.3 分布式鎖管理機制
3.4 數(shù)據(jù)布局策略
3.4.1 Rank0 I/O特性分析
3.4.2 緩存粒度的選取
3.4.3 基于I/O大小感知的數(shù)據(jù)布局策略
3.5 元數(shù)據(jù)緩存機制
3.5.1 小I/O特性分析
3.5.2 元數(shù)據(jù)緩存機制
3.5.3 與數(shù)據(jù)布局策略的協(xié)同控制
3.6 性能測試
3.6.1 實驗環(huán)境
3.6.2 整體性能
3.6.3 元數(shù)據(jù)服務(wù)的性能開銷
3.6.4 小I/O性能
3.6.5 Rank0 I/O與 all rank I/O性能
3.6.6 BTIO測試程序
3.6.7 WRF工作流
3.6.8 不同快速存儲設(shè)備比例下WatCache的性能
3.7 本章小節(jié)
第四章 面向空間突發(fā)I/O特性的計算結(jié)點分配策略
4.1 引言
4.2 作業(yè)日志和I/O trace的獲取方式
4.3 空間突發(fā)I/O特性分析
4.3.1 分布的不均勻性度量
4.3.2 作業(yè)I/O流量在多個進程中不均勻分布
4.3.3 作業(yè)分配結(jié)點在多個機柜中不均勻分布
4.3.4 天河一號的空間突發(fā)I/O特性
4.4 應(yīng)用程序I/O特性感知的計算結(jié)點分配策略
4.4.1 結(jié)點分配準(zhǔn)則
4.4.2 可優(yōu)化的作業(yè)類型分析
4.4.3 應(yīng)用程序I/O特性一致性分析
4.4.4 基于Slurm插件的實現(xiàn)
4.5 性能測試
4.5.1 實驗環(huán)境
4.5.2 基準(zhǔn)測試程序
4.5.3 抽道集應(yīng)用
4.5.4 WRF應(yīng)用
4.6 本章小節(jié)
第五章 層次式I/O系統(tǒng)中的跨層次I/O請求協(xié)調(diào)控制策略
5.1 引言
5.2 研究動機
5.2.1 改善數(shù)據(jù)局部性
5.2.2 均衡I/O結(jié)點負(fù)載
5.2.3 緩解I/O競爭
5.3 計算結(jié)點與I/O結(jié)點間的I/O請求協(xié)調(diào)控制策略
5.3.1 基于內(nèi)容的I/O轉(zhuǎn)發(fā)模式
5.3.2 作業(yè)級I/O結(jié)點映射機制
5.3.3 基于IOFSL的實現(xiàn)方案
5.4 I/O結(jié)點與存儲結(jié)點間的I/O請求協(xié)調(diào)控制策略
5.4.1 數(shù)據(jù)條帶的協(xié)調(diào)分布方法
5.4.2 結(jié)合預(yù)取優(yōu)勢的數(shù)據(jù)條帶協(xié)調(diào)分布方法
5.4.3 超大規(guī)模作業(yè)的數(shù)據(jù)條帶協(xié)調(diào)分布方法
5.5 性能分析與測試
5.5.1 實驗環(huán)境
5.5.2 I/O并發(fā)度分析
5.5.3 基準(zhǔn)測試程序
5.5.4 BTIO測試程序
5.5.5 抽道集應(yīng)用
5.5.6 WRF工作流應(yīng)用
5.6 本章小節(jié)
第六章 結(jié)論與展望
6.1 工作總結(jié)
6.2 研究展望
致謝
參考文獻
作者在學(xué)期間取得的學(xué)術(shù)成果
【參考文獻】:
期刊論文
[1]ONFS:面向高性能計算的基于內(nèi)存、固態(tài)硬盤和磁盤的層次式混合文件系統(tǒng)(英文)[J]. Xin LIU,Yu-tong LU,Jie YU,Peng-fei WANG,Jie-ting WU,Ying LU. Frontiers of Information Technology & Electronic Engineering. 2017(12)
[2]Storage wall for exascale supercomputing[J]. Wei HU,Guang-ming LIU,Qiong LI,Yan-huang JIANG,Gui-lin CAI. Frontiers of Information Technology & Electronic Engineering. 2016(11)
[3]新型高性能計算系統(tǒng)與技術(shù)[J]. 廖湘科,肖儂. 中國科學(xué):信息科學(xué). 2016(09)
[4]Sunway Taihu Light supercomputer makes its appearance[J]. Jack Dongarra. National Science Review. 2016(03)
[5]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
[6]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 楊學(xué)軍,廖湘科,盧凱,胡慶豐,宋君強,蘇金樹. Journal of Computer Science & Technology. 2011(03)
本文編號:3692871
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3692871.html
最近更新
教材專著