分布式數(shù)據(jù)處理若干關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-08-02 09:23
隨著信息技術(shù)的飛速發(fā)展,各類信息源和數(shù)據(jù)在當(dāng)今世界的各個(gè)領(lǐng)域被廣泛應(yīng)用,人類社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代,但大規(guī)模數(shù)據(jù)的持續(xù)產(chǎn)生,其格式和類型也呈現(xiàn)多樣化趨勢(shì)。如何快速、高效地實(shí)現(xiàn)大數(shù)據(jù)處理已經(jīng)成為當(dāng)前的研究熱點(diǎn)及難點(diǎn)。以分布式數(shù)據(jù)處理為基礎(chǔ),針對(duì)大規(guī)模數(shù)據(jù)分析與處理,本文從四個(gè)方面探索并形成面向新型體系結(jié)構(gòu)的分布式數(shù)據(jù)處理與存儲(chǔ)技術(shù):(1)基于國(guó)產(chǎn)“神威(Sunway)·太湖之光”眾核處理器,本文研究與實(shí)現(xiàn)了一個(gè)分布式數(shù)據(jù)并行計(jì)算框架SunwayMR,可利用分布式服務(wù)器資源,加速數(shù)據(jù)處理與分析;(2)本文提出一種構(gòu)建分布式數(shù)據(jù)并行計(jì)算框架的軟件構(gòu)建技術(shù),用以加快此類軟件開發(fā)進(jìn)程;(3)充分利用RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問)和HTM(Hardware Transaction Memory,硬件事務(wù)內(nèi)存)技術(shù),本文提出一個(gè)可運(yùn)用于分布式環(huán)境的、鍵值對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)RHKV,加速數(shù)據(jù)的“存”和“取”操作,可支撐上層數(shù)據(jù)密集型應(yīng)用計(jì)算;(4)針對(duì)社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施的智慧信息系統(tǒng)建設(shè),本文提出可提供個(gè)性化服務(wù)的分布式數(shù)據(jù)處理與分析解決方案EDAWS...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:154 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題提出的背景及意義
1.2 研究目標(biāo)與幾個(gè)主要研究問題
1.3 課題的研究?jī)?nèi)容和創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
1.5 本章小結(jié)
第二章 研究現(xiàn)狀與相關(guān)技術(shù)
2.1 引言
2.2 分布式數(shù)據(jù)并行計(jì)算框架的研究現(xiàn)狀
2.2.1 高性能計(jì)算機(jī)的發(fā)展
2.2.2 商業(yè)化的計(jì)算加速器正在不斷擴(kuò)展它的應(yīng)用
2.2.3 "神威·太湖之光"并行計(jì)算機(jī)
2.2.4 現(xiàn)今流行的通用分布式數(shù)據(jù)并行計(jì)算框架
2.3 分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建技術(shù)相關(guān)研究
2.3.1 模型驅(qū)動(dòng)工程技術(shù)與分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建
2.3.2 架構(gòu)模型和自適應(yīng)變化
2.4 面向大數(shù)據(jù)應(yīng)用的鍵值對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)技術(shù)
2.4.1 非關(guān)系型NoSQL數(shù)據(jù)存儲(chǔ)
2.4.2 基于RDMA的鍵值對(duì)數(shù)據(jù)存儲(chǔ)管理
2.4.3 客戶端—服務(wù)器端C/S模式
2.4.4 數(shù)據(jù)庫理論
2.5 在分布式環(huán)境下的大數(shù)據(jù)服務(wù)
2.5.1 多領(lǐng)域數(shù)據(jù)分析與知識(shí)挖掘
2.5.2 分布式大數(shù)據(jù)服務(wù)
2.5.3 社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施的數(shù)據(jù)處理
2.6 本章小結(jié)
第三章 SunwayMR:面向神威機(jī)器的分布式數(shù)據(jù)密集型并行計(jì)算框架
3.1 研究背景與研究動(dòng)機(jī):“神威·太湖之光”并行計(jì)算機(jī)的誕生
3.2 SunwayMR框架概述
3.3 SunwayMR系統(tǒng)架構(gòu)詳細(xì)設(shè)計(jì)
3.3.1 分布式內(nèi)存數(shù)據(jù)管理機(jī)制
3.3.2 Pthread編程
3.3.3 任務(wù)、調(diào)度器、執(zhí)行器和框架上下文
3.3.4 數(shù)據(jù)處理機(jī)制
3.3.5 粗細(xì)粒度并行
3.3.6 SunwayMRHelper消息通訊組件
3.3.7 神威體系結(jié)構(gòu)眾核(1 主核+64 從核)并行設(shè)計(jì)
3.4 系統(tǒng)優(yōu)化機(jī)制設(shè)計(jì)
3.5 易用性
3.5.1 層級(jí)軟件架構(gòu)
3.5.2 學(xué)習(xí)案例:Pi值計(jì)算和PageRank算法編程示例
3.6 實(shí)驗(yàn)
3.6.1 實(shí)驗(yàn)設(shè)置
3.6.2 性能評(píng)估
3.6.3 系統(tǒng)優(yōu)化評(píng)估
3.6.4 國(guó)家超算無錫中心國(guó)產(chǎn)眾核平臺(tái)系統(tǒng)運(yùn)行測(cè)試
3.6.5 計(jì)算加速原因分析
3.6.6 SunwayMR特性
3.7 本章小結(jié)
第四章 自適應(yīng)的分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建技術(shù)
4.1 引言
4.2 研究背景與研究動(dòng)機(jī)
4.2.1 分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建的挑戰(zhàn)
4.2.2 領(lǐng)域建模的復(fù)雜性與難度
4.3 自適應(yīng)的軟件構(gòu)建
4.3.1 總體流程
4.3.2 步驟一:參考性的架構(gòu)建模描述
4.3.3 步驟二:集成動(dòng)態(tài)行為分析到架構(gòu)模型
4.3.4 步驟三:架構(gòu)建模自適應(yīng)規(guī)約
4.4 學(xué)習(xí)案例:SunwayMR軟件構(gòu)建實(shí)踐
4.4.1 解決的研究問題RQs
4.4.2 RQ1:軟件構(gòu)建過程
4.4.3 RQ2:自適應(yīng)討論
4.4.4 RQ3:軟件構(gòu)建優(yōu)化
4.4.5 RQ4:軟件構(gòu)建技術(shù)對(duì)比評(píng)估
4.4.6 RQ5:有效性分析
4.5 討論
4.5.1 維護(hù)現(xiàn)今主流的分布式并行計(jì)算框架
4.5.2 評(píng)估正確性與有效性風(fēng)險(xiǎn)
4.6 本章小結(jié)
第五章 RHKV:基于RDMA和 HTM的 Key-Value鍵值對(duì)數(shù)據(jù)存儲(chǔ)管理
5.1 引言
5.2 背景知識(shí)
5.3 RHKV概述
5.4 RHKV詳細(xì)設(shè)計(jì)
5.4.1 RHKV架構(gòu)設(shè)計(jì)
5.4.2 哈希表間無限kick-out循環(huán)問題分析
5.4.3 改進(jìn)型G-Cuckoo哈希數(shù)據(jù)管理模式
5.4.4 RHKV的 RDMA網(wǎng)絡(luò)通信引擎
5.4.5 與哈希表的信息交互
5.4.6 HTM感知的強(qiáng)原子性保障
5.4.7 尋求空閑位置并預(yù)測(cè)G-Cuckoo中數(shù)據(jù)條目的無限kick-out循環(huán)
5.4.8 一致性機(jī)制優(yōu)化
5.4.9 數(shù)據(jù)訪問執(zhí)行協(xié)議
5.5 關(guān)鍵實(shí)現(xiàn)和軟件接口
5.6 分布式C/S模式環(huán)境下的RHKV性能分析
5.6.1 實(shí)驗(yàn)設(shè)置
5.6.2 吞吐量提升和訪問延遲減少情況
5.6.3 與其他基于RDMA的鍵值對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)的性能對(duì)比
5.6.4 負(fù)載偏差的抵抗力
5.6.5 空間擴(kuò)大情況
5.6.6 數(shù)據(jù)一致性機(jī)制評(píng)估
5.7 RHKV數(shù)據(jù)密集型應(yīng)用場(chǎng)景舉例
5.8 本章小結(jié)
第六章 EDAWS:社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施分布式環(huán)境數(shù)據(jù)管理及大數(shù)據(jù)服務(wù)解決方案
6.1 引言
6.2 研究動(dòng)機(jī):社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施建設(shè)舉例
6.3 分布式數(shù)據(jù)集成與融合系統(tǒng)
6.4 服務(wù)器端信息處理管理
6.4.1 原生信息獲取與抽取
6.4.2 信息處理與索引庫構(gòu)建
6.4.3 分布式系統(tǒng)并行索引構(gòu)建
6.4.4 用戶感興趣的大數(shù)據(jù)服務(wù)挖掘
6.4.5 在分布式環(huán)境下處理并發(fā)請(qǐng)求的原理
6.5 大數(shù)據(jù)服務(wù)信息交互
6.5.1 信息交互管理
6.5.2 并發(fā)請(qǐng)求處理與資源請(qǐng)求限制的理論分析
6.6 一些關(guān)鍵實(shí)現(xiàn)細(xì)節(jié)
6.7 真實(shí)場(chǎng)景案例學(xué)習(xí):智慧社區(qū)信息系統(tǒng)建設(shè)
6.8 實(shí)驗(yàn)評(píng)估
6.8.1 原型系統(tǒng)示例
6.8.2 實(shí)驗(yàn)環(huán)境與設(shè)計(jì)
6.8.3 實(shí)驗(yàn)結(jié)果與分析
6.9 本章小結(jié)
第七章 結(jié)論與展望
7.1 研究工作總結(jié)
7.2 未來展望
參考文獻(xiàn)
簡(jiǎn)歷
致謝
攻讀博士學(xué)位期間參加的科研項(xiàng)目
攻讀博士學(xué)位期間學(xué)術(shù)論文等科研成果目錄
本文編號(hào):3317315
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:154 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題提出的背景及意義
1.2 研究目標(biāo)與幾個(gè)主要研究問題
1.3 課題的研究?jī)?nèi)容和創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
1.5 本章小結(jié)
第二章 研究現(xiàn)狀與相關(guān)技術(shù)
2.1 引言
2.2 分布式數(shù)據(jù)并行計(jì)算框架的研究現(xiàn)狀
2.2.1 高性能計(jì)算機(jī)的發(fā)展
2.2.2 商業(yè)化的計(jì)算加速器正在不斷擴(kuò)展它的應(yīng)用
2.2.3 "神威·太湖之光"并行計(jì)算機(jī)
2.2.4 現(xiàn)今流行的通用分布式數(shù)據(jù)并行計(jì)算框架
2.3 分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建技術(shù)相關(guān)研究
2.3.1 模型驅(qū)動(dòng)工程技術(shù)與分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建
2.3.2 架構(gòu)模型和自適應(yīng)變化
2.4 面向大數(shù)據(jù)應(yīng)用的鍵值對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)技術(shù)
2.4.1 非關(guān)系型NoSQL數(shù)據(jù)存儲(chǔ)
2.4.2 基于RDMA的鍵值對(duì)數(shù)據(jù)存儲(chǔ)管理
2.4.3 客戶端—服務(wù)器端C/S模式
2.4.4 數(shù)據(jù)庫理論
2.5 在分布式環(huán)境下的大數(shù)據(jù)服務(wù)
2.5.1 多領(lǐng)域數(shù)據(jù)分析與知識(shí)挖掘
2.5.2 分布式大數(shù)據(jù)服務(wù)
2.5.3 社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施的數(shù)據(jù)處理
2.6 本章小結(jié)
第三章 SunwayMR:面向神威機(jī)器的分布式數(shù)據(jù)密集型并行計(jì)算框架
3.1 研究背景與研究動(dòng)機(jī):“神威·太湖之光”并行計(jì)算機(jī)的誕生
3.2 SunwayMR框架概述
3.3 SunwayMR系統(tǒng)架構(gòu)詳細(xì)設(shè)計(jì)
3.3.1 分布式內(nèi)存數(shù)據(jù)管理機(jī)制
3.3.2 Pthread編程
3.3.3 任務(wù)、調(diào)度器、執(zhí)行器和框架上下文
3.3.4 數(shù)據(jù)處理機(jī)制
3.3.5 粗細(xì)粒度并行
3.3.6 SunwayMRHelper消息通訊組件
3.3.7 神威體系結(jié)構(gòu)眾核(1 主核+64 從核)并行設(shè)計(jì)
3.4 系統(tǒng)優(yōu)化機(jī)制設(shè)計(jì)
3.5 易用性
3.5.1 層級(jí)軟件架構(gòu)
3.5.2 學(xué)習(xí)案例:Pi值計(jì)算和PageRank算法編程示例
3.6 實(shí)驗(yàn)
3.6.1 實(shí)驗(yàn)設(shè)置
3.6.2 性能評(píng)估
3.6.3 系統(tǒng)優(yōu)化評(píng)估
3.6.4 國(guó)家超算無錫中心國(guó)產(chǎn)眾核平臺(tái)系統(tǒng)運(yùn)行測(cè)試
3.6.5 計(jì)算加速原因分析
3.6.6 SunwayMR特性
3.7 本章小結(jié)
第四章 自適應(yīng)的分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建技術(shù)
4.1 引言
4.2 研究背景與研究動(dòng)機(jī)
4.2.1 分布式數(shù)據(jù)并行計(jì)算框架軟件構(gòu)建的挑戰(zhàn)
4.2.2 領(lǐng)域建模的復(fù)雜性與難度
4.3 自適應(yīng)的軟件構(gòu)建
4.3.1 總體流程
4.3.2 步驟一:參考性的架構(gòu)建模描述
4.3.3 步驟二:集成動(dòng)態(tài)行為分析到架構(gòu)模型
4.3.4 步驟三:架構(gòu)建模自適應(yīng)規(guī)約
4.4 學(xué)習(xí)案例:SunwayMR軟件構(gòu)建實(shí)踐
4.4.1 解決的研究問題RQs
4.4.2 RQ1:軟件構(gòu)建過程
4.4.3 RQ2:自適應(yīng)討論
4.4.4 RQ3:軟件構(gòu)建優(yōu)化
4.4.5 RQ4:軟件構(gòu)建技術(shù)對(duì)比評(píng)估
4.4.6 RQ5:有效性分析
4.5 討論
4.5.1 維護(hù)現(xiàn)今主流的分布式并行計(jì)算框架
4.5.2 評(píng)估正確性與有效性風(fēng)險(xiǎn)
4.6 本章小結(jié)
第五章 RHKV:基于RDMA和 HTM的 Key-Value鍵值對(duì)數(shù)據(jù)存儲(chǔ)管理
5.1 引言
5.2 背景知識(shí)
5.3 RHKV概述
5.4 RHKV詳細(xì)設(shè)計(jì)
5.4.1 RHKV架構(gòu)設(shè)計(jì)
5.4.2 哈希表間無限kick-out循環(huán)問題分析
5.4.3 改進(jìn)型G-Cuckoo哈希數(shù)據(jù)管理模式
5.4.4 RHKV的 RDMA網(wǎng)絡(luò)通信引擎
5.4.5 與哈希表的信息交互
5.4.6 HTM感知的強(qiáng)原子性保障
5.4.7 尋求空閑位置并預(yù)測(cè)G-Cuckoo中數(shù)據(jù)條目的無限kick-out循環(huán)
5.4.8 一致性機(jī)制優(yōu)化
5.4.9 數(shù)據(jù)訪問執(zhí)行協(xié)議
5.5 關(guān)鍵實(shí)現(xiàn)和軟件接口
5.6 分布式C/S模式環(huán)境下的RHKV性能分析
5.6.1 實(shí)驗(yàn)設(shè)置
5.6.2 吞吐量提升和訪問延遲減少情況
5.6.3 與其他基于RDMA的鍵值對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)的性能對(duì)比
5.6.4 負(fù)載偏差的抵抗力
5.6.5 空間擴(kuò)大情況
5.6.6 數(shù)據(jù)一致性機(jī)制評(píng)估
5.7 RHKV數(shù)據(jù)密集型應(yīng)用場(chǎng)景舉例
5.8 本章小結(jié)
第六章 EDAWS:社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施分布式環(huán)境數(shù)據(jù)管理及大數(shù)據(jù)服務(wù)解決方案
6.1 引言
6.2 研究動(dòng)機(jī):社會(huì)關(guān)鍵信息基礎(chǔ)設(shè)施建設(shè)舉例
6.3 分布式數(shù)據(jù)集成與融合系統(tǒng)
6.4 服務(wù)器端信息處理管理
6.4.1 原生信息獲取與抽取
6.4.2 信息處理與索引庫構(gòu)建
6.4.3 分布式系統(tǒng)并行索引構(gòu)建
6.4.4 用戶感興趣的大數(shù)據(jù)服務(wù)挖掘
6.4.5 在分布式環(huán)境下處理并發(fā)請(qǐng)求的原理
6.5 大數(shù)據(jù)服務(wù)信息交互
6.5.1 信息交互管理
6.5.2 并發(fā)請(qǐng)求處理與資源請(qǐng)求限制的理論分析
6.6 一些關(guān)鍵實(shí)現(xiàn)細(xì)節(jié)
6.7 真實(shí)場(chǎng)景案例學(xué)習(xí):智慧社區(qū)信息系統(tǒng)建設(shè)
6.8 實(shí)驗(yàn)評(píng)估
6.8.1 原型系統(tǒng)示例
6.8.2 實(shí)驗(yàn)環(huán)境與設(shè)計(jì)
6.8.3 實(shí)驗(yàn)結(jié)果與分析
6.9 本章小結(jié)
第七章 結(jié)論與展望
7.1 研究工作總結(jié)
7.2 未來展望
參考文獻(xiàn)
簡(jiǎn)歷
致謝
攻讀博士學(xué)位期間參加的科研項(xiàng)目
攻讀博士學(xué)位期間學(xué)術(shù)論文等科研成果目錄
本文編號(hào):3317315
本文鏈接:http://sikaile.net/guanlilunwen/shequguanli/3317315.html
最近更新
教材專著