蛋白質(zhì)組質(zhì)譜大數(shù)據(jù)的并行處理技術(shù)研究
發(fā)布時間:2024-07-07 06:48
近年來,串聯(lián)質(zhì)譜技術(shù)以其高靈敏度和高精度等優(yōu)勢成為了研究蛋白質(zhì)組的關(guān)鍵技術(shù)之一。串聯(lián)質(zhì)譜數(shù)據(jù)承載著蛋白質(zhì)及肽段的信息,對其處理分析不僅是計算蛋白質(zhì)組研究中尤為關(guān)鍵的一步,也是后續(xù)生物蛋白質(zhì)結(jié)構(gòu)功能等分析的基本保障。然而,質(zhì)譜數(shù)據(jù)分析在計算時間與計算規(guī)模上遭受了新的挑戰(zhàn),其主要有以下三個原因:一是隨著質(zhì)譜技術(shù)的高速發(fā)展,質(zhì)譜數(shù)據(jù)集的規(guī)模呈爆炸式的指數(shù)增長,匹配海量的質(zhì)譜數(shù)據(jù)成為了蛋白質(zhì)組學(xué)的一個難題;二是蛋白質(zhì)肽段測序條件變得更加苛刻,如半無限或酶無約束搜索、多個翻譯后修飾等的加入考慮;三是蛋白質(zhì)中央數(shù)據(jù)庫存儲與更新質(zhì)譜數(shù)據(jù)時通常需要對大量的質(zhì)譜數(shù)據(jù)進行二次分析。如何高效、準(zhǔn)確地從海量質(zhì)譜數(shù)據(jù)中解析出肽段序列信息,是當(dāng)前計算蛋白質(zhì)組學(xué)所面臨的最大挑戰(zhàn)。本文致力于研究大規(guī)模質(zhì)譜數(shù)據(jù)在多種高性能計算平臺上的并行處理算法。本文的主要工作和創(chuàng)新點概括如下:(1)提出了一個基于分布式計算框架Hadoop上的從頭測序并行算法�,F(xiàn)有的從頭測序方法均為串行執(zhí)行算法,無法在合理的時間內(nèi)處理大規(guī)模的質(zhì)譜數(shù)據(jù)。而Hadoop是開源的分布式計算框架,已廣泛應(yīng)用于學(xué)術(shù)界和工業(yè)界,其文件系統(tǒng)HDFS在負載均衡方面具...
【文章頁數(shù)】:103 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究現(xiàn)狀與挑戰(zhàn)
1.2 論文的研究內(nèi)容和創(chuàng)新點
1.2.1 研究目標(biāo)
1.2.2 研究內(nèi)容
1.3 本文組織結(jié)構(gòu)
第2章 相關(guān)理論
2.1 基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)研究
2.1.1 串聯(lián)質(zhì)譜技術(shù)
2.1.2 串聯(lián)質(zhì)譜數(shù)據(jù)分析簡介
2.1.3 基于串聯(lián)質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)研究
2.2 高性能計算平臺與技術(shù)
2.2.1 Hadoop
2.2.2 GPU
2.2.3 Intel MIC(Many Integrated Core)
2.2.4 SW26010
2.3 并行編程技術(shù)
2.4 本章小結(jié)
第3章 基于Hadoop分布式計算框架的從頭測序并行算法研究
3.1 引言
3.2 UniNovo算法簡介
3.3 基于Hadoop分布式框架的并行大規(guī)模肽段從頭測序方法
3.3.1 基于Hadoop的從頭測序并行化設(shè)計
3.3.2 基于Hadoop的從頭測序并行化實現(xiàn)
3.4 實驗結(jié)果與性能分析
3.4.1 實驗環(huán)境
3.4.2 實驗設(shè)計與結(jié)果分析
3.5 本章小結(jié)
第4章 基于SW26010的大規(guī)模肽段從頭測序算法研究
4.1 引言
4.2 PepNovo+算法簡介
4.3 基于SW26010架構(gòu)的多層并行從頭測序算法
4.3.1 基于MPE之間的任務(wù)級并行計算
4.3.2 基于CPE之間的線程級并行計算
4.4 并行優(yōu)化措施
4.5 實驗結(jié)果與性能分析
4.5.1 實驗環(huán)境與數(shù)據(jù)集
4.5.2 單節(jié)點性能測試
4.5.3 多節(jié)點性能測試
4.5.4 大數(shù)據(jù)集性能測試
4.6 本章小結(jié)
第5章 基于MIC的大規(guī)模蛋白質(zhì)數(shù)據(jù)庫并行搜索算法研究
5.1 引言
5.2 問題概述
5.2.1 Intel MIC架構(gòu)
5.2.2 SDP質(zhì)譜匹配評分算法
5.3 基于MIC架構(gòu)的兩層并行數(shù)據(jù)庫搜索方法
5.3.1 并行計算設(shè)計
5.3.2 并行優(yōu)化設(shè)計
5.4 實驗結(jié)果與性能分析
5.4.1 實驗環(huán)境與數(shù)據(jù)集
5.4.2 CPU+1MIC性能測試
5.4.3 MIC集群性能測試
5.4.4 大規(guī)模數(shù)據(jù)集性能測試
5.4.5 實驗結(jié)果準(zhǔn)確性分析
5.5 本章小節(jié)
第6章 基于SW26010大規(guī)模蛋白質(zhì)數(shù)據(jù)庫搜索算法研究
6.1 引言
6.2 背景知識
6.2.1 SW26010
6.2.2 質(zhì)譜點積乘算法
6.3 基于SW26010的數(shù)據(jù)庫并行搜索算法
6.3.1 基于MPE之間的任務(wù)級并行計算
6.3.2 基于CPE之間的線程級并行計算
6.4 面向架構(gòu)的性能優(yōu)化方法
6.4.1 內(nèi)存訪問優(yōu)化
6.4.2 雙緩沖技術(shù)
6.4.3 向量化
6.4.4 優(yōu)化總結(jié)
6.5 實驗結(jié)果與性能分析
6.5.1 實驗環(huán)境與數(shù)據(jù)集
6.5.2 SW-Tandem性能分析
6.5.3 實驗結(jié)果準(zhǔn)確性分析
6.6 本章小節(jié)
總結(jié)與展望
參考文獻
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文
附錄B 攻讀學(xué)位期間所參加的科研項目及申請的專利
致謝
本文編號:4003316
【文章頁數(shù)】:103 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究現(xiàn)狀與挑戰(zhàn)
1.2 論文的研究內(nèi)容和創(chuàng)新點
1.2.1 研究目標(biāo)
1.2.2 研究內(nèi)容
1.3 本文組織結(jié)構(gòu)
第2章 相關(guān)理論
2.1 基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)研究
2.1.1 串聯(lián)質(zhì)譜技術(shù)
2.1.2 串聯(lián)質(zhì)譜數(shù)據(jù)分析簡介
2.1.3 基于串聯(lián)質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)研究
2.2 高性能計算平臺與技術(shù)
2.2.1 Hadoop
2.2.2 GPU
2.2.3 Intel MIC(Many Integrated Core)
2.2.4 SW26010
2.3 并行編程技術(shù)
2.4 本章小結(jié)
第3章 基于Hadoop分布式計算框架的從頭測序并行算法研究
3.1 引言
3.2 UniNovo算法簡介
3.3 基于Hadoop分布式框架的并行大規(guī)模肽段從頭測序方法
3.3.1 基于Hadoop的從頭測序并行化設(shè)計
3.3.2 基于Hadoop的從頭測序并行化實現(xiàn)
3.4 實驗結(jié)果與性能分析
3.4.1 實驗環(huán)境
3.4.2 實驗設(shè)計與結(jié)果分析
3.5 本章小結(jié)
第4章 基于SW26010的大規(guī)模肽段從頭測序算法研究
4.1 引言
4.2 PepNovo+算法簡介
4.3 基于SW26010架構(gòu)的多層并行從頭測序算法
4.3.1 基于MPE之間的任務(wù)級并行計算
4.3.2 基于CPE之間的線程級并行計算
4.4 并行優(yōu)化措施
4.5 實驗結(jié)果與性能分析
4.5.1 實驗環(huán)境與數(shù)據(jù)集
4.5.2 單節(jié)點性能測試
4.5.3 多節(jié)點性能測試
4.5.4 大數(shù)據(jù)集性能測試
4.6 本章小結(jié)
第5章 基于MIC的大規(guī)模蛋白質(zhì)數(shù)據(jù)庫并行搜索算法研究
5.1 引言
5.2 問題概述
5.2.1 Intel MIC架構(gòu)
5.2.2 SDP質(zhì)譜匹配評分算法
5.3 基于MIC架構(gòu)的兩層并行數(shù)據(jù)庫搜索方法
5.3.1 并行計算設(shè)計
5.3.2 并行優(yōu)化設(shè)計
5.4 實驗結(jié)果與性能分析
5.4.1 實驗環(huán)境與數(shù)據(jù)集
5.4.2 CPU+1MIC性能測試
5.4.3 MIC集群性能測試
5.4.4 大規(guī)模數(shù)據(jù)集性能測試
5.4.5 實驗結(jié)果準(zhǔn)確性分析
5.5 本章小節(jié)
第6章 基于SW26010大規(guī)模蛋白質(zhì)數(shù)據(jù)庫搜索算法研究
6.1 引言
6.2 背景知識
6.2.1 SW26010
6.2.2 質(zhì)譜點積乘算法
6.3 基于SW26010的數(shù)據(jù)庫并行搜索算法
6.3.1 基于MPE之間的任務(wù)級并行計算
6.3.2 基于CPE之間的線程級并行計算
6.4 面向架構(gòu)的性能優(yōu)化方法
6.4.1 內(nèi)存訪問優(yōu)化
6.4.2 雙緩沖技術(shù)
6.4.3 向量化
6.4.4 優(yōu)化總結(jié)
6.5 實驗結(jié)果與性能分析
6.5.1 實驗環(huán)境與數(shù)據(jù)集
6.5.2 SW-Tandem性能分析
6.5.3 實驗結(jié)果準(zhǔn)確性分析
6.6 本章小節(jié)
總結(jié)與展望
參考文獻
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文
附錄B 攻讀學(xué)位期間所參加的科研項目及申請的專利
致謝
本文編號:4003316
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/4003316.html
最近更新
教材專著