高通量基因組數(shù)據(jù)的無損壓縮方法研究
發(fā)布時間:2021-06-25 10:10
隨著高通量基因組測序技術(shù)的迅猛發(fā)展及測序成本的巨幅下降,基因組測序數(shù)據(jù)及其拼接而成的基因組序列數(shù)據(jù)呈指數(shù)級增長。如何有效存儲和傳輸這些海量高通量基因組數(shù)據(jù),是醫(yī)學(xué)、生物信息學(xué)領(lǐng)域迫切需要解決的問題;蚪M數(shù)據(jù)壓縮技術(shù)成為解決該問題的重要途徑,通過高效的壓縮方式,減少基因組數(shù)據(jù)的存儲空間和傳輸成本。然而,受到基因組數(shù)據(jù)自身的高度復(fù)雜性、測序數(shù)據(jù)的高通量性以及現(xiàn)有基因組測序技術(shù)的局限性等因素的影響,為如何有效的、快速壓縮基因組數(shù)據(jù)帶來了更加巨大的挑戰(zhàn)。本文圍繞著基因組序列數(shù)據(jù)和基因組測序數(shù)據(jù)的無損壓縮方法開展研究,主要貢獻包括以下幾方面:第一,針對目前基因組序列數(shù)據(jù)無損壓縮方法利用固定上下文階數(shù)進行堿基概率預(yù)測的不足,深入分析挖掘了一階信息熵與基因組序列壓縮結(jié)果之間的相關(guān)性,提出了基于信息熵的基因組序列數(shù)據(jù)無損壓縮方法。通過計算基因組序列一階信息熵,動態(tài)確定基因組序列壓縮有限上下文模型參數(shù)。使用現(xiàn)有的5408條細菌基因組序列數(shù)據(jù)進行無損壓縮實驗,驗證了方法的有效性。第二,現(xiàn)有基因組序列數(shù)據(jù)無損壓縮方法在預(yù)測堿基概率時只用到了部分堿基信息,導(dǎo)致預(yù)測效果不理想。針對此問題,深入研究了基于深度學(xué)...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:123 頁
【學(xué)位級別】:博士
【部分圖文】:
DNA/RNA雙螺旋結(jié)構(gòu)及堿基[8]
圖 1-2 基因組測序數(shù)據(jù)在 SRA 數(shù)據(jù)庫中的增長Fig.1-2 The growth of genome sequencing data in SRA database了自人類基因組計劃完成后,人類基因組測序的成本曲線圖。從圖中可以看類基因組測序成本在不斷的降低。特別是從高通量基因組測序技術(shù)自 2005 年開始,測序成本的下降速度也超過了摩爾定律。到目前為止,完成單人全基
圖 1-3 基因組測序成本的不斷降低[10]Fig.1-3 Decreasing cost of per genome sequencing取方法。采用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,循環(huán)神經(jīng)網(wǎng)絡(luò)提取全局特更加準確地預(yù)測基因組序列中壓縮當前堿基的概率,這極大地發(fā)展預(yù)測的生物學(xué)和生物信息學(xué)理論。
本文編號:3249018
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:123 頁
【學(xué)位級別】:博士
【部分圖文】:
DNA/RNA雙螺旋結(jié)構(gòu)及堿基[8]
圖 1-2 基因組測序數(shù)據(jù)在 SRA 數(shù)據(jù)庫中的增長Fig.1-2 The growth of genome sequencing data in SRA database了自人類基因組計劃完成后,人類基因組測序的成本曲線圖。從圖中可以看類基因組測序成本在不斷的降低。特別是從高通量基因組測序技術(shù)自 2005 年開始,測序成本的下降速度也超過了摩爾定律。到目前為止,完成單人全基
圖 1-3 基因組測序成本的不斷降低[10]Fig.1-3 Decreasing cost of per genome sequencing取方法。采用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,循環(huán)神經(jīng)網(wǎng)絡(luò)提取全局特更加準確地預(yù)測基因組序列中壓縮當前堿基的概率,這極大地發(fā)展預(yù)測的生物學(xué)和生物信息學(xué)理論。
本文編號:3249018
本文鏈接:http://sikaile.net/projectlw/swxlw/3249018.html
最近更新
教材專著