三代重測序DNA數(shù)據(jù)壓縮算法研究
發(fā)布時間:2021-03-29 19:58
測序技術(shù)從一代Sanger測序,經(jīng)歷二代測序(Next-generation Sequencing,NGS),發(fā)展到當前已經(jīng)進入三代測序(Third-generation Sequencing,TGS)時代。現(xiàn)如今伴隨著生物信息學研究的深入,三代測序技術(shù)已經(jīng)超越二代測序技術(shù)成為主流的研究方向并且促進了生物信息技術(shù)的發(fā)展。但是三代測序的特點決定它將會帶來許多新的挑戰(zhàn),測序生成序列與數(shù)據(jù)庫存儲空間不匹配,數(shù)據(jù)增長速度與計算機容量增長不匹配就是現(xiàn)如今急需解決的難題。為應(yīng)對測序數(shù)據(jù)的高速增長,相較于增加存儲容量和減少數(shù)據(jù)生成的方案,針對測序生成的短讀數(shù)據(jù)進行壓縮是一個行之有效的方法。通過分析現(xiàn)有的主流二代壓縮算法,本文提出專門針對三代重測序數(shù)據(jù)的壓縮算法,在上述算法基礎(chǔ)上改進解壓縮算法實現(xiàn)局部解壓縮技術(shù),并創(chuàng)新性地設(shè)計插入壓縮算法。論文的主要內(nèi)容包括:(1)探討了測序技術(shù)的發(fā)展歷程,對比二代和三代測序技術(shù)及其產(chǎn)生數(shù)據(jù)的特點,分析主流的測序數(shù)據(jù)保存格式,深入研究基因測序數(shù)據(jù)的結(jié)構(gòu)和針對生物數(shù)據(jù)的壓縮算法,這為接下來的算法設(shè)計打下基礎(chǔ)。(2)設(shè)計出針對三代重測序數(shù)據(jù)的壓縮框架LYZip,其中詳述了...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
應(yīng)用二代和三代測序技術(shù)文章統(tǒng)計
哈爾濱工業(yè)大學工程碩士學位論文-4-增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀。但是長遠上看,存儲容量的增長速度,遠低于數(shù)據(jù)的產(chǎn)生速度,并且隨著時間的推移兩者的差距將會逐漸變大。生物數(shù)據(jù)量大和高速的特點決定增大存儲容量,擴大帶寬的方案只能是暫時緩解當前數(shù)據(jù)量大的問題,并不能從根本上解決數(shù)據(jù)高速增長問題,所以并不可行。20世界末期,人類花費高達30億美元,用時10年才完成人類基因組計劃,同時成功完成了人類全基因組圖譜的制作。如今,一個普通人只需要花費上千美元,用時不到一天就可以從世界上任意一家專業(yè)測序公司完成個人的基因解析[9]。據(jù)統(tǒng)計,低廉的測序成本使得測序數(shù)據(jù)增加的速度進一步加快,Kryder定律[11]所定義的硬盤增長速度已經(jīng)完全落后于數(shù)據(jù)增長速度,所以增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀,但是長遠上看,存儲容量增長速度遠低于數(shù)據(jù)的產(chǎn)生速度,不能夠匹配生物數(shù)據(jù)量大和高速的特點。圖1-2展示了截止到2019年末基因測序成本的變化情況,圖片數(shù)據(jù)源自http://www.genome.gov/sequencingcosts/。圖1-2測序成本變化Fig.1-2Changesingenomesequencingcosts生物大數(shù)據(jù)多樣性和價值高的特點決定,舍棄測序數(shù)據(jù)的方案是不可行的。生物數(shù)據(jù)多樣化是指由于測序儀器繁多,不同測序儀器得到的測序數(shù)據(jù),數(shù)據(jù)的格式有一定的差異性,導致處理得到的結(jié)果也是千差萬別。生物大數(shù)據(jù)價值高則是指數(shù)據(jù)內(nèi)部包含很多待挖掘有價值的信息。這兩點決定研究過程中不能
哈爾濱工業(yè)大學工程碩士學位論文-5-夠隨意舍棄這些數(shù)據(jù)。在生物學中,基因是染色體上具有控制生物性狀的DNA片段,該物質(zhì)由最基本的脫氧核糖核苷酸組成。測序過程本質(zhì)上是去檢測核苷酸上堿基的組成,從而得知堿基排列和基因的組成。DNA是由雙鏈組成,相互結(jié)合形成螺旋形狀,而RNA則是由單鏈組成同樣也是呈現(xiàn)螺旋形狀。DNA由脫氧核苷酸組成,其中堿基不同可分為4類,分別為{A,T,C,G}。而RNA則是由核糖核苷酸組成,其中堿基則是分為{A,U,C,G},DNA和RNA的物理模型如圖1-3所示。圖1-3DNA與RNA結(jié)構(gòu)和化學組成Fig.1-3StructureandchemicalcompositionofDNAandRNADNA轉(zhuǎn)錄為RNA,進而翻譯為蛋白質(zhì)的過程,稱為基因的表達。{A,T,C,G}不同的排列順序形成了不同的基因,不同的基因表達成為了不同的性狀。但是并非所有的DNA片段都能夠表達為具體性狀,其中DNA片段被劃分為內(nèi)含子和外顯子。只有外顯子才能夠通過基因的表達過程展示為具體性狀。內(nèi)含子與基因的調(diào)控相關(guān),但是其更為深入的作用還未被探究清楚。目前的生物信息學對于基因的了解還是相對有限,加之性狀表達的復雜性,很難去定義一段序列完全沒有價值。所以對于任意一段序列,尤其是不可再生樣本產(chǎn)生的序列,比如說癌癥腫瘤,滅絕生物,特殊疾病這些測序結(jié)果都不可能再生,需要進行保存而不應(yīng)該簡單的按照當前的判斷價值標準進行舍棄。相較于上述兩種方案,壓縮是更具備可行性和潛力的。首先它完美的契合了生物大數(shù)據(jù)時代,能夠極好的匹配數(shù)據(jù)量大,增長速度快的特點,并且將測
【參考文獻】:
期刊論文
[1]三代測序技術(shù)及其應(yīng)用研究進展[J]. 馬麗娜,楊進波,丁逸菲,李穎康. 中國畜牧獸醫(yī). 2019(08)
[2]基因組測序技術(shù)及其應(yīng)用研究進展[J]. 李國治,鄧衛(wèi)東. 安徽農(nóng)業(yè)科學. 2018(22)
[3]Oxford Nanopore MinION Sequencing and Genome Assembly[J]. Hengyun Lu,Francesca Giordano,Zemin Ning. Genomics,Proteomics & Bioinformatics. 2016(05)
[4]DNA序列數(shù)據(jù)壓縮技術(shù)綜述[J]. 紀震,周家銳,姜來,Q.H.Wu. 電子學報. 2010(05)
碩士論文
[1]基于自索引結(jié)構(gòu)的高通量基因組重測序數(shù)據(jù)壓縮算法[D]. 榮河江.哈爾濱工業(yè)大學 2018
本文編號:3108107
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
應(yīng)用二代和三代測序技術(shù)文章統(tǒng)計
哈爾濱工業(yè)大學工程碩士學位論文-4-增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀。但是長遠上看,存儲容量的增長速度,遠低于數(shù)據(jù)的產(chǎn)生速度,并且隨著時間的推移兩者的差距將會逐漸變大。生物數(shù)據(jù)量大和高速的特點決定增大存儲容量,擴大帶寬的方案只能是暫時緩解當前數(shù)據(jù)量大的問題,并不能從根本上解決數(shù)據(jù)高速增長問題,所以并不可行。20世界末期,人類花費高達30億美元,用時10年才完成人類基因組計劃,同時成功完成了人類全基因組圖譜的制作。如今,一個普通人只需要花費上千美元,用時不到一天就可以從世界上任意一家專業(yè)測序公司完成個人的基因解析[9]。據(jù)統(tǒng)計,低廉的測序成本使得測序數(shù)據(jù)增加的速度進一步加快,Kryder定律[11]所定義的硬盤增長速度已經(jīng)完全落后于數(shù)據(jù)增長速度,所以增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀,但是長遠上看,存儲容量增長速度遠低于數(shù)據(jù)的產(chǎn)生速度,不能夠匹配生物數(shù)據(jù)量大和高速的特點。圖1-2展示了截止到2019年末基因測序成本的變化情況,圖片數(shù)據(jù)源自http://www.genome.gov/sequencingcosts/。圖1-2測序成本變化Fig.1-2Changesingenomesequencingcosts生物大數(shù)據(jù)多樣性和價值高的特點決定,舍棄測序數(shù)據(jù)的方案是不可行的。生物數(shù)據(jù)多樣化是指由于測序儀器繁多,不同測序儀器得到的測序數(shù)據(jù),數(shù)據(jù)的格式有一定的差異性,導致處理得到的結(jié)果也是千差萬別。生物大數(shù)據(jù)價值高則是指數(shù)據(jù)內(nèi)部包含很多待挖掘有價值的信息。這兩點決定研究過程中不能
哈爾濱工業(yè)大學工程碩士學位論文-5-夠隨意舍棄這些數(shù)據(jù)。在生物學中,基因是染色體上具有控制生物性狀的DNA片段,該物質(zhì)由最基本的脫氧核糖核苷酸組成。測序過程本質(zhì)上是去檢測核苷酸上堿基的組成,從而得知堿基排列和基因的組成。DNA是由雙鏈組成,相互結(jié)合形成螺旋形狀,而RNA則是由單鏈組成同樣也是呈現(xiàn)螺旋形狀。DNA由脫氧核苷酸組成,其中堿基不同可分為4類,分別為{A,T,C,G}。而RNA則是由核糖核苷酸組成,其中堿基則是分為{A,U,C,G},DNA和RNA的物理模型如圖1-3所示。圖1-3DNA與RNA結(jié)構(gòu)和化學組成Fig.1-3StructureandchemicalcompositionofDNAandRNADNA轉(zhuǎn)錄為RNA,進而翻譯為蛋白質(zhì)的過程,稱為基因的表達。{A,T,C,G}不同的排列順序形成了不同的基因,不同的基因表達成為了不同的性狀。但是并非所有的DNA片段都能夠表達為具體性狀,其中DNA片段被劃分為內(nèi)含子和外顯子。只有外顯子才能夠通過基因的表達過程展示為具體性狀。內(nèi)含子與基因的調(diào)控相關(guān),但是其更為深入的作用還未被探究清楚。目前的生物信息學對于基因的了解還是相對有限,加之性狀表達的復雜性,很難去定義一段序列完全沒有價值。所以對于任意一段序列,尤其是不可再生樣本產(chǎn)生的序列,比如說癌癥腫瘤,滅絕生物,特殊疾病這些測序結(jié)果都不可能再生,需要進行保存而不應(yīng)該簡單的按照當前的判斷價值標準進行舍棄。相較于上述兩種方案,壓縮是更具備可行性和潛力的。首先它完美的契合了生物大數(shù)據(jù)時代,能夠極好的匹配數(shù)據(jù)量大,增長速度快的特點,并且將測
【參考文獻】:
期刊論文
[1]三代測序技術(shù)及其應(yīng)用研究進展[J]. 馬麗娜,楊進波,丁逸菲,李穎康. 中國畜牧獸醫(yī). 2019(08)
[2]基因組測序技術(shù)及其應(yīng)用研究進展[J]. 李國治,鄧衛(wèi)東. 安徽農(nóng)業(yè)科學. 2018(22)
[3]Oxford Nanopore MinION Sequencing and Genome Assembly[J]. Hengyun Lu,Francesca Giordano,Zemin Ning. Genomics,Proteomics & Bioinformatics. 2016(05)
[4]DNA序列數(shù)據(jù)壓縮技術(shù)綜述[J]. 紀震,周家銳,姜來,Q.H.Wu. 電子學報. 2010(05)
碩士論文
[1]基于自索引結(jié)構(gòu)的高通量基因組重測序數(shù)據(jù)壓縮算法[D]. 榮河江.哈爾濱工業(yè)大學 2018
本文編號:3108107
本文鏈接:http://sikaile.net/yixuelunwen/swyx/3108107.html
最近更新
教材專著