天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

三代重測序DNA數(shù)據(jù)壓縮算法研究

發(fā)布時間:2021-03-29 19:58
  測序技術(shù)從一代Sanger測序,經(jīng)歷二代測序(Next-generation Sequencing,NGS),發(fā)展到當前已經(jīng)進入三代測序(Third-generation Sequencing,TGS)時代。現(xiàn)如今伴隨著生物信息學研究的深入,三代測序技術(shù)已經(jīng)超越二代測序技術(shù)成為主流的研究方向并且促進了生物信息技術(shù)的發(fā)展。但是三代測序的特點決定它將會帶來許多新的挑戰(zhàn),測序生成序列與數(shù)據(jù)庫存儲空間不匹配,數(shù)據(jù)增長速度與計算機容量增長不匹配就是現(xiàn)如今急需解決的難題。為應(yīng)對測序數(shù)據(jù)的高速增長,相較于增加存儲容量和減少數(shù)據(jù)生成的方案,針對測序生成的短讀數(shù)據(jù)進行壓縮是一個行之有效的方法。通過分析現(xiàn)有的主流二代壓縮算法,本文提出專門針對三代重測序數(shù)據(jù)的壓縮算法,在上述算法基礎(chǔ)上改進解壓縮算法實現(xiàn)局部解壓縮技術(shù),并創(chuàng)新性地設(shè)計插入壓縮算法。論文的主要內(nèi)容包括:(1)探討了測序技術(shù)的發(fā)展歷程,對比二代和三代測序技術(shù)及其產(chǎn)生數(shù)據(jù)的特點,分析主流的測序數(shù)據(jù)保存格式,深入研究基因測序數(shù)據(jù)的結(jié)構(gòu)和針對生物數(shù)據(jù)的壓縮算法,這為接下來的算法設(shè)計打下基礎(chǔ)。(2)設(shè)計出針對三代重測序數(shù)據(jù)的壓縮框架LYZip,其中詳述了... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:73 頁

【學位級別】:碩士

【部分圖文】:

三代重測序DNA數(shù)據(jù)壓縮算法研究


應(yīng)用二代和三代測序技術(shù)文章統(tǒng)計

測序,成本,數(shù)據(jù),存儲容量


哈爾濱工業(yè)大學工程碩士學位論文-4-增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀。但是長遠上看,存儲容量的增長速度,遠低于數(shù)據(jù)的產(chǎn)生速度,并且隨著時間的推移兩者的差距將會逐漸變大。生物數(shù)據(jù)量大和高速的特點決定增大存儲容量,擴大帶寬的方案只能是暫時緩解當前數(shù)據(jù)量大的問題,并不能從根本上解決數(shù)據(jù)高速增長問題,所以并不可行。20世界末期,人類花費高達30億美元,用時10年才完成人類基因組計劃,同時成功完成了人類全基因組圖譜的制作。如今,一個普通人只需要花費上千美元,用時不到一天就可以從世界上任意一家專業(yè)測序公司完成個人的基因解析[9]。據(jù)統(tǒng)計,低廉的測序成本使得測序數(shù)據(jù)增加的速度進一步加快,Kryder定律[11]所定義的硬盤增長速度已經(jīng)完全落后于數(shù)據(jù)增長速度,所以增大存儲容量,擴大傳輸帶寬只能一定程度上緩解數(shù)據(jù)量大這一現(xiàn)狀,但是長遠上看,存儲容量增長速度遠低于數(shù)據(jù)的產(chǎn)生速度,不能夠匹配生物數(shù)據(jù)量大和高速的特點。圖1-2展示了截止到2019年末基因測序成本的變化情況,圖片數(shù)據(jù)源自http://www.genome.gov/sequencingcosts/。圖1-2測序成本變化Fig.1-2Changesingenomesequencingcosts生物大數(shù)據(jù)多樣性和價值高的特點決定,舍棄測序數(shù)據(jù)的方案是不可行的。生物數(shù)據(jù)多樣化是指由于測序儀器繁多,不同測序儀器得到的測序數(shù)據(jù),數(shù)據(jù)的格式有一定的差異性,導致處理得到的結(jié)果也是千差萬別。生物大數(shù)據(jù)價值高則是指數(shù)據(jù)內(nèi)部包含很多待挖掘有價值的信息。這兩點決定研究過程中不能

序列,化學組成


哈爾濱工業(yè)大學工程碩士學位論文-5-夠隨意舍棄這些數(shù)據(jù)。在生物學中,基因是染色體上具有控制生物性狀的DNA片段,該物質(zhì)由最基本的脫氧核糖核苷酸組成。測序過程本質(zhì)上是去檢測核苷酸上堿基的組成,從而得知堿基排列和基因的組成。DNA是由雙鏈組成,相互結(jié)合形成螺旋形狀,而RNA則是由單鏈組成同樣也是呈現(xiàn)螺旋形狀。DNA由脫氧核苷酸組成,其中堿基不同可分為4類,分別為{A,T,C,G}。而RNA則是由核糖核苷酸組成,其中堿基則是分為{A,U,C,G},DNA和RNA的物理模型如圖1-3所示。圖1-3DNA與RNA結(jié)構(gòu)和化學組成Fig.1-3StructureandchemicalcompositionofDNAandRNADNA轉(zhuǎn)錄為RNA,進而翻譯為蛋白質(zhì)的過程,稱為基因的表達。{A,T,C,G}不同的排列順序形成了不同的基因,不同的基因表達成為了不同的性狀。但是并非所有的DNA片段都能夠表達為具體性狀,其中DNA片段被劃分為內(nèi)含子和外顯子。只有外顯子才能夠通過基因的表達過程展示為具體性狀。內(nèi)含子與基因的調(diào)控相關(guān),但是其更為深入的作用還未被探究清楚。目前的生物信息學對于基因的了解還是相對有限,加之性狀表達的復雜性,很難去定義一段序列完全沒有價值。所以對于任意一段序列,尤其是不可再生樣本產(chǎn)生的序列,比如說癌癥腫瘤,滅絕生物,特殊疾病這些測序結(jié)果都不可能再生,需要進行保存而不應(yīng)該簡單的按照當前的判斷價值標準進行舍棄。相較于上述兩種方案,壓縮是更具備可行性和潛力的。首先它完美的契合了生物大數(shù)據(jù)時代,能夠極好的匹配數(shù)據(jù)量大,增長速度快的特點,并且將測

【參考文獻】:
期刊論文
[1]三代測序技術(shù)及其應(yīng)用研究進展[J]. 馬麗娜,楊進波,丁逸菲,李穎康.  中國畜牧獸醫(yī). 2019(08)
[2]基因組測序技術(shù)及其應(yīng)用研究進展[J]. 李國治,鄧衛(wèi)東.  安徽農(nóng)業(yè)科學. 2018(22)
[3]Oxford Nanopore MinION Sequencing and Genome Assembly[J]. Hengyun Lu,Francesca Giordano,Zemin Ning.  Genomics,Proteomics & Bioinformatics. 2016(05)
[4]DNA序列數(shù)據(jù)壓縮技術(shù)綜述[J]. 紀震,周家銳,姜來,Q.H.Wu.  電子學報. 2010(05)

碩士論文
[1]基于自索引結(jié)構(gòu)的高通量基因組重測序數(shù)據(jù)壓縮算法[D]. 榮河江.哈爾濱工業(yè)大學 2018



本文編號:3108107

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/swyx/3108107.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶649ac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产又大又黄又粗的黄色| 亚洲中文字幕有码在线观看| 日木乱偷人妻中文字幕在线| 亚洲综合一区二区三区在线| 熟女白浆精品一区二区| 麻豆果冻传媒一二三区| 欧美日韩亚洲国产综合网| 国产熟女一区二区不卡| 一区二区欧美另类稀缺| 日本女人亚洲国产性高潮视频| 精品女同在线一区二区| 黄色国产一区二区三区| 护士又紧又深又湿又爽的视频| 国产精品熟女在线视频| 日韩特级黄色大片在线观看| 人妻一区二区三区在线| 国产精品十八禁亚洲黄污免费观看| 久久精品中文字幕人妻中文| 日韩美成人免费在线视频| 一级片黄色一区二区三区| 午夜精品久久久99热连载| 亚洲视频偷拍福利来袭| 亚洲精品福利入口在线| 视频在线观看色一区二区| 欧美成人免费视频午夜色| 成人精品一区二区三区在线| 日韩人妻中文字幕精品| 日本午夜免费福利视频 | 国产偷拍盗摄一区二区| 日本一区二区三区久久娇喘| 国产日韩精品激情在线观看| 亚洲一区二区三区三州| 国产一区欧美一区日韩一区 | 欧美日韩一级aa大片| 日韩精品人妻少妇一区二区| 欧美日韩视频中文字幕| 亚洲欧洲一区二区中文字幕| 日韩av欧美中文字幕| 婷婷激情四射在线观看视频| 欧美黄色成人真人视频| 精品久久久一区二区三|