基于DNA序列的無損壓縮算法研究
發(fā)布時間:2023-02-26 04:52
隨著信息技術(shù)的發(fā)展,越來越多的數(shù)據(jù)被人們所記錄用于開展各種工作與活動。在生物信息領(lǐng)域,DNA作為生物體內(nèi)儲存著大量生物遺傳信息的遺傳物質(zhì),對生物生命機能產(chǎn)生了重要的作用。在DNA測序技術(shù)和其他各類測序技術(shù)的影響下,DNA序列數(shù)據(jù)也急速增長,數(shù)據(jù)量增長速度呈指數(shù)方式。如何利用有限的儲存空間,有效地保存大量有研究作用的DNA序列數(shù)據(jù),是現(xiàn)今DNA研究相關(guān)領(lǐng)域?qū)W者所面臨的新課題。然而,傳統(tǒng)的數(shù)據(jù)壓縮算法對DNA序列的壓縮結(jié)果并不理想,甚至可能導(dǎo)致存儲空間膨脹。DNA序列內(nèi)部特殊的重復(fù)結(jié)構(gòu),如直接重復(fù),鏡像重復(fù),互補回文等,以及不同物種或相同物種不同個體DNA序列間的高度重復(fù)性,使得DNA序列的結(jié)構(gòu)化壓縮成為可能。本文主要研究如何利用更有效的壓縮方法以減少數(shù)據(jù)的存儲空間。針對有參考序列的DNA序列壓縮,本文結(jié)合字典編碼與統(tǒng)計編碼的優(yōu)勢,提出了一種有效的DNA序列壓縮方法——基于全文索引的互補上下文壓縮算法。在壓縮第一階段,該方法利用高效索引結(jié)構(gòu)FM-index查找并定位參考序列中的最長匹配序列,由于FM-index結(jié)構(gòu)通常用于固定長度圖案匹配,不利于對實際序列的匹配和記錄信息,改進后的FM-i...
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究目的和意義
1.2 數(shù)據(jù)壓縮技術(shù)
1.2.1 無損數(shù)據(jù)壓縮
1.2.2 有損數(shù)據(jù)壓縮
1.3 神經(jīng)網(wǎng)絡(luò)研究背景
1.4 本文主要貢獻與章節(jié)安排
第二章 DNA序列壓縮相關(guān)工作
2.1 DNA序列壓縮算法概況
2.1.1 無參考序列的壓縮算法概況
2.1.2 有參考序列的壓縮算法概況
2.2 DNA序列特性
2.2.1 DNA數(shù)據(jù)統(tǒng)計分析
2.2.2 序列相似性的計算
2.3 DNA壓縮技術(shù)評價
2.4 DNA壓縮常用實驗序列
2.5 本章小結(jié)
第三章 基于全文索引的互補上下文壓縮模型
3.1 FM-index全文索引及其相關(guān)概念
3.1.1 Burrows-Wheeler變換
3.1.2 后綴數(shù)組SA
3.1.3 FM-index算法
3.2 混合上下文模型
3.2.1 上下文模型
3.2.2 上下文模型的合成
3.3 基于全文索引的互補上下文壓縮算法研究
3.3.1 方法概述
3.3.2 FM-index變長搜索
3.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于自編碼器的序列預(yù)測與壓縮模型
4.1 相關(guān)工作
4.1.1 人工神經(jīng)網(wǎng)絡(luò)
4.1.2 自編碼器
4.2 基于自編碼器的序列預(yù)測和壓縮模型
4.2.1 卷積自編碼器網(wǎng)絡(luò)
4.3 實驗過程與結(jié)果分析
4.3.1 序列預(yù)處理
4.3.2 網(wǎng)絡(luò)模型評估與選擇
4.3.3 殘差編碼
4.3.4 網(wǎng)絡(luò)參數(shù)選擇與討論
4.3.5 序列壓縮結(jié)果與分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來工作展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
攻讀學(xué)位期間參與的項目
本文編號:3749856
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究目的和意義
1.2 數(shù)據(jù)壓縮技術(shù)
1.2.1 無損數(shù)據(jù)壓縮
1.2.2 有損數(shù)據(jù)壓縮
1.3 神經(jīng)網(wǎng)絡(luò)研究背景
1.4 本文主要貢獻與章節(jié)安排
第二章 DNA序列壓縮相關(guān)工作
2.1 DNA序列壓縮算法概況
2.1.1 無參考序列的壓縮算法概況
2.1.2 有參考序列的壓縮算法概況
2.2 DNA序列特性
2.2.1 DNA數(shù)據(jù)統(tǒng)計分析
2.2.2 序列相似性的計算
2.3 DNA壓縮技術(shù)評價
2.4 DNA壓縮常用實驗序列
2.5 本章小結(jié)
第三章 基于全文索引的互補上下文壓縮模型
3.1 FM-index全文索引及其相關(guān)概念
3.1.1 Burrows-Wheeler變換
3.1.2 后綴數(shù)組SA
3.1.3 FM-index算法
3.2 混合上下文模型
3.2.1 上下文模型
3.2.2 上下文模型的合成
3.3 基于全文索引的互補上下文壓縮算法研究
3.3.1 方法概述
3.3.2 FM-index變長搜索
3.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于自編碼器的序列預(yù)測與壓縮模型
4.1 相關(guān)工作
4.1.1 人工神經(jīng)網(wǎng)絡(luò)
4.1.2 自編碼器
4.2 基于自編碼器的序列預(yù)測和壓縮模型
4.2.1 卷積自編碼器網(wǎng)絡(luò)
4.3 實驗過程與結(jié)果分析
4.3.1 序列預(yù)處理
4.3.2 網(wǎng)絡(luò)模型評估與選擇
4.3.3 殘差編碼
4.3.4 網(wǎng)絡(luò)參數(shù)選擇與討論
4.3.5 序列壓縮結(jié)果與分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來工作展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
攻讀學(xué)位期間參與的項目
本文編號:3749856
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3749856.html
最近更新
教材專著