基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析
發(fā)布時(shí)間:2017-05-19 14:15
本文關(guān)鍵詞:基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著生物數(shù)據(jù)量指數(shù)增長(zhǎng),亟待解決的存儲(chǔ)和處理生物數(shù)據(jù)問(wèn)題比較突出,在建設(shè)生物數(shù)據(jù)庫(kù)過(guò)程中,利用Hadoop平臺(tái),搭建Hbase存儲(chǔ)模型,實(shí)現(xiàn)云存儲(chǔ)生物數(shù)據(jù),并利用其它學(xué)科知識(shí)對(duì)序列數(shù)據(jù)進(jìn)行分析。本文針對(duì)在建設(shè)生物數(shù)據(jù)庫(kù)過(guò)程中,生物數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng),生物大數(shù)據(jù)處理的問(wèn)題,利用Hadoop平臺(tái)下的Hbase數(shù)據(jù)庫(kù)存儲(chǔ)生物數(shù)據(jù)。首先,本文選擇UML類圖表示基因組數(shù)據(jù)和GenBank文件數(shù)據(jù)類圖模型,設(shè)計(jì)出基于Hbase數(shù)據(jù)庫(kù)模式的基因組數(shù)據(jù)和GenBank文件數(shù)據(jù)的存儲(chǔ)模式,特別是對(duì)序列數(shù)據(jù)在Hbase上的存儲(chǔ)模式進(jìn)行了討論。利用存儲(chǔ)在Hbase數(shù)據(jù)庫(kù)下的DNA序列模式,進(jìn)行序列比對(duì)分析,提出最佳選擇比對(duì)的短序列,并提出相應(yīng)函數(shù),給出相應(yīng)函數(shù)的代表意義和利用價(jià)值,在一定程度上在本文提出的存儲(chǔ)模式上提高序列比對(duì)的效率。本文利用非線性學(xué)科中的相空間知識(shí),利用相空間構(gòu)造不同序列的圖形,在構(gòu)造過(guò)程中,利用K-words和本文提出的指數(shù),計(jì)算出最小K值獲得最短序列來(lái)區(qū)分不同序列,最后利用相空間技術(shù),把序列映射到圖形上,從圖形上觀察序列之間的差異。本文利用非線性學(xué)科中的隨機(jī)漫步知識(shí)和分形知識(shí),計(jì)算出不同DNA分子序列映射后的數(shù)字序列的隨機(jī)漫步圖形,并比較不同DNA數(shù)字序列的不同,計(jì)算赫斯特指數(shù),在分階段上求出兩個(gè)赫斯特指數(shù),把結(jié)果映射到二維空間上,并比較不同物種之間的區(qū)別。
【關(guān)鍵詞】:生物數(shù)據(jù)庫(kù) Hadoop Hbase 相空間 赫斯特指數(shù)
【學(xué)位授予單位】:廣西大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:Q811.4;TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-13
- 1.1 研究背景9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
- 1.3 本文的主要工作10-11
- 1.4 本文的組織結(jié)構(gòu)11-13
- 第二章 相關(guān)知識(shí)13-19
- 2.1 引言13
- 2.2 相關(guān)概念13-17
- 2.2.1 Hadoop及Hbase平臺(tái)介紹13-15
- 2.2.2 生物數(shù)據(jù)15-16
- 2.2.3 生物數(shù)據(jù)庫(kù)16-17
- 2.3 存在的不足17
- 2.4 本章小結(jié)17-19
- 第三章 生物數(shù)據(jù)庫(kù)建設(shè)及序列存儲(chǔ)模式應(yīng)用19-32
- 3.1 引言19
- 3.2 HBASE介紹19-20
- 3.3 生物數(shù)據(jù)類圖模型及HBASE表結(jié)構(gòu)設(shè)計(jì)20-26
- 3.4 生物序列數(shù)據(jù)比對(duì)26-31
- 3.4.1 Overlapping模式應(yīng)用27-28
- 3.4.2 Non-overlapping存儲(chǔ)模式應(yīng)用28-29
- 3.4.3 窗口大小為1的討論29-31
- 3.5 小結(jié)31-32
- 第四章 相空間與DNA序列分析32-39
- 4.1 引言32
- 4.2 相空間介紹32
- 4.3 K-WORDS介紹32-33
- 4.4 結(jié)果和討論33-38
- 4.5 小結(jié)38-39
- 第五章 分形與DNA序列分析39-47
- 5.1 引言39
- 5.2 數(shù)據(jù)和映射規(guī)則39-40
- 5.3 計(jì)算方法40-41
- 5.4 結(jié)果與討論41-46
- 5.5 小結(jié)46-47
- 第六章 總結(jié)和展望47-49
- 6.1 總結(jié)47-48
- 6.2 展望48-49
- 參考文獻(xiàn)49-56
- 致謝56-57
- 攻讀碩士學(xué)位期刊參與科研項(xiàng)目57-58
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文58
【參考文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉燕兵;串匹配算法優(yōu)化技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
本文關(guān)鍵詞:基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析,由筆耕文化傳播整理發(fā)布。
本文編號(hào):378916
本文鏈接:http://sikaile.net/yixuelunwen/swyx/378916.html
最近更新
教材專著