當(dāng)前位置：主頁(yè) > 醫(yī)學(xué)論文 > 生物醫(yī)學(xué)論文 >

基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析

發(fā)布時(shí)間：2017-05-19 14:15

本文關(guān)鍵詞：基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著生物數(shù)據(jù)量指數(shù)增長(zhǎng),亟待解決的存儲(chǔ)和處理生物數(shù)據(jù)問(wèn)題比較突出,在建設(shè)生物數(shù)據(jù)庫(kù)過(guò)程中,利用Hadoop平臺(tái),搭建Hbase存儲(chǔ)模型,實(shí)現(xiàn)云存儲(chǔ)生物數(shù)據(jù),并利用其它學(xué)科知識(shí)對(duì)序列數(shù)據(jù)進(jìn)行分析。本文針對(duì)在建設(shè)生物數(shù)據(jù)庫(kù)過(guò)程中,生物數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng),生物大數(shù)據(jù)處理的問(wèn)題,利用Hadoop平臺(tái)下的Hbase數(shù)據(jù)庫(kù)存儲(chǔ)生物數(shù)據(jù)。首先,本文選擇UML類圖表示基因組數(shù)據(jù)和GenBank文件數(shù)據(jù)類圖模型,設(shè)計(jì)出基于Hbase數(shù)據(jù)庫(kù)模式的基因組數(shù)據(jù)和GenBank文件數(shù)據(jù)的存儲(chǔ)模式,特別是對(duì)序列數(shù)據(jù)在Hbase上的存儲(chǔ)模式進(jìn)行了討論。利用存儲(chǔ)在Hbase數(shù)據(jù)庫(kù)下的DNA序列模式,進(jìn)行序列比對(duì)分析,提出最佳選擇比對(duì)的短序列,并提出相應(yīng)函數(shù),給出相應(yīng)函數(shù)的代表意義和利用價(jià)值,在一定程度上在本文提出的存儲(chǔ)模式上提高序列比對(duì)的效率。本文利用非線性學(xué)科中的相空間知識(shí),利用相空間構(gòu)造不同序列的圖形,在構(gòu)造過(guò)程中,利用K-words和本文提出的指數(shù),計(jì)算出最小K值獲得最短序列來(lái)區(qū)分不同序列,最后利用相空間技術(shù),把序列映射到圖形上,從圖形上觀察序列之間的差異。本文利用非線性學(xué)科中的隨機(jī)漫步知識(shí)和分形知識(shí),計(jì)算出不同DNA分子序列映射后的數(shù)字序列的隨機(jī)漫步圖形,并比較不同DNA數(shù)字序列的不同,計(jì)算赫斯特指數(shù),在分階段上求出兩個(gè)赫斯特指數(shù),把結(jié)果映射到二維空間上,并比較不同物種之間的區(qū)別。
【關(guān)鍵詞】：生物數(shù)據(jù)庫(kù) Hadoop Hbase 相空間 赫斯特指數(shù)
【學(xué)位授予單位】：廣西大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：Q811.4;TP311.13
【目錄】：

摘要4-5
ABSTRACT5-9
第一章緒論9-13
1.1 研究背景9
1.2 國(guó)內(nèi)外研究現(xiàn)狀9-10
1.3 本文的主要工作10-11
1.4 本文的組織結(jié)構(gòu)11-13
第二章相關(guān)知識(shí)13-19
2.1 引言13
2.2 相關(guān)概念13-17
2.2.1 Hadoop及Hbase平臺(tái)介紹13-15
2.2.2 生物數(shù)據(jù)15-16
2.2.3 生物數(shù)據(jù)庫(kù)16-17
2.3 存在的不足17
2.4 本章小結(jié)17-19
第三章生物數(shù)據(jù)庫(kù)建設(shè)及序列存儲(chǔ)模式應(yīng)用19-32
3.1 引言19
3.2 HBASE介紹19-20
3.3 生物數(shù)據(jù)類圖模型及HBASE表結(jié)構(gòu)設(shè)計(jì)20-26
3.4 生物序列數(shù)據(jù)比對(duì)26-31
3.4.1 Overlapping模式應(yīng)用27-28
3.4.2 Non-overlapping存儲(chǔ)模式應(yīng)用28-29
3.4.3 窗口大小為1的討論29-31
3.5 小結(jié)31-32
第四章相空間與DNA序列分析32-39
4.1 引言32
4.2 相空間介紹32
4.3 K-WORDS介紹32-33
4.4 結(jié)果和討論33-38
4.5 小結(jié)38-39
第五章分形與DNA序列分析39-47
5.1 引言39
5.2 數(shù)據(jù)和映射規(guī)則39-40
5.3 計(jì)算方法40-41
5.4 結(jié)果與討論41-46
5.5 小結(jié)46-47
第六章總結(jié)和展望47-49
6.1 總結(jié)47-48
6.2 展望48-49
參考文獻(xiàn)49-56
致謝56-57
攻讀碩士學(xué)位期刊參與科研項(xiàng)目57-58
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文58

【參考文獻(xiàn)】

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 劉燕兵;串匹配算法優(yōu)化技術(shù)研究[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2006年

本文關(guān)鍵詞：基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：378916

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/yixuelunwen/swyx/378916.html

上一篇：無(wú)機(jī)材料的仿生合成
下一篇：基于全局LBF水平集模型的腦血管層次粗分割

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hbase生物數(shù)據(jù)存儲(chǔ)和DNA序列分析