基因轉(zhuǎn)錄調(diào)控模體預(yù)測的研究及其在線服務(wù)開發(fā)
發(fā)布時間:2017-04-04 07:40
本文關(guān)鍵詞:基因轉(zhuǎn)錄調(diào)控模體預(yù)測的研究及其在線服務(wù)開發(fā),由筆耕文化傳播整理發(fā)布。
【摘要】:生物信息學(xué)的發(fā)展提出了很多計算問題,通過計算方法預(yù)測基因的轉(zhuǎn)錄調(diào)控模體是其中之一。模體(motif)是一組短片段,通常只有8-12個字符的長度。因?yàn)榫哂猩锕δ埽韵鄬τ谏镄蛄械钠渌糠植灰赘淖。它具有序列保守性,可以在序列上識別。依據(jù)所研究的生物序列不同,模體可分為DNA模體,蛋白質(zhì)模體和結(jié)構(gòu)模體,,本文工作主要是研究載有基因轉(zhuǎn)錄調(diào)控功能的DNA模體。它可以幫助生命科學(xué)研究者了解基因轉(zhuǎn)錄的調(diào)控機(jī)制,為藥物和生物工程等多個領(lǐng)域做出貢獻(xiàn),為計算科學(xué)的研究者提供了研究熱點(diǎn)。傳統(tǒng)的轉(zhuǎn)錄模體預(yù)測問題是多序列比對的NP復(fù)雜問題,之前的預(yù)測算法大都基于啟發(fā)式學(xué)習(xí)方法,實(shí)際運(yùn)用的假陽性率較高。很多生物信息工具需要較低假陽性率,才能在生物研究中被有效使用。實(shí)驗(yàn)組之前開發(fā)的BoBro模體識別算法[46]可以有效解決這一問題,它通過模體信號之間的相互支持,在數(shù)據(jù)處理內(nèi)部降低其他“噪音”影響的同時保證了預(yù)測的識別率。目前主流的模體識別算法(如meme[39])都實(shí)現(xiàn)了在線服務(wù)。為了推廣該方法,本人的研究工作就是以此算法為基礎(chǔ),通過增加結(jié)果分析功能,在高性能集群上設(shè)計實(shí)現(xiàn)了web服務(wù)平臺DMINDA(http://csbl.bmb.uga.edu/DMINDA/)。 DMINDA的主要貢獻(xiàn)在于:(1)對于給定查找到的一組調(diào)控序列和相應(yīng)的對照序列,可以計算得到統(tǒng)計打分以及對應(yīng)的統(tǒng)計顯著p-value;(2)除了實(shí)現(xiàn)BoBro算法[46]對模體的預(yù)測,還對預(yù)測結(jié)果的進(jìn)一步分析提供了模體掃描、比較、共作用分析等功能;(3)服務(wù)還實(shí)現(xiàn)了同DOOR原核生物操縱子數(shù)據(jù)庫的鏈接,利用操縱子信息提取調(diào)控序列,結(jié)合生物系統(tǒng)發(fā)生關(guān)系準(zhǔn)備數(shù)據(jù)。 設(shè)計DMINDA系統(tǒng)除了具有實(shí)際軟件開發(fā)能力,還需要了解相關(guān)研究的領(lǐng)域的知識,才能了解用戶的切實(shí)需求。生物信息學(xué)研究領(lǐng)域開發(fā)了很多工具沒有充分發(fā)揮其應(yīng)有價值,結(jié)合實(shí)際需要利用web開發(fā)技術(shù)制作出有實(shí)用意義的在線服務(wù),可以推廣這些方法?茖W(xué)研究成果通過web技術(shù)向廣大科研使用者推廣是計算機(jī)應(yīng)用領(lǐng)域的重要研究方向,有人將之稱為科學(xué)2.0。DMINDA在實(shí)驗(yàn)組之前工作的基礎(chǔ)上,增加了后續(xù)分析工作的研究工具,通過對核心算法的重編程和再組織,實(shí)現(xiàn)了在150節(jié)點(diǎn)高性能計算集群的部署。利用DataTables等Jquery工具,設(shè)計了界面友好的操作頁面。以該平臺為基礎(chǔ),繼續(xù)開發(fā)了基于生物系統(tǒng)發(fā)生關(guān)系的MP3模體預(yù)測算法和在全基因組預(yù)測調(diào)控子的方法,目前正在投稿。利用web服務(wù)推廣科研成果,可以提高論文發(fā)表層次,增加論文的引用次數(shù),它可以成為一系列后續(xù)研究的平臺。本文回顧了模體的預(yù)測及其相關(guān)研究,介紹了DMINDA系統(tǒng)的設(shè)計、開發(fā)與運(yùn)行。
【關(guān)鍵詞】:生物息學(xué) web服務(wù)開發(fā) 調(diào)控模體預(yù)測 基因轉(zhuǎn)錄 高性能集群
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:Q78;TP393.09
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-20
- 1.1 研究目的與意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀分析11-18
- 1.2.1 基因轉(zhuǎn)錄調(diào)控11-14
- 1.2.2 確定調(diào)控模體的實(shí)驗(yàn)技術(shù)14-15
- 1.2.3 轉(zhuǎn)錄調(diào)控模體的信息學(xué)研究15-17
- 1.2.4 主要模體計算預(yù)測分析平臺和工具17-18
- 1.3 本文的主要工作和主要結(jié)構(gòu)18-20
- 第2章 系統(tǒng)實(shí)現(xiàn)的模體識別與分析20-34
- 2.1 模體的表示方法22-24
- 2.2 模體識別功能的算法24-29
- 2.3 模體掃描功能的算法29-30
- 2.4 模體比較功能的算法30-31
- 2.5 轉(zhuǎn)錄模體共調(diào)控分析的計算31-32
- 2.6 數(shù)據(jù)的準(zhǔn)備32-33
- 2.7 算法和流程的并行化33-34
- 第3章 系統(tǒng)的開發(fā)34-57
- 3.1 系統(tǒng)的配置及開發(fā)技術(shù)34-43
- 3.1.1 系統(tǒng)的硬件配置和運(yùn)行管理34-38
- 3.1.2 系統(tǒng)的開發(fā)工具38-41
- 3.1.3 系統(tǒng)的頁面開發(fā)技術(shù)41-43
- 3.2 系統(tǒng)的架構(gòu)分析43-46
- 3.2.1 用戶數(shù)據(jù)的需求44-45
- 3.2.2 網(wǎng)頁服務(wù)的需求45
- 3.2.3 數(shù)據(jù)服務(wù)的需求45
- 3.2.4 計算集群服務(wù)的需求45-46
- 3.2.5 郵件服務(wù)的需求46
- 3.3 系統(tǒng)的功能實(shí)現(xiàn)46-57
- 3.3.1 系統(tǒng)的設(shè)計架構(gòu)46-48
- 3.3.2 頁面的實(shí)現(xiàn)48-53
- 3.3.3 系統(tǒng)與服務(wù)器接口的實(shí)現(xiàn)53-54
- 3.3.4 其他主要程序的實(shí)現(xiàn)54-57
- 第4章 系統(tǒng)的應(yīng)用和性能分析57-65
- 4.1 預(yù)測大腸桿菌三羧酸循環(huán)的調(diào)控模體57-60
- 4.2 網(wǎng)站的使用性能60-65
- 第5章 結(jié)論和展望65-67
- 5.1 結(jié)論65-66
- 5.2 展望66-67
- 參考文獻(xiàn)67-71
- 作者簡介及在學(xué)期間所取得的科研成果71-72
- 致謝72
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 冉令華,阮曉鋼;大腸桿菌啟動子特征元件對啟動子識別的影響[J];北京工業(yè)大學(xué)學(xué)報;2005年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 杜偉;機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用研究[D];吉林大學(xué);2011年
本文關(guān)鍵詞:基因轉(zhuǎn)錄調(diào)控模體預(yù)測的研究及其在線服務(wù)開發(fā),由筆耕文化傳播整理發(fā)布。
本文編號:285112
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/285112.html
最近更新
教材專著