天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向組學大數(shù)據(jù)的生物信息學研究

發(fā)布時間:2017-12-20 11:25

  本文關鍵詞:面向組學大數(shù)據(jù)的生物信息學研究 出處:《中國人民解放軍軍事醫(yī)學科學院》2016年博士論文 論文類型:學位論文


  更多相關文章: 生物信息學 云計算 蛋白質(zhì)組 多組學整合 生物學網(wǎng)絡


【摘要】:隨著DNA測序、質(zhì)譜測序等高通量技術的快速發(fā)展,生命科學領域進入了以海量多元組學數(shù)據(jù)為特征的大數(shù)據(jù)時代。組學大數(shù)據(jù)給生命科學研究帶來了前所未有的機遇,在研究基因功能、疾病機制、精準醫(yī)療等方面具有重要意義。面向組學大數(shù)據(jù)的生物信息學研究,有助于快速有效地挖掘組學大數(shù)據(jù)中蘊含的生物學知識。大數(shù)據(jù)具有規(guī)模性、多樣性、高速性等三個特征,給傳統(tǒng)生物信息學帶來了新的挑戰(zhàn)。在數(shù)據(jù)計算方面,亟需解決中小實驗室對計算資源的彈性需求;在數(shù)據(jù)分析方面,亟需多組學整合分析體系解決生物學問題。缺乏相應的生物信息學工具是大數(shù)據(jù)時代生命科學領域面臨的主要瓶頸。本論文主要目的即在于使用數(shù)據(jù)計算技術和數(shù)據(jù)分析技術解決組學大數(shù)據(jù)分析中存在的上述問題。在數(shù)據(jù)計算技術研究方面,本文重點關注云計算技術解決若干蛋白質(zhì)組大數(shù)據(jù)問題。亞馬遜網(wǎng)絡服務(AWS,Amazon Web Service)采用現(xiàn)收現(xiàn)付(pay as you go)的計費模式,提供彈性計算云(EC2,Elastic Compute Cloud)和簡單存儲服務(S3,Simple Storage Service)等多種云服務,使得用戶通過互聯(lián)網(wǎng)即可按需獲取計算和存儲資源,可有效解決組學大數(shù)據(jù)對計算資源的彈性需求。MapReduce框架將任務的處理過程劃分成Map和Reduce兩個階段:Map階段將輸入數(shù)據(jù)切割成數(shù)據(jù)分塊,以鍵值對的形式分配到計算節(jié)點上的Map函數(shù)并行分析處理,Map函數(shù)的輸出同樣以鍵值對的形式保存在各自的計算節(jié)點上;Reduce階段負責將所有的中間結(jié)果根據(jù)鍵值進行合并,然后生成最終結(jié)果。MapReduce框架簡化了分布式計算的編程模型。針對海量串聯(lián)質(zhì)譜數(shù)據(jù)帶來的計算復雜度問題,本文使用云計算技術解決鑒定新肽段、單氨基酸變異肽段以及外顯子跳躍剪接肽段等基于串聯(lián)質(zhì)譜的蛋白質(zhì)組大數(shù)據(jù)問題。本文采用串聯(lián)質(zhì)譜數(shù)據(jù)結(jié)合蛋白質(zhì)基因組學的方法,構建了全基因組六框翻譯氨基酸的序列數(shù)據(jù)庫、錯義突變的氨基酸序列數(shù)據(jù)庫以及外顯子跳躍剪接的氨基酸序列數(shù)據(jù)庫,使用基于MapReduce框架的數(shù)據(jù)庫搜索算法加快基于串聯(lián)質(zhì)譜的肽段鑒定過程,使用Target-Decoy搜索策略對肽段鑒定結(jié)果進行質(zhì)量控制。本文構建了基于云計算技術的蛋白質(zhì)組大數(shù)據(jù)分析和呈現(xiàn)平臺CAPER 3。CAPER 3使用AWS和MapReduce框架實現(xiàn)了數(shù)據(jù)處理流程的可擴展性。CAPER 3具有兩個主要組件,分別是遠程工作包(rwp,remoteworkpackage)和本地工作包(lwp,localworkpackage)。rwp部署在aws上,處理運行在云端的任務。lwp是基于java的圖形客戶端,具有數(shù)據(jù)傳輸、任務配置、進度監(jiān)控以及結(jié)果展示等功能。lwp使得用戶不需要專業(yè)知識即可在處理數(shù)據(jù)時獲得aws提供的彈性計算能力。caper3在鑒定新肽段、已知單氨基酸變異肽段、樣本特異的單氨基酸變異肽段、以及外顯子跳躍剪接肽段等蛋白質(zhì)組大數(shù)據(jù)問題上,加快了數(shù)據(jù)處理速度,并且從蛋白質(zhì)層次上提供基因或者變異的證據(jù),可為未來研究提供重要線索。caerp3的源代碼可通過https://github.com/ys-amms/capercloud獲取,使用說明詳見http://prodigy.bprc.ac.cn/caper3。在數(shù)據(jù)分析技術研究方面,本文重點關注建立基于生物學網(wǎng)絡的多組學整合分析體系。單一組學數(shù)據(jù)的分析往往具有局限性。高通量測序技術產(chǎn)生了多平臺的組學數(shù)據(jù),揭示了細胞中分子的靜態(tài)和動態(tài)信息,而細胞中不同分子之間相互通信形成了復雜的生物學網(wǎng)絡?紤]不同組學數(shù)據(jù)之間的關聯(lián),有利于對候選疾病基因進行篩選和排序。驅(qū)動基因鑒定問題是生物信息學中一個重要的研究領域。本文首先搜集整理了最新的癌癥相關突變數(shù)據(jù)集,使用特征分析發(fā)現(xiàn)癌癥相關突變與中性突變在基于pam250和基于香農(nóng)信息熵的序列特征上存在顯著差異。在生物學網(wǎng)絡層次,本文提出一種通路算法用于解決驅(qū)動基因鑒定問題;谕返乃惴僭O通路上游的驅(qū)動基因經(jīng)信號轉(zhuǎn)導過程導致下游轉(zhuǎn)錄因子過表達,轉(zhuǎn)錄因子過表達導致其靶基因顯著過表達,進而引發(fā)癌癥;而基于蛋白質(zhì)功能關聯(lián)網(wǎng)絡(pfin,proteinfunctionalinteractionnetwork)的算法假設癌癥驅(qū)動基因的網(wǎng)絡鄰居存在更多差異表達基因。本文研發(fā)了基于生物學網(wǎng)絡的癌癥驅(qū)動基因鑒定工具bionexr。bionexr是一個r包,由四個功能模塊組成,分別是“數(shù)據(jù)下載與解析”、“基因分析”、“網(wǎng)絡分析”和“可視化”。為了方便獲取tcga數(shù)據(jù),“數(shù)據(jù)下載與解析”模塊提供tcgalevel-3基因體系突變數(shù)據(jù)和基因表達數(shù)據(jù)的下載,查看下載進度和斷點續(xù)傳功能。對于基因體系突變數(shù)據(jù),“基因分析”模塊計算突變對基因功能的影響。對于基因表達數(shù)據(jù),“基因分析”模塊計算基因在腫瘤樣本和正常樣本中的表達倍數(shù)變化!熬W(wǎng)絡分析”模塊集成了基于kegg通路和基于pfin的分析算法。對于基于kegg通路分析流程的鑒定結(jié)果,“可視化”模塊以具有三級層次(分別是突變基因、轉(zhuǎn)錄因子和靶基因)的有向圖呈現(xiàn);對于基于pfin分析流程的鑒定結(jié)果,“可視化”模塊以無向圖呈現(xiàn)。四個模塊既相互獨立,又可以串聯(lián)在一起,構成鑒定癌癥驅(qū)動基因的數(shù)據(jù)分析流程!盎蚍治觥焙汀熬W(wǎng)絡分析”組成的分析流程使得bionexr在鑒定癌癥驅(qū)動基因時既考察核酸層次的信息,又考察生物學網(wǎng)絡層次的信息。使用Bionexr對TCGA中的多種癌癥,如頭和頸部鱗狀細胞癌、乳腺癌、腎癌和子宮內(nèi)膜癌,進行數(shù)據(jù)分析,發(fā)現(xiàn)了潛在的癌癥驅(qū)動基因或通路,分析結(jié)果提供豐富的信息。Bionexr的源代碼及使用說明可通過https://github.com/ys-amms/bionexr獲取。組學大數(shù)據(jù)的知識挖掘是當前生物信息學的重要機遇和挑戰(zhàn)。云計算技術和生物學網(wǎng)絡有助于快速有效地挖掘組學大數(shù)據(jù)中蘊含的生物學知識。未來研究中,我們將考慮組學數(shù)據(jù)與文獻知識結(jié)合,為面向組學大數(shù)據(jù)的生物信息學研究提供新的思路。
【學位授予單位】:中國人民解放軍軍事醫(yī)學科學院
【學位級別】:博士
【學位授予年份】:2016
【分類號】:Q811.4

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;生物信息學與基因電腦克隆[J];中國獸醫(yī)學報;2000年01期

2 陳成;生物信息學的現(xiàn)狀與未來[J];生物技術通報;2000年02期

3 龐洪泉 ,樊龍江;有關生物信息學的幾點誤解[J];生物技術通報;2002年02期

4 蔣寶榮,吳文德;寄生蟲生物信息學研究[J];廣西大學學報(自然科學版);2003年S1期

5 ;生物信息學[J];現(xiàn)代臨床醫(yī)學生物工程學雜志;2003年05期

6 ;生物信息學[J];天津科技;2004年06期

7 彭濤 ,王林;2004年青年生物信息學家論壇[J];國外醫(yī)學.藥學分冊;2005年03期

8 ;《生物信息學導論》出版[J];遺傳學報;2005年01期

9 鐘揚;王莉;李作峰;;我國生物信息學教育的發(fā)展與挑戰(zhàn)[J];計算機教育;2006年09期

10 賀思敏;陳文光;許東;羅靜初;吳曉桃;;生物信息學[J];計算機教育;2006年09期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 唐一源;沈鈞賢;徐志敏;;生物信息學與神經(jīng)信息學數(shù)據(jù)庫的整合[A];第九次全國生物物理大會學術會議論文摘要集[C];2002年

2 高亞梅;韓毅強;余麗蕓;;生物信息學本科教學研究初探[A];高教科研2006(中冊:教學改革)[C];2006年

3 楊劍;;生物信息學在新發(fā)再發(fā)傳染病研究中的應用[A];新發(fā)和再發(fā)傳染病防治熱點研討會論文集[C];2011年

4 潘潔;;生物信息學對中藥現(xiàn)代化的作用[A];2006第六屆中國藥學會學術年會論文集[C];2006年

5 葛劍徽;李成;謝迅雷;;生物信息學發(fā)展現(xiàn)狀與前景展望[A];2008年中華臨床醫(yī)學工程及數(shù)字醫(yī)學大會暨中華醫(yī)學會醫(yī)學工程學分會第九次學術年會論文集[C];2008年

6 劉湘軍;;生物信息學的研究現(xiàn)狀[A];第九次全國生物物理大會學術會議論文摘要集[C];2002年

7 孫金立;李路路;王棟;;生物信息學多媒體教學系統(tǒng)結(jié)構框架[A];圖書館改革與發(fā)展——陜西省社會科學信息學會第六次學術討論會論文集[C];2003年

8 陸文聰;鈕冰;;基于數(shù)據(jù)挖掘的生物信息學研究進展[A];中國化學會第27屆學術年會第15分會場摘要集[C];2010年

9 康曉東;;生物信息學及其研究對象[A];2003年全國醫(yī)學影像技術學術會議論文匯編[C];2003年

10 呂暉;;生物信息學與個體化醫(yī)學[A];第九屆全國遺傳病診斷與產(chǎn)前診斷學術交流會暨產(chǎn)前診斷和醫(yī)學遺傳學新技術研討會論文集[C];2014年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 劉義;生物信息學產(chǎn)業(yè)浮出水面[N];中國高新技術產(chǎn)業(yè)導報;2000年

2 張雅麗;加強交流 立足中國生物信息學最新進展[N];科技日報;2000年

3 本報記者 白毅;生物信息學院士談[N];中國醫(yī)藥報;2002年

4 劉麗麗;高性能計算為生物信息學加速[N];計算機世界;2007年

5 中科院生物學部 張春霆;對生物信息學的展望[N];北京科技報;2000年

6 魏中文;生物信息學是開啟后基因組時代的“金鑰匙”[N];北京科技報;2002年

7 記者 王雪飛;我國科學家向政府建議——加強生物信息學學科建設[N];健康報;2000年

8 白毅;加強生物信息學建設推動人類基因組研究[N];中國醫(yī)藥報;2002年

9 王雪飛 吳黎;中國生物信息學研究快速發(fā)展[N];健康報;2002年

10 春曉;國外生物信息學的發(fā)展與現(xiàn)狀[N];中國醫(yī)藥報;2002年

中國博士學位論文全文數(shù)據(jù)庫 前6條

1 楊帥;面向組學大數(shù)據(jù)的生物信息學研究[D];中國人民解放軍軍事醫(yī)學科學院;2016年

2 喬立安;基于網(wǎng)格的生物信息學計算流程系統(tǒng)的研究[D];清華大學;2005年

3 賴煦卉;基于生物信息學的抗結(jié)核藥物靶點的篩選與驗證[D];復旦大學;2008年

4 張成崗;基于本地和WEB的生物信息學綜合分析體系的建立及部分新基因的初步實驗研究[D];中國人民解放軍軍事醫(yī)學科學院;2000年

5 朱英杰;藥用植物基因資源的生物信息學研究[D];北京協(xié)和醫(yī)學院;2014年

6 王嫻;蛋白殘基可溶性預測及基因表達數(shù)據(jù)分析方法研究[D];中國科學技術大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 李中輝;Ⅱ型糖尿病相關基因的生物信息學研究[D];南方醫(yī)科大學;2015年

2 張書欣;生物信息學若干問題研究報告[D];吉林大學;2012年

3 劉維;生物信息學中的并行處理[D];揚州大學;2007年

4 張景祥;關于生物信息學的幾個問題[D];江南大學;2008年

5 雷國慶;面向生物信息學結(jié)構預測領域的算法加速器設計[D];國防科學技術大學;2010年

6 劉丙強;生物信息學中的若干組合問題[D];山東大學;2006年

7 周萍;生物信息學多序列比對及種系生成樹的幾種技術和算法研究[D];電子科技大學;2007年

8 湯思捷;蛋白質(zhì)可溶性預測的生物信息學模型及應用[D];蘇州大學;2014年

9 黃金;聚類和分類技術在生物信息學中的應用[D];黑龍江大學;2005年

10 朱賢芳;生物序列的比對算法比較研究[D];南京理工大學;2005年

,

本文編號:1311917

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/1311917.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ce35e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com