【摘要】:■背景給定一組基因,如從高通量技術(shù)篩選出來的差異表達基因,掌握它們參與的生物學(xué)過程、功能和分子網(wǎng)絡(luò)對解析它們有很大的幫助。鑒定與某個生物醫(yī)學(xué)事件相關(guān)的人基因,例如各種疾病、生物或病理過程、基因功能等,對于生物醫(yī)學(xué)研究者、數(shù)據(jù)庫的創(chuàng)建者和注釋者都有非常重大的價值。在網(wǎng)絡(luò)醫(yī)學(xué)時代,收集所有已知的相關(guān)基因,如已有文獻報道、或生物審編者注釋的基因,進一步地構(gòu)建與之對應(yīng)的基因網(wǎng)絡(luò),對于發(fā)現(xiàn)參與某個特定的生物醫(yī)學(xué)事件的新基因和提示潛在的分子機制都有重要的意義。人工審編的數(shù)據(jù)庫或工具是這兩個問題的標準解決方案,基因本體論(Gene Ontology,GO)用結(jié)構(gòu)化的受控詞匯注釋基因或基因產(chǎn)物的基因功能、生物學(xué)過程和細胞定位,KEGG通路數(shù)據(jù)庫繪制各種代謝通路,HPRD、BioGRID和IntAct等數(shù)據(jù)庫從科技文獻中審編和歸檔蛋白-蛋白相互作用(PPI,Protein-Protein Interaction)。不少注釋工具整合了這些人工審編數(shù)據(jù)庫使注釋變得更加方便和可行,如DAVID和EGAN。一些更細化的數(shù)據(jù)庫也可以查找與定義好的主題相關(guān)的基因,抑癌基因數(shù)據(jù)庫(TSGene)鑒定了數(shù)百個抑癌基因,oncomiRDB數(shù)據(jù)庫注釋了有實驗驗證的致癌和抑癌的miRNAs,LncRNADisease數(shù)據(jù)庫審編了文獻中有實驗證實的LncRNA-疾病關(guān)聯(lián)的數(shù)據(jù)。CTD(Comparative Toxicogenomics Database)提供了大量人工從文獻中審編的化合物-基因、化合物-疾病和基因-疾病的相互關(guān)系,并整合這些數(shù)據(jù)產(chǎn)生化合物-基因-疾病網(wǎng)絡(luò)。這些人工審編的數(shù)據(jù)庫提供了有效的解決方案,然而,基于知識的覆蓋面仍然不夠全面,主要原因是生物醫(yī)學(xué)文獻的增長迅猛、結(jié)構(gòu)化的詞匯不能跟上新術(shù)語的產(chǎn)生、以及人工審編是一項費時費力的工作。PubMed數(shù)據(jù)庫已包含超過2400萬條生物醫(yī)學(xué)文獻的索引并且以每年4%的速度增長。對于生物審編專家來說,有所需的功能和易用界面文獻挖掘工具在他們的注釋流程中也是迫切需要的。一些文獻挖掘工具可以在一定程序上彌補這些問題。Martini和CoPub 5.0使用了基于關(guān)鍵詞的方法注釋基因功能,不過關(guān)鍵詞僅限于事先定義好的詞庫。iHOP和STRING構(gòu)建基因網(wǎng)絡(luò)基于基因在文獻中的共現(xiàn)關(guān)系,然而有研究表明即使兩個基因是共現(xiàn)于同一個句子也只有30%的可能是在描述相互作用。FACTA+、EBIMed和Polysearch可以在MEDLINE摘要發(fā)現(xiàn)隱藏的不同生物醫(yī)學(xué)概念之間的相互關(guān)系,使得它們能夠幫助用戶查找與搜索詞相關(guān)的基因。然而,FACTA+和EBIMed不能搜索詞組,相反PolySearch不能搜索多個單詞。DGA(Disease and Gene Annotation)數(shù)據(jù)庫整合了GeneRIF、疾病本體(Disease Ontology)和分子相互作用網(wǎng)絡(luò)來構(gòu)建疾病-基因、基因-基因和疾病-疾病的關(guān)系網(wǎng)絡(luò)。然而,GeneRIF句子中有大量的疾病名稱是以縮略詞而不是全稱出現(xiàn),使得DGA建立的疾病-基因關(guān)聯(lián)并不完整。本課題擬采用文獻挖掘的方法進行三個方面的研究:(i)以自由詞來注釋人基因功能,自由詞可以是文獻挖掘產(chǎn)生也可以是用戶提交;(ii)從MEDLINE摘要中準確識別和整合廣泛的分子相互作用,以此構(gòu)建基因網(wǎng)絡(luò)以及與自由詞相關(guān)的子網(wǎng)絡(luò);(iii)充分挖掘與任意自由詞共同出現(xiàn)在文獻中的基因,實現(xiàn)高效地檢索與任意主題相關(guān)的基因,并構(gòu)建它們的基因網(wǎng)絡(luò)。最終形成兩個相應(yīng)的網(wǎng)絡(luò)版分析應(yīng)用工具GenCLiP2.0和CooLGeN。■材料與方法1、文獻挖掘人基因功能和基因網(wǎng)絡(luò)。(1)基因相關(guān)摘要識別整合NCBI Gene和HGNC收錄的每個基因編號對應(yīng)的官方名稱和別名。進一步編輯基因庫,排除無意義的術(shù)語、歧義性很強的術(shù)語和常見的英語詞匯,并且根據(jù)基因名稱拼寫規(guī)則擴展基因庫;蛎Q識別使用基于字典和基于規(guī)則的方法來確定摘要中出現(xiàn)的基因名稱及對應(yīng)的基因編號。在BioCreative II Gene Normalization(GN)的訓(xùn)練集和GenCLiP單機版的基礎(chǔ)上重新整理制定的一系列復(fù)雜的識別規(guī)則;蛎Q識別方法在MEDLINE摘要中識別基因名稱并確定每個基因編號對應(yīng)的摘要,創(chuàng)建基因-摘要(GID-PMID)的關(guān)聯(lián)。(2)基因功能注釋和聚類分析在基因相關(guān)摘要中篩選高頻出現(xiàn)的術(shù)語(包括單詞、GO術(shù)語和有縮略詞的詞組)作為基因的關(guān)鍵詞。根據(jù)用戶提交的基因,采用模糊聚類的算法將關(guān)鍵詞的注釋結(jié)果進行分組,該方法首先用kappa統(tǒng)計值評價關(guān)鍵詞與關(guān)鍵詞之間的密切程度,再將密切相關(guān)的關(guān)鍵詞聚成一類。用戶可以自由編輯關(guān)鍵詞來注釋輸入基因,可以添加或者移除關(guān)鍵詞。根據(jù)用戶選擇的關(guān)鍵詞和輸入的基因可以產(chǎn)生聚類分析的熱圖。(3)分子相互作用識別基于規(guī)則的分子相互作用識別方法在句子中從頭挖掘分子相互作用,該方法從5個包含PPI注釋的PPI語料庫:AImed、BioInfer、HPRD50、IEPA和LLL中總結(jié)歸納,充分衡量基因和調(diào)控詞的上下文,基因間和基因與調(diào)控詞之間的距離等。4個PPI數(shù)據(jù)庫HPRD、BioGRID、CORUM和IntAct中的基因?qū)θ绻霈F(xiàn)在句子中則加入分子相互作用數(shù)據(jù)。收集所有出現(xiàn)基因?qū)Φ木渥?以及它們所在的摘要作為基因?qū)Φ纳舷挛摹?4)基因網(wǎng)絡(luò)構(gòu)建基因網(wǎng)絡(luò)的構(gòu)建是基于分子相互作用數(shù)據(jù)庫的基因?qū)?子基因網(wǎng)絡(luò)在用戶提交指定的自由詞后根據(jù)基因?qū)λ诘纳舷挛臉?gòu)建,當基因?qū)妥杂稍~共同出現(xiàn)在一個句子或者摘要時邊的連接則成立。節(jié)點的邊框以高亮的顏色提示與用戶提交的搜索詞相關(guān)的基因。另外,用戶還可以構(gòu)建上調(diào)和下調(diào)基因的基因網(wǎng)絡(luò),基因網(wǎng)絡(luò)中以不同顏色區(qū)分兩者。在構(gòu)建網(wǎng)絡(luò)的同時進行隨機模擬用于評價生成的網(wǎng)絡(luò)是否特異于輸入基因。2、與任意主題相關(guān)的基因和基因網(wǎng)絡(luò)(1)基因相關(guān)MEDLINE摘要和句子基因名稱識別程序?qū)EDLINE摘要中的的基因識別并指定對應(yīng)的基因編號(GID),建立GID-PMID關(guān)聯(lián)。將摘要分割成句子(SID)并識別出現(xiàn)的基因,建立SID-PMID關(guān)聯(lián)。將摘要和句子中的單詞和詞組索引,關(guān)聯(lián)GID,SID和PMID,支持詞相關(guān)基因檢索。(2)提取和補充GeneRIF句子每個GeneRIF句子包括了一個基因編號(GID)和PMID。我們提取描述人基因的句子(RID),建立GID-RID關(guān)聯(lián)。用BioADI和Allie庫鑒定的縮略詞和全稱形式用于補充GeneRIF句子中未定義的縮略詞。根據(jù)指定的基因編號和基因字典識別句子中的基因名稱,建立單詞和詞組的索引,關(guān)聯(lián)GID和RID,支持相關(guān)基因的搜索。(3)分子相互作用數(shù)據(jù)基因/蛋白相互作用數(shù)據(jù)由兩種類型的組成:審編的PPIs,由HPRD、BioGRID、IntAct和CORUM整合而來;文獻挖掘的分子相互作用,由分子相互作用識別程序自動挖掘而來。互作的數(shù)據(jù)用于在探索基因-基因關(guān)聯(lián)時提示用戶哪些是已知的互作因子,根據(jù)所選基因構(gòu)建與某個基因或者某個主題可能特異的基因網(wǎng)絡(luò)。3、網(wǎng)絡(luò)平臺的開發(fā)。GenCLiP 2.0和CooLGeN采用典型的LAMP平臺(Linux + Apache + MySQL +PHP/Perl)搭建,設(shè)計友好的用戶使用界面。基因和關(guān)鍵詞的平均連鎖等級聚類由Cluter3.0的Perl模塊完成,再由PHPGD庫生成熱圖輸出?山换サ幕蚓W(wǎng)絡(luò)用基于Flash的Cytoscape Web和jQuery JavaScript庫構(gòu)建。4、網(wǎng)絡(luò)平臺的應(yīng)用和比較以周期表達的細胞周期相關(guān)基因檢驗GenCLiP 2.0在關(guān)鍵詞注釋方面的性能,與Martini、FatiGO和CoPub的注釋進行比較。GenCLiP2.0分析瘢痕疙瘩與增生性瘢痕比較的差異表達基因,與CoPub,STRING和DAVID等比較對應(yīng)的功能。CooLGeN查找EZH2的互作因子和與上皮-間充質(zhì)轉(zhuǎn)換相關(guān)的基因和基因網(wǎng)絡(luò),與iHOP、PolySearch、EBIMed、CoPub和FACTA+比較相應(yīng)的功能!鼋Y(jié)果1.我們的基因名稱識別程序在BioCreative II(GN)的測試集上達到了查全率83.8%,準確率81.8%,F值82.8%,優(yōu)于當時競賽的測試方法。在iHOP的測試集上測試F值為0.86,結(jié)果優(yōu)于iHOP。在MEDLINE摘要庫中,我們識別到了20228個基因出現(xiàn)在了約378萬篇摘要和1482萬個句子中。2.總共確定了 16703個關(guān)鍵分配給了20160個基因,4143個關(guān)鍵詞是有縮略語的詞組,2313個為GO術(shù)語。分子相互作用識別程序總共識別到了 10937個基因形成了83037對分子相互作用,其中有69059對是未被其它4個PPI數(shù)據(jù)庫收錄的。在測試集和我們隨機取出樣本中,識別的準確率都將近90%。在整合4個數(shù)據(jù)庫后,分子相互作用數(shù)據(jù)達到了 104734對,共有約275萬個句子和108萬個摘要的背景知識。3.GenCLiP 2.0(http://ci.smu.edu.cn/GenCLiP2.0/)是一個基于網(wǎng)絡(luò)的分析工具,通過3個功能分析人基因:(i)從基因相關(guān)摘要中計算高頻率出現(xiàn)的詞匯和用戶提交的自由詞產(chǎn)生關(guān)鍵詞,并進行富集分析和聚類分析;(ii)用準確識別的分子相互作用數(shù)據(jù)構(gòu)建基因網(wǎng)絡(luò)和構(gòu)建與用戶提交搜索詞相關(guān)的子網(wǎng)絡(luò);(iii)基因的GO術(shù)語和通路富集分析和聚類分析。4.CooLGeN網(wǎng)址:http://ci.smu.edu.cn/Test/CooLGeN/,主要包括三種網(wǎng)頁界面:輸入界面、結(jié)果基因與文獻查閱界面和基因網(wǎng)絡(luò)可視化界面。輸入分成兩種類型:自由詞和基因官方名稱,支持發(fā)掘與自由詞相關(guān)的基因和基因-基因的關(guān)聯(lián)。輸入自由詞時支持布爾邏輯搜索,用戶可以同時輸入多個單詞或詞組。文獻上下文包括了 MEDLINE摘要和句子以及GeneRIF句子。用戶可以從結(jié)果基因中選擇或者另外添加基因構(gòu)建網(wǎng)絡(luò)。5.GenCLiP 2.0分析118個瘢痕疙瘩差異表達基因時,富集的關(guān)鍵詞主要與細胞生長、細胞外基質(zhì)、上皮間充質(zhì)轉(zhuǎn)換、細胞遷移、間充質(zhì)干細胞和傷口愈合。我們?nèi)斯ぬ砑幽z原作為檢索詞時,結(jié)果有10個上調(diào)基因與膠原密切相關(guān)。以上關(guān)鍵詞與瘢痕疙瘩的特點非常一致,與傳統(tǒng)觀點不同的是,角化細胞和角化細胞分化也注釋為關(guān)鍵詞,這提示我們應(yīng)注意角化細胞;蚓W(wǎng)絡(luò)的結(jié)果顯示MMP2在網(wǎng)絡(luò)中扮演得重要角色,并且MMP2的激活因子THBS2、CST2和GLB1是上調(diào)表達基因,抑制因子IL1RN、S100A8和S100A9是下調(diào)表達基因,這些基因大多數(shù)在瘢痕疙瘩中還未有研究。因此,我們認為異常表達的基因可以導(dǎo)致MMP2的上調(diào)表達,可能影響瘢痕疙瘩的進程。GenCLiP 2.0的分析與同類軟件相比有它獨特的優(yōu)勢。6.在實際應(yīng)用示例中CooLGeN可以快捷地找出文獻有報道的與EZH2有關(guān)聯(lián)的基因,經(jīng)我們初步查閱后確定了 51個尚未在人工審編數(shù)據(jù)庫有注釋的互作因子。在查找與上皮-間充質(zhì)轉(zhuǎn)換過程相關(guān)的基因時,CooLGeN支持布爾邏輯檢索多個自由詞快速找出了與之有共現(xiàn)關(guān)系的基因,我們從中確認了 140個未在GO數(shù)據(jù)庫中注釋的基因,以此構(gòu)建的基因網(wǎng)絡(luò)也反映出了EMT復(fù)雜的互作網(wǎng)絡(luò)。與同類軟件相比較,CooLGeN在查找相關(guān)基因時更便捷和高效,滿足更多科研工作者的需求,并且是第一款支持布爾邏輯檢索的工具。■結(jié)論1.我們研發(fā)了基于網(wǎng)絡(luò)的文獻挖掘軟件GenCLiP 2.0,可以分析一組人基因富集的關(guān)鍵詞和它們的分子相互作用。相比較于同類軟件,它主要有兩個獨特之處:(i)以自由詞來注釋人基因功能,自由詞可以是文獻挖掘產(chǎn)生也可以是用戶提交;(ii)從MEDLINE摘要中準確識別和整合廣泛的分子相互作用,以此構(gòu)建基因網(wǎng)絡(luò)以及與自由詞相關(guān)的子網(wǎng)絡(luò)。GenCLiP2.0在闡明疾病的分子機制,構(gòu)建疾病的分子網(wǎng)絡(luò),發(fā)現(xiàn)診治的靶點等方面具有獨特的優(yōu)勢。但是,其缺點是注釋的假陽性率較高,不如GO和KEGG等人工注釋數(shù)據(jù)庫可靠。2.CooLGeN是一款新的文獻挖掘工具專門用于挖掘與任意搜索詞和基因一同在文獻中出現(xiàn)的基因,以及構(gòu)建這些基因的基因網(wǎng)絡(luò)。它強大的功能為生物醫(yī)學(xué)研究者們鑒定感興趣的基因以及它們的相互作用提供了有力且高效的解決方案,同時它可以幫助生物審編專家們注釋基因的相關(guān)信息。
[Abstract]:......
【學(xué)位授予單位】:南方醫(yī)科大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:R3416;G353.1
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 王英;計算法鑒定寄生蟲基因[J];國外醫(yī)學(xué)(寄生蟲病分冊);2002年03期
2 王華忠,牛吉山,陳佩度;利用瞬間表達技術(shù)分析小麥抗病相關(guān)基因的功能[J];遺傳學(xué)報;2005年09期
3 郭繼華;葉方立;;臨床醫(yī)學(xué)與基因[J];醫(yī)學(xué)研究通訊;2001年08期
4 李瀟;;肺癌與發(fā)育中肺的基因活性相似性[J];中國生物化學(xué)與分子生物學(xué)報;2007年01期
5 宜文;;壞習(xí)慣可改變基因傳后代[J];老同志之友;2010年11期
6 ;父輩壞習(xí)慣可能通過基因傳后代[J];婚育與健康;2010年15期
7 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 常蕓;;人類運動能力相關(guān)基因標記與研究策略[A];第八屆全國體育科學(xué)大會論文摘要匯編(一)[C];2007年
2 俞松良;;基因標記與肺癌預(yù)後[A];2010年江蘇省抗癌協(xié)會第二屆傳統(tǒng)醫(yī)學(xué)專業(yè)委員會學(xué)術(shù)研討會資料匯編[C];2010年
3 朱金燕;王軍;楊杰;范方軍;楊金歡;仲維功;;直立穗基因qPE9-1基因標記的開發(fā)及利用[A];現(xiàn)代分子植物育種與糧食安全研討會論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前8條
1 張代蕾;基因檢測:揭示健康密碼?[N];經(jīng)濟參考報;2013年
2 本報記者 孟剛;基因測天賦可信嗎?[N];中國消費者報;2009年
3 記者 周會清 通訊員 常紅梅;采用基因標記技術(shù)育成的雜交稻通過審定[N];湖北科技報;2006年
4 丁香 編譯 丁萍 評論;基因檢測價值有限?[N];醫(yī)藥經(jīng)濟報;2009年
5 記者 鐵錚;基因標記分子育種研究獲重要進展[N];中國綠色時報;2013年
6 本報記者 馮衛(wèi)東 整理 聶翠蓉;百年誕辰日 基因盼“回家”[N];科技日報;2009年
7 組稿 王毅俊;基因探秘 造福人類[N];上海科技報;2010年
8 記者 潘治;夢游:可能與遺傳有關(guān)系[N];新華每日電訊;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 苑翠玲;栽培及野生小麥中條銹病抗性基因的定位和利用[D];山東農(nóng)業(yè)大學(xué);2014年
2 胡海燕;水稻苗/穗瘟防衛(wèi)反應(yīng)相關(guān)基因的分離與鑒定[D];中國農(nóng)業(yè)科學(xué)院;2006年
3 賈舉慶;小麥—非洲黑麥漸滲系的鑒定與抗條銹基因的分子作圖[D];電子科技大學(xué);2010年
4 楊芳萍;中國小麥品種光周期和品質(zhì)基因分子鑒定[D];甘肅農(nóng)業(yè)大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 丁丹;水稻5個粒型相關(guān)基因的分子標記開發(fā)與效應(yīng)分析[D];南京農(nóng)業(yè)大學(xué);2014年
2 張曉萍;光周期誘導(dǎo)馬鈴薯淀粉積累響應(yīng)基因的識別及功能研究[D];寧夏大學(xué);2016年
3 孫亞林;番茄四個抗病基因的基因標記的創(chuàng)建與輔助選擇[D];華中農(nóng)業(yè)大學(xué);2008年
4 王惠梅;水稻tls基因啟動子研究[D];浙江大學(xué);2011年
5 衛(wèi)波;小麥抗旱相關(guān)基因TaDREB1的SNP標記開發(fā)與定位[D];西北農(nóng)林科技大學(xué);2006年
6 鄭飛;玉米磷轉(zhuǎn)運蛋白基因同源序列克隆與分析[D];四川農(nóng)業(yè)大學(xué);2009年
7 陽霞;分子標記輔助選擇在小麥抗病育種早期世代的應(yīng)用研究[D];西北農(nóng)林科技大學(xué);2014年
8 劉娜;vgb基因在抗蟲棉中的功能研究[D];新疆農(nóng)業(yè)大學(xué);2007年
9 吳永振;小麥D基因組抗病基因類似序列RGA-SSR標記的開發(fā)及其應(yīng)用[D];四川農(nóng)業(yè)大學(xué);2011年
10 常陽;Tα-JA2、TαAetPR5和TαXα基因的克隆與鑒定[D];河南農(nóng)業(yè)大學(xué);2009年
,
本文編號:
2279102