天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 理工論文 > 生物學論文 >

RNA互作文本挖掘工具開發(fā)及應用研究

發(fā)布時間:2020-08-20 18:33
【摘要】:RNA互作組學(RNA interactomics)是RNA組學(RNomics)研究的重要組成。其中,(1)RNA互作數據的收集和歸納以及(2)RNA相關互作網絡的分析與挖掘是RNA互作組學研究的重要內容。目前生物學家已經開發(fā)了各種RNA互作相關的高通量實驗技術、預測算法以及數據庫,為RNA互作組學中數據收集和歸納研究提供了有力支撐。然而,還有大量生物實驗發(fā)現的RNA互作數據分散在海量的文獻中,缺乏系統(tǒng)的收集和歸納,這是RNA互作組學領域亟待解決的問題之一。開發(fā)針對相關數據的文本挖掘算法,是解決這個問題的重要途徑。同時,RNA互作網絡通常包含了海量的信息,這種級別的數據往往是傳統(tǒng)生物學實驗和技術難以應對的。因此,從數學和統(tǒng)計角度分析RNA互作網絡,根據分析結果指導實驗研究將成為RNA互作組學研究的新方法。本論文針對散在于文獻中的海量RNA互作數據,開發(fā)了RIscoper(RNA Interactome Scoper)文本挖掘系統(tǒng),可提取收集海量文獻中各種RNA-RNA互作(RNA-RNA interaction,RRI)數據。然后,針對基于RIscoper軟件輔助收集的RRI數據形成的RNA互作網絡,選擇對其中病毒-宿主間非編碼RNA(non-coding RNA,ncRNA)介導的串擾(crosstalk)網絡進行深入挖掘,嘗試揭示病毒感染過程中潛在的分子機制。本論文的主要研究內容如下:1.基于N-元語義模型(N-gram model)設計和開發(fā)RIscoper算法流程及軟件。算法流程第一步為語句標準化(sentence standardization),包括語句分割和詞形還原等內容;第二步是對語句中的RNA名稱進行命名實體識別(named entity recognition);第三步是語句打分(sentence scoring),用分值評價語句是否包含RRI數據信息,具體包括利用N-元語義模型計算語句的最大似然概率、利用柯蒂斯平滑算法(Katz smoothing algorithm)對概率矩陣進行平滑處理以及利用幾何平均值對語句長度進行標準化處理。2.構建了一個包括13,377條RRI陽性語句的語料庫作為RIscoper標準訓練集。該語料庫內所有語句均是通過人工閱讀大量的專業(yè)文獻而獲取的(來源于超過5,000篇專業(yè)期刊文獻),覆蓋多種RNA互作信息。3.使用10-折交叉驗證方法評價軟件的性能。結果證明RIscoper在RRI數據(精確度:90.4%,召回率93.9%)和蛋白質-蛋白質互作(protein-protein interaction,PPI)數據(精確度:90.3%,召回率94.1%)提取上都有很高的性能。此外,案例研究的結果發(fā)現RIscoper可提取到絕大部分有效的RRI信息,這些結果表明RIscoper軟件具有良好的準確性和實用性。4.收集整理多個數據庫和平臺的病毒-宿主(人類)間以及人類的PPI以及ncRNA-蛋白質互作(ncRNA-protein interaction,NPI)網絡數據(其中NPI網絡數據來自于RIscoper軟件的輔助),分析病毒ncRNA靶向的宿主蛋白質以及ncRNA在PPI以及NPI網絡中的中心性(度與介數),結果發(fā)現病毒ncRNA靶向的宿主蛋白質和ncRNA在網絡中傾向于是中樞節(jié)點(hub node)以及瓶頸節(jié)點(bottleneck node)(靶向蛋白質:Wilcoxon秩和檢驗,度:P=1.99E-11,介數:P=9.32E-09;靶向ncRNA:Wilcoxon秩和檢驗,度:P2.2E-16,介數:P2.2E-16)。提示病毒在感染過程中傾向于攻擊宿主分子調控網絡的重要節(jié)點。例如,EBV原始病原體miR-BHRF1-1直接靶向人類PPI網絡中樞和瓶頸蛋白質P53,控制EBV晚期裂解復制;ebv-miR-BHRF1-2直接靶向BCL2,抑制細胞早期凋亡。5.對病毒ncRNA和蛋白質共同靶向的人類蛋白質的中心性和功能進行分析,發(fā)現其度和介數顯著高于其他靶向蛋白質,且顯著參與到細胞死亡相關生物學功能中,尤其是參與到自噬相關的調控網絡。6.定義和篩選病毒-人類間功能同源性ncRNA對,通過對ncRNA共同靶向的基因數量進行顯著性分析,得到820條潛在的病毒-人類間功能同源性ncRNA對(P0.01),提示部分病毒ncRNA和人類ncRNA傾向于調節(jié)類似的靶基因集合,存在功能上的同源性。7.基于病毒-人類間ncRNA串擾網絡,利用重啟隨機游走算法對病毒進行聚類分析,結果發(fā)現了6個不同的病毒簇。功能富集分析發(fā)現不同的病毒簇具有不同的功能傾向而同一病毒簇的功能趨向于相同。這提示不同病毒簇間存在著不同的感染和發(fā)病機制而同一病毒簇可能存在機制上的同源性。綜上所述,本研究圍繞著RNA互作組學目前的需求和方向,基于自然語言處理開發(fā)了挖掘文獻中RRI信息的工具RIscoper,為未來RNA組學研究提供數據積累和技術支撐。然后,針對RIscoper輔助挖掘得到的病毒-宿主間ncRNA介導的串擾網絡進行深入挖掘和研究,揭示病毒感染的一些潛在的分子機制,為全面解析病毒感染機制以及開發(fā)相應治療方案提供有效的信息和線索。
【學位授予單位】:電子科技大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.1;Q811.4
【圖文】:

示意圖,中樞,節(jié)點,瓶頸


圖 1-1 網絡的中樞節(jié)點和瓶頸節(jié)點以及 k-核的示意圖。(a)網絡的中樞節(jié)點與瓶頸節(jié)點的示意圖;(b)網絡的 k-核的示意圖表 1-4 網絡中的一些基本術語及拓撲學特征的定義術語 定義

算法流程,語句,實體


圖 2-1 RIscoper 算法流程。第一步是語句標準化,RIscoper 通過 OpenNLP 工具將文章分割成語句,并通過 BioLemmatizer 工具對所有單詞進行詞形還原;第二步是命名實體識別(NER),RIscoper 集成一個預設實體語料庫用于 NER;第三步是語句打分,RIscoper 通過 N-gram 模型進行評分;此外,RIscoper 提供了一個可選模塊(RNA 名稱實體過濾器),用于過濾掉不包含 RNA 名稱的語句

模型圖,二元語義,語料庫,模型


0.01 0.0245 0.9846 0.6457 0.77982.4.2.2 使用PPI語料庫評價性能本章研究還整理和收集了一套 PPI 語料庫對 RIscoper 性能進行評價。PPI 語料庫來源于 BioCreative III 語料庫[137],其是一個用于評估生物與醫(yī)學領域內文本挖掘和信息提取軟件的標準語料庫。首先,通過 10-折交叉驗證方法將陽性集(1,617條陽性語句)和陰性集(1,617 條陰性語句)分別平均分成十份,九份陽性集用來估計模型參數,構建打分矩陣。九份陰性集用于判斷 FDR 閾值的背景。另兩份具有類別標簽,用來測試軟件性能。然后通過 ROC 曲線評價性能,結果發(fā)現 AUC為 0.962(見圖 2-4b)。最后,分別取 FDR 為 0.01,0.05 以及 0.1 三個閾值,計算精確度,召回率以及 F1-值,結果與 RRI 語料庫的評估結果類似(見表 2-2),在FDR 分別為 0.1 與 0.05 的情況下,F1-值均超過 0.9(0.9217,0.9118)。而 FDR為 0.01 時,閾值設置相對嚴格,導致召回率顯著下降,最終 F1-值不到 0.8(0.7805)。以上結果顯示,基于 1:1 的 PPI 陽性和陰性語句數據集,RIscoper 仍然具有很好的性能。

【相似文獻】

相關期刊論文 前8條

1 劉樹業(yè);;非編碼RNA調節(jié)異常在肝細胞癌發(fā)生發(fā)展中的作用[J];世界華人消化雜志;2019年18期

2 鄭凌伶;戚益軍;屈良鵠;;走向國際科技前沿的中國RNA研究[J];中國科學:生命科學;2019年10期

3 林琳;劉建華;吳麗娜;;甲狀腺癌RNA分子研究進展[J];腫瘤防治研究;2019年11期

4 楊瑩潔;趙虹;;競爭性內源RNA在神經退行性疾病中的作用研究進展[J];內科理論與實踐;2019年05期

5 劉凱;葉遠舟;吳雨宸;蘇儉生;;非編碼RNA在牙髓炎中的研究進展[J];中華臨床醫(yī)師雜志(電子版);2019年03期

6 秦少杰;王曉燕;林利;;環(huán)狀RNA的生物學功能及其在心血管疾病中的作用[J];臨床與病理雜志;2019年10期

7 張碩;王非凡;劉洪臣;;環(huán)狀RNA調控骨髓間充質干細胞成骨分化的研究進展[J];口腔頜面修復學雜志;2019年05期

8 楊宗霖;王藝;馬田田;霍春月;劉曉;闞云超;李丹丹;;有翅和無翅豌豆蚜中翅型分化信號通路相關微小RNA及其靶基因的表達差異[J];昆蟲學報;2019年11期

相關會議論文 前10條

1 張暢斌;尹愛華;何天文;王波;鄧文喻;賴有行;;一種經濟便捷的手足口病原RNA提取方法[A];廣東省遺傳學會第九屆代表大會暨學術研討會論文及摘要匯編[C];2014年

2 李園園;陸俊梅;程松;崔振玲;;RNA恒溫擴增實時檢測技術鑒定鳥分枝桿菌和胞內分枝桿菌[A];第四屆中國臨床微生物學大會暨微生物學與免疫學論壇論文匯編[C];2013年

3 Jingrong Wang;Junping Kou;Hilda Yau;Wanrong Zong;Tongmeng Yan;Zhi-Hong Jiang;;Protective Effect and Sequences of RNA Fragments from Ginseng's Larger RNAs against Myocardial Ischemia Injury in Mice[A];中國化學會第十一屆全國天然有機化學學術會議論文集(第一冊)[C];2016年

4 郭曉強;張巧霞;黃衛(wèi)人;蔡志明;;長鏈非編碼RNA與腎細胞癌發(fā)生[A];遺傳多樣性:前沿與挑戰(zhàn)——中國的遺傳學研究(2013-2015)——2015中國遺傳學會大會論文摘要匯編[C];2015年

5 吳建軍;李勛;黃錦坤;楊倜;徐益勤;楊巧媛;蔣義國;;環(huán)境化學物暴露血液非編碼RNA標志物研究[A];中國毒理學會第七次全國毒理學大會暨第八屆湖北科技論壇論文集[C];2015年

6 李成云;梁戈玉;姚文卓;隋靜;申嫻;張艷秋;馬書梅;尹立紅;浦躍樸;;胃癌相關長鏈非編碼RNA的鑒定及腫瘤標志物的篩選研究[A];中國毒理學會第七次全國毒理學大會暨第八屆湖北科技論壇論文集[C];2015年

7 徐勇;張付全;張克讓;Yin Yao Shugart;;精神分裂癥中轉錄因子-微小RNA交互調控網絡的異常[A];中華醫(yī)學會第十三次全國精神醫(yī)學學術會議論文匯編[C];2015年

8 韓艷華;陳紅印;張禮生;;RNA干擾技術在昆蟲滯育機制研究中的應用[A];植保科技創(chuàng)新與農業(yè)精準扶貧——中國植物保護學會2016年學術年會論文集[C];2016年

9 王小利;吳佳海;舒健虹;牟瓊;;高羊茅光周期調控基因RNA干擾表達載體構建[A];中國草學會2013學術年會論文集[C];2013年

10 魏任雄;;長鏈非編碼RNA與男性不育的研究進展[A];中華中醫(yī)藥學會第十四次男科學術大會論文集[C];2014年

相關重要報紙文章 前10條

1 中科院上海生科院上海植物生理生態(tài)所 毛穎波;尋找小RNA世界里的另一道風景[N];科學時報;2011年

2 本報記者 沈則瑾;破解環(huán)形RNA之謎[N];經濟日報;2019年

3 記者 顏維琦;我科學家深度“解碼”環(huán)形RNA[N];光明日報;2019年

4 唐一塵;新“剪刀”能暫時編輯RNA[N];中國科學報;2019年

5 趙熙熙;實驗室“原始湯”生成RNA堿基[N];中國科學報;2019年

6 記者 黃辛;科學家實現活細胞RNA標記與無背景成像[N];中國科學報;2019年

7 記者 耿挺;RNA剪接基因編輯新方法[N];上?萍紙;2018年

8 記者 聶翠蓉;基因檢測“神探夏洛克”問世[N];科技日報;2017年

9 本報記者 聶翠蓉;讓RNA處理器在活細胞中“奔騰”[N];科技日報;2017年

10 記者 毛黎;脂質分子可提高RNA干擾技術效率[N];科技日報;2009年

相關博士學位論文 前10條

1 龔朵;CCDC80下調血管平滑肌細胞LPL表達對動脈粥樣硬化的影響及機制[D];南華大學;2019年

2 張楊;RNA互作文本挖掘工具開發(fā)及應用研究[D];電子科技大學;2019年

3 盧梅華;革蘭氏陽性菌RNA降解關鍵酶的結構與功能研究[D];浙江大學;2019年

4 陳小翔;長鏈非編碼RNA-ZFAS1促進結直腸癌發(fā)生發(fā)展機制及其作為潛在標志物的初步研究[D];東南大學;2019年

5 王熵;siRNA的非對稱結構對RNA干擾的影響研究[D];湖南師范大學;2016年

6 鄧世江;長鏈非編碼RNA GLS-AS介導的c-Myc/GLS通路在胰腺癌中的作用及機制[D];華中科技大學;2019年

7 周虎;基于非編碼RNA的胃癌標志物篩選鑒定研究[D];武漢大學;2016年

8 肖明揚;環(huán)狀RNA hsa_circ_0051488的篩選驗證及其在多環(huán)芳烴致肺癌變中的生物學功能及作用機制研究[D];中國醫(yī)科大學;2019年

9 馬明輝;長鏈非編碼RNA ZBE1-AS1作為競爭內源性RNA促進胃癌發(fā)展的機制研究[D];中國醫(yī)科大學;2019年

10 靳建軍;長非編碼RNA SYISL對肌肉生長發(fā)育的影響及其分子機制研究[D];華中農業(yè)大學;2018年

相關碩士學位論文 前10條

1 胡橋;TbCSV及其衛(wèi)星TbCSB來源的部分siRNA功能研究[D];西南大學;2019年

2 代濤;基于類修飾DNA探針和免疫競爭法的RNA N~6-甲基腺苷電化學檢測方法研究[D];重慶醫(yī)科大學;2019年

3 張潤姣;Nrf2通過mmu_circRNA_32463調控α-SYN的表達[D];河北醫(yī)科大學;2019年

4 呂成偉;基于集成學習的σ~(54)啟動子及RNA修飾位點的預測[D];桂林電子科技大學;2019年

5 李家恒;長鏈非編碼RNA 9130024F11Rik在小鼠腦發(fā)育過程中的作用初探[D];華僑大學;2019年

6 劉玲;雙連接探針在RNA原位檢測中的開發(fā)和應用[D];華僑大學;2019年

7 張科;煙草蛋白-TCV P8互作影響病毒誘導的RNA沉默在細胞間傳播機制的初步研究[D];杭州師范大學;2019年

8 劉曼迪;豬源產腸毒素大腸桿菌總RNA的免疫保護作用研究[D];河北農業(yè)大學;2019年

9 杜瑩;環(huán)狀RNA hsa_circ_0011940在抗結核藥物性肝損傷患者外周血中的表達及功能研究[D];華北理工大學;2019年

10 李雙;高通量測序分析湖南地區(qū)動脈瘤性蛛網膜下腔出血患者外周血長鏈非編碼RNA表達差異[D];湖南師范大學;2019年



本文編號:2798304

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2798304.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e9ad1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com