天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本挖掘用于藥物活躍基因篩選及雷帕霉素案例分析

發(fā)布時間:2020-03-31 22:50
【摘要】:在人們一直面臨藥物短缺的難題的情況下,耐藥性現(xiàn)象的爆發(fā)更加劇了藥物短缺情況。然而,新藥研發(fā)始終面臨研發(fā)成本高昂的問題。藥物重定位,即發(fā)現(xiàn)已上市藥物新的治療活性,這一低成本藥物發(fā)現(xiàn)方法逐漸興起。由于藥物已經(jīng)進入臨床階段,藥物安全問題已解決,這意味著藥物重定位方法耗時短,成本低。然而,目前藥物重定位中還存在諸多挑戰(zhàn),其中,如何通過基因構(gòu)建藥物疾病關(guān)系是藥物重定位領(lǐng)域的重要研究方向之一。本文在此基礎(chǔ)上,引入基因通路信息,通過構(gòu)建藥物-基因-基因通路-疾病關(guān)系,達到藥物疾病關(guān)系構(gòu)建的目的,從而完成藥物重定位。這一研究過程中需要海量的生物實體關(guān)系數(shù)據(jù),這類數(shù)據(jù)絕大多數(shù)以文本的形式儲存。海量的文本通過人工閱讀來抽提其中的生物實體關(guān)系高成本低效率。因此,使用文本挖掘方法通過計算機輔助文本中的知識抽提成為解決這一問題的重要途經(jīng)。文章具體實施路線:首先,以19種典型藥物重定位藥物的藥物名為關(guān)鍵詞在PubMed中檢索相關(guān)文獻共獲得303,443摘要文本,通過文本挖掘方法從文本中挖掘出含有互作關(guān)系的基因作為藥物相關(guān)基因集;然后,將藥物基因集富集到基因通路上得到有序的藥物基因通路列表;接著,根據(jù)基因通路和疾病的直接關(guān)聯(lián)信息將藥物關(guān)聯(lián)到疾病上,從而完成構(gòu)建藥物疾病關(guān)系的目標。在這一過程中的主要工作重點:1,比較了4種文本挖掘方法在本文藥物發(fā)現(xiàn)策略上的應(yīng)用效果。這4種方法分別是基于PubTator摘要共顯,基于PubTator句子共顯,基于PubTator句子依存樹關(guān)系共顯和Turku Event Extraction System 2.1(TEES)。挖掘方法的評價共兩方面:一方面為文本挖掘得到的基因集在獲得藥物已知基因集上的準確率。4種文本挖掘方法的基因集依次計算與空白對照組基因集(KEGG數(shù)據(jù)庫中人類通路中全部的基因集)在發(fā)現(xiàn)藥物已知靶標基因集準確率上的比值,比較結(jié)果依次為:12.322,14.062,32.547和101.193,比值越大準確度越高效果越好,因此TEES方法最佳。另一個方面為比較基因通路富集結(jié)果得到的通路列表中藥物已知通路的排名情況。已知藥物基因通路在富集結(jié)果中排列越前,則該方法越好,結(jié)果表明TEES方法最佳。2,以藥物雷帕霉素為例,進行案例分析。通過TEES方法得到雷帕霉素的活躍基因集,然后采用9種通路富集方法對活躍基因集進行基因通路富集分析,得到對應(yīng)的有序基因通路列表。和CTD數(shù)據(jù)庫提供的已知藥物通路列表比較相似性,得到對應(yīng)F值,我們設(shè)計的IPF_box方法和P值效果這三種富集方法較好。綜合這三種富集結(jié)果,排名前五疾病通路乳腺癌等均由文獻驗證為雷帕霉素適應(yīng)癥。此外,我們以乳腺癌-雷帕霉素關(guān)系為案例,驗證了文本挖掘具有藥物疾病預(yù)測的功能。3,開發(fā)文本網(wǎng)絡(luò)可視化工具用于本文策略得到的藥物-疾病關(guān)系驗證。從疾病出發(fā)通過Literature Network文本網(wǎng)絡(luò)可視化工具構(gòu)建疾病基因網(wǎng)絡(luò),觀察藥物相關(guān)基因在疾病基因網(wǎng)絡(luò)中的情況,推理可能的藥物疾病作用機制,以達到驗證藥物-疾病關(guān)系的目的。
【圖文】:

基因,中包,數(shù)據(jù)庫,信息


文本挖掘用于藥物活躍基因篩選及雷帕霉素案例分析理研究不是單一的基因和單一疾病關(guān)系的構(gòu)建,而是基因-通路-疾病關(guān)系的構(gòu)建。因此,在藥物發(fā)現(xiàn)過程中還需要基因通路信息。KEGG 是一個為代謝、遺傳信息、加工環(huán)境、信息加工、細胞過程、生物系統(tǒng)、人類疾病和藥物開發(fā)提供分子相互作用、反應(yīng)和關(guān)系網(wǎng)絡(luò)的數(shù)據(jù)庫。KEGG 通路數(shù)據(jù)庫有以下數(shù)據(jù):331 個人類通路信息,38,680 個人類基因信息,其中出現(xiàn)在 KEGG 定義的人類基因通路的基因數(shù)為7,467,基因通路和基因關(guān)系信息共 30,619 條。同時 331 個通路中,僅 301 個通路包含基因互作關(guān)系。本文的通路標準為 301 個基因通路。

檢索界面


應(yīng)用程序所針對的問題,,是合適的軟件平臺。String 應(yīng)用程序是知名的蛋白互作網(wǎng)絡(luò)構(gòu)建程序,然而在這次問題中,String 應(yīng)用程序構(gòu)建的蛋白互作信息來源多樣包括文本信息,然而 string 提供的文本信息缺乏支持關(guān)系構(gòu)建的文本展示功能,由于現(xiàn)階段文本挖掘技術(shù)的誤判性依舊明顯,提供文本展示以供用戶驗證依舊十分必要。故新應(yīng)用程序的構(gòu)建是必要的。在此情況下,已有名為 AgilentLiteratureSearch 的應(yīng)用程序,Cytoscape 平臺中擁有 4,313 次下載,在其 App Store343 個程序中下載排名第 8。說明了該應(yīng)用程序的需求是明顯存在的。然而這個應(yīng)用程序明顯的缺陷在于限制參考文章總數(shù)在 1000 篇,對于海量的文獻來說,僅胰腺癌一例即在中檢索出98244 篇文獻,1000 的上限過于小,由此構(gòu)成的基因互作網(wǎng)絡(luò)意義有限。然而于此同時應(yīng)用程序非開源程序版權(quán)歸公司所有且不對外開放,同時目前該公司無人維護此程序。開發(fā)一個新的應(yīng)用程序是必要的。由此展開了 Literature network 應(yīng)用程序的開發(fā)。
【學(xué)位授予單位】:華中農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:R91

【相似文獻】

相關(guān)期刊論文 前10條

1 陶潔;;文本挖掘領(lǐng)域研究現(xiàn)狀與趨勢分析[J];武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報;2018年02期

2 陳瑩玉;;讓標點符號教學(xué)“厚實”起來[J];福建基礎(chǔ)教育研究;2016年12期

3 楊明智;張召浦;;基于文本挖掘的商學(xué)院數(shù)字創(chuàng)新課程研究[J];當代教研論叢;2017年04期

4 郭瑞華;崔雷;;文本挖掘在藥物靶位研究中的應(yīng)用[J];中華醫(yī)學(xué)圖書情報雜志;2017年03期

5 王繼鋼;;文本挖掘重點技術(shù)研究[J];漯河職業(yè)技術(shù)學(xué)院學(xué)報;2015年05期

6 鹿鵬;莊敏;龍剛;林宋偉;;文本特征提取研究現(xiàn)狀分析與展望[J];科技創(chuàng)新與品牌;2017年04期

7 汪順玉;趙晴;;基于文本挖掘的不同層次大學(xué)生英語作文的詞匯和主題特征分析[J];英語研究;2017年01期

8 陳皓琰;;基于文本挖掘的電子商務(wù)市場表現(xiàn)研究[J];科學(xué)中國人;2017年12期

9 徐浙君;;基于云計算的海量文本挖掘關(guān)鍵技術(shù)研究[J];信息與電腦(理論版);2014年08期

10 Cade Metz;文本挖掘[J];個人電腦;2003年08期

相關(guān)會議論文 前10條

1 潘若愚;姚浩浩;朱克毓;;基于詞頻統(tǒng)計分析國內(nèi)外文本挖掘的研究熱點[A];第十二屆(2017)中國管理學(xué)年會論文集[C];2017年

2 朱強生;田英;周延泉;何華燦;;基于非負因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年

3 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

4 湯寧;;基于文本挖掘的電力工單分析[A];2018智能電網(wǎng)新技術(shù)發(fā)展與應(yīng)用研討會論文集[C];2018年

5 錢程揚;龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國地理學(xué)會2007年學(xué)術(shù)年會論文摘要集[C];2007年

6 陳宇;王強;;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國計算機網(wǎng)絡(luò)與通信學(xué)術(shù)會議論文集[C];2009年

7 武洪萍;周國祥;;Web文本挖掘研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年

8 吳威;;基于Web文本挖掘算法預(yù)防現(xiàn)實危害的研究[A];第31次全國計算機安全學(xué)術(shù)交流會論文集[C];2016年

9 劉曄誠;田鵬飛;林海潮;;基于文本挖掘和SVM的股票市場擇時交易研究[A];2017年(第五屆)全國大學(xué)生統(tǒng)計建模大賽獲獎?wù)撐倪x[C];2017年

10 陳小峰;齊曉明;趙雅迪;張利鵬;;電網(wǎng)生產(chǎn)業(yè)務(wù)工單分類的文本挖掘方法應(yīng)用[A];生態(tài)互聯(lián) 數(shù)字電力——2019電力行業(yè)信息化年會論文集[C];2019年

相關(guān)重要報紙文章 前8條

1 郭勉愈 編譯;文本挖掘:預(yù)測未來的水晶球[N];科學(xué)時報;2011年

2 本報記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀經(jīng)濟報道;2009年

3 周青 編譯;文本挖掘工具實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價值[N];計算機世界;2004年

4 整理 中國出版?zhèn)髅缴虉笥浾?龔牟利;技術(shù)手段推動出版科技化[N];中國出版?zhèn)髅缴虉?2015年

5 ;SAS公司收購Teragram 強化BI領(lǐng)域地位[N];計算機世界;2008年

6 本報記者 張晶;怎樣挖掘?qū)<业幕畹慕?jīng)驗和智慧[N];科技日報;2011年

7 記者 賀建業(yè) 侯利紅;拓爾思擬發(fā)行3000萬股[N];上海證券報;2011年

8 記者 吳正懿;全面布局大數(shù)據(jù)時代 拓爾思輿情監(jiān)測業(yè)務(wù)爆發(fā)[N];上海證券報;2012年

相關(guān)博士學(xué)位論文 前10條

1 何馨宇;基于文本挖掘的生物事件抽取關(guān)鍵問題研究[D];大連理工大學(xué);2019年

2 張海彬;貝葉斯統(tǒng)計在文本挖掘的若干研究[D];華東師范大學(xué);2019年

3 楊超;基于SAO結(jié)構(gòu)的科技文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2016年

4 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

5 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年

6 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

7 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2000年

8 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

9 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年

10 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 王浩宇;基于網(wǎng)絡(luò)游記文本挖掘的赴三亞國內(nèi)旅游者偏好研究[D];海南大學(xué);2019年

2 劉玄;基于文本挖掘的高鐵經(jīng)濟研究現(xiàn)狀及趨勢研究[D];北京交通大學(xué);2019年

3 韓博;基于文本挖掘的企業(yè)競爭情報系統(tǒng)分析與設(shè)計[D];上海交通大學(xué);2016年

4 吳雨希;基于文本挖掘的視頻標簽生成及視頻分類研究[D];上海交通大學(xué);2016年

5 高雅婷;基于刑事案件要素的文本挖掘系統(tǒng)研究與實現(xiàn)[D];長安大學(xué);2019年

6 崔鵬程;基于文本挖掘的學(xué)術(shù)文獻內(nèi)容智能識別方法研究[D];北京交通大學(xué);2019年

7 王偉超;基于網(wǎng)絡(luò)信息文本挖掘的股市危機預(yù)警體系研究[D];浙江大學(xué);2019年

8 秦璇;文本挖掘用于藥物活躍基因篩選及雷帕霉素案例分析[D];華中農(nóng)業(yè)大學(xué);2019年

9 韓利利;中標公告文本挖掘方法及在政府采購中的應(yīng)用研究[D];山東財經(jīng)大學(xué);2018年

10 李清鎮(zhèn);基于文本挖掘的筆記本電腦網(wǎng)評分析[D];蘭州財經(jīng)大學(xué);2019年



本文編號:2609678

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyaoxuelunwen/2609678.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cde31***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com